フリーソフトのPDF XChange Viewer(無料版)のOCR機能と、有料製品の読んde!!ココ Ver.13(エプソン)のOCR機能を比較してみました。

FUJITSU ScanSnap S1500
のデフォルト設定でPDF化した少し古い本(元サイズB5版位)の1ページです。

まずは、PDF Xchange Viewer(無料版)のOCR機能を使ってテキスト情報を抽出します。

004D1B92.png
Xchange viewerのOCR設定の様子

やり方は、ツールバーのOCRボタンを押して出てきたダイアログボックスでページ指定と、Primary Language をJapaneseに変更してOKを。

ちょっと読めませんね。
Xchange viewer でのOCR結果

メニューの、ツール(T)→基本ツール→選択ツール(L)でカーソルが手袋から矢印に変わったら文章上でドラッグすると選択状態になります。
テキスト選択後コピーして、メモ帳に貼り付けたものがこちら。

だいぶがんばっているようですが、すんなりとは読めませんね。

これが「透明テキスト」の中身なのですが、この認識レベルだと、後で特定の文字列を全文検索などしても引っかかりそうにありません。何しろ元ファイルがこれだけ崩れていては。

そして、読んでココ(正しくは、読んde!!ココ)。

このソフトは、昔に購入したEPSONフラットヘッドスキャナにバンドル(付属)していたパーソナル版からアップグレード購入(読んde!!ココ Ver.13 アップグレード版 for ダウンロード [ダウンロード])したものです。

00070076.png
読んでココでPDFを読みこむ

読んでココを立ちあげて、メニューの、ファイル(F)→PDFファイルから取り込む→ファイル名指定→ページ番号指定後、このような画面になるので、

OCR認識結果のテキスト
OCR認識結果

ここでクリップボードに転送を押すと、認識結果のテキスト情報がコピーされるので、これもまた、メモ帳に貼り付けました。

d873b4ab.png
読み取ったPDFと両者のOCR結果比較

コチラは前と違ってほぼ完全に認識されていてストレスなく読むことができます。
並べて比較してみました。

まとめ

国産有料ソフトでは、ここまで完全に認識されるなら、文章だけの小説本などはPDFファイルのままで閲覧するよりも、少しだけ手間はかかりますが、OCR→テキストファイル化することによって文字サイズやフォントの変更が出来るようになるので、他のソフトや電子ブックリーダーやスマートフォン等にに送った時に格段に読みやすくなると思います。
読んde!!ココ Ver.13 ダウンロード版 [ダウンロード]
読んde!!ココ Ver.13 ダウンロード版 [ダウンロード]


Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)




 

PDFを逆変換する

PDFからWord・Excel・一太郎形式に逆変換できるソフト。おすすめです。
国内最高の変換精度OCR機能を標準装備透明テキスト付きPDFも作成可能。

パッケージとインストールメディア無しの、お得なダウンロード版(下記、グリーンの商品リンク)もあり。

Microsoft Windows 7 (32ビット/64ビット)にも対応しています。


瞬簡PDF 変換 7』(アンテナハウスの製品HP)
変換デモ動画:【瞬簡PDF活用教室】(アンテナハウス)

スポンサードリンク


以下は旧製品の詳細
(旧記事)

リッチテキストPDF5.2 プロフェッショナル

スタンダードにOCR機能(文字認識処理機能)とアドイン変換機能をプラスした上位版です。
OCR機能を使用した変換では、変換元が画像のみで構成されたPDFファイルでも、OCRにて文字を読み取ることで変換先に文字として出力することが可能となります。
また、MS-Office 2000~2007(Word、Excel、PowerPoint)にアドインで変換機能を組み込むことにより、PDFを直接WordやExcel、PowerPointで読み込み編集することができます。
※OCRを使用した変換の詳細については「OCR機能について」を参照下さい。
標準価格 15,540円(税込)

リッチテキストPDF5.2 スタンダード

OCRなし
PDFとワープロを相互に変換する「リッチテキストPDF5.2」のスタンダードバージョンです。PDFからWord、Excel、PowerPoint、一太郎へ文字や図形、レイアウトなどを変換出来る他、PDFからの変換時に表や段組、ヘッダ/フッタの有無などを指定できる「変換詳細設定機能」を搭載し、変換精度を更に改善しました。
PDFの作成では「Antenna House PDF Driver V4.0 Professional」を標準搭載し、印刷可能なアプリケーションがあればPDFを簡単に作成可能です。また、複数ファイルを一括でPDF化することもできます。この他にも、PDFの分割・結合やセキュリティ付加、PDFからテキストやイメージ抽出する機能など、PDFを利用するための豊富な機能が搭載されています。
※スキャナで紙媒体を読み込んで作成したPDFのように、文字等が画像化されているPDFからの変換では画像がそのまま出力されます。
標準価格 10,290円(税込)

リッチテキストPDF5.2 (アンテナハウス)HP: http://www.antenna.co.jp/RPD/

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)

国産フリーソフトではめぼしいものはありません。

英語版だとこのようなもの(Free PDF to Word Doc Converter)もありますが、日本語が文字化けしてしまいます。
有料ソフトでは、本家のAdobe Acrobatや、おすすめの瞬簡PDF 変換 7 (旧名称リッチテキストPDF)(アンテナハウス)、売上No.1のいきなりPDF(ソースネクスト)ほかいろいろあります。
無料で使えそうなものなら、オンラインサービスですが、PDF to Word ・PDF to Excelが良さそうです。

  PDFをオフィス形式ファイル(doc、xls、rtf など)に逆変換する場合、元のPDFが主にテキスト主体ならほぼ上手くいきますが(元のPDFとそっくりなdoc(など)に変換される)、テキストと画像が複雑に入り混じったPDFや、文字の大きさ・色がさまざまなPDF、段組や表が複雑に使用されているPDFの場合、変換しても、段組が大きく崩れたり、テキストが文字化け風に変換されてしまったりする事もあり、なかなか一筋縄では行きません。
PDFをオフィス用ファイル に逆変換したいということは、文書の内容を再利用・編集したいからだと思うのですが、PDFには大雑把に言うと
  • テキスト情報(+線画・画像)主体のPDF (ワードなどから作成したもの)
  • 画像系のPDF (写真・イメージ・スキャナから取り込んでテキスト情報の無いもの)
があります。一見同じPDFに見えますが、文字を編集する場合以下のような違いあります。
テキスト主体(+画像)系のPDF

ワードなどから作成したPDFはテキストデータが含まれているので、テキストファイル(txt)には容易に変換できますし、MSオフィス形式ファイルなどに変換する場合も、段組を再現するとき多少崩れることはありますが、だいたい元のPDFと似たような感じに変換されます。
ただし、フリーソフトではめぼしいものは有りません。有料ではいろいろ良さそうなものがあります。全て試したわけではありませんが、値段相応と思われます。

画像系のPDF

画像系のPDFは一度、画像から文字情報を認識しなければなりません。

 それがOCR (Optical Character Reader【光学式文字読取】)で、そのソフト(の日本語用)は開発に相当なコストがかかるためか、フリーソフトでは現在ありません ほとんどありません。
フリーソフトのPDF XChange Viewer(無料版)はOCR機能がありますが、日本語に使用した場合、認識率が悪く実用には難があります。【参考リンク:OCR 精度の比較 無料版と有料(製品)版

 

 PDFに含まれる画像(図表・線画)を取り出すだけで、あとで自分でワード等に貼付けて再利用したいなら、PDF Explorerなどのフリーソフトで取り出すことができますし、画面をキャプチャするソフトで強引に切り出すという方法もあります。

OCR ソフトは、商用では『読んde!!ココ』や、『読取革命』など、数種類、一万円前後まででもありますし、スキャナを買うと簡易版が付属してくることもあります。それらのソフトではワード・エクセルへの変換も、まず満足できるレベルで可能です。

ちょっと古いですが、コチラなども参考にしてみてください。
PC Online【記事】: PDFをOffice文書に逆変換

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)