フリーソフトのPDF XChange Viewer(無料版)のOCR機能と、有料製品の読んde!!ココ Ver.13(エプソン)のOCR機能を比較してみました。
FUJITSU ScanSnap S1500
のデフォルト設定でPDF化した少し古い本(元サイズB5版位)の1ページです。
まずは、PDF Xchange Viewer(無料版)のOCR機能を使ってテキスト情報を抽出します。
![Xchange viewerのOCR 004D1B92.png](/wp/wp-content/uploads/ex_img/004D1B92.png)
やり方は、ツールバーのOCRボタンを押して出てきたダイアログボックスでページ指定と、Primary Language をJapaneseに変更してOKを。
![Xchange viewer でのOCR結果 ちょっと読めませんね。](/wp/wp-content/uploads/ex_img/003815AE.png)
メニューの、ツール(T)→基本ツール→選択ツール(L)でカーソルが手袋から矢印に変わったら文章上でドラッグすると選択状態になります。
テキスト選択後コピーして、メモ帳に貼り付けたものがこちら。
だいぶがんばっているようですが、すんなりとは読めませんね。
これが「透明テキスト」の中身なのですが、この認識レベルだと、後で特定の文字列を全文検索などしても引っかかりそうにありません。何しろ元ファイルがこれだけ崩れていては。
そして、読んでココ(正しくは、読んde!!ココ)。
このソフトは、昔に購入したEPSONフラットヘッドスキャナにバンドル(付属)していたパーソナル版からアップグレード購入(読んde!!ココ Ver.13 アップグレード版 for ダウンロード [ダウンロード])したものです。
![読んでココ 00070076.png](/wp/wp-content/uploads/ex_img/00070076.png)
読んでココを立ちあげて、メニューの、ファイル(F)→PDFファイルから取り込む→ファイル名指定→ページ番号指定後、このような画面になるので、
![OCR認識結果 OCR認識結果のテキスト](/wp/wp-content/uploads/ex_img/0001191C.png)
ここでクリップボードに転送を押すと、認識結果のテキスト情報がコピーされるので、これもまた、メモ帳に貼り付けました。
![OCR結果比較 d873b4ab.png](/wp/wp-content/uploads/ex_img/d873b4ab.png)
コチラは前と違ってほぼ完全に認識されていてストレスなく読むことができます。
並べて比較してみました。
まとめ
国産有料ソフトでは、ここまで完全に認識されるなら、文章だけの小説本などはPDFファイルのままで閲覧するよりも、少しだけ手間はかかりますが、OCR→テキストファイル化することによって文字サイズやフォントの変更が出来るようになるので、他のソフトや電子ブックリーダーやスマートフォン等にに送った時に格段に読みやすくなると思います。
読んde!!ココ Ver.13 ダウンロード版 [ダウンロード]
Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)