フリーソフトのPDF XChange Viewer(無料版)のOCR機能と、有料製品の読んde!!ココ Ver.13(エプソン)のOCR機能を比較してみました。

FUJITSU ScanSnap S1500
のデフォルト設定でPDF化した少し古い本(元サイズB5版位)の1ページです。

まずは、PDF Xchange Viewer(無料版)のOCR機能を使ってテキスト情報を抽出します。

004D1B92.png
Xchange viewerのOCR設定の様子

やり方は、ツールバーのOCRボタンを押して出てきたダイアログボックスでページ指定と、Primary Language をJapaneseに変更してOKを。

ちょっと読めませんね。
Xchange viewer でのOCR結果

メニューの、ツール(T)→基本ツール→選択ツール(L)でカーソルが手袋から矢印に変わったら文章上でドラッグすると選択状態になります。
テキスト選択後コピーして、メモ帳に貼り付けたものがこちら。

だいぶがんばっているようですが、すんなりとは読めませんね。

これが「透明テキスト」の中身なのですが、この認識レベルだと、後で特定の文字列を全文検索などしても引っかかりそうにありません。何しろ元ファイルがこれだけ崩れていては。

そして、読んでココ(正しくは、読んde!!ココ)。

このソフトは、昔に購入したEPSONフラットヘッドスキャナにバンドル(付属)していたパーソナル版からアップグレード購入(読んde!!ココ Ver.13 アップグレード版 for ダウンロード [ダウンロード])したものです。

00070076.png
読んでココでPDFを読みこむ

読んでココを立ちあげて、メニューの、ファイル(F)→PDFファイルから取り込む→ファイル名指定→ページ番号指定後、このような画面になるので、

OCR認識結果のテキスト
OCR認識結果

ここでクリップボードに転送を押すと、認識結果のテキスト情報がコピーされるので、これもまた、メモ帳に貼り付けました。

d873b4ab.png
読み取ったPDFと両者のOCR結果比較

コチラは前と違ってほぼ完全に認識されていてストレスなく読むことができます。
並べて比較してみました。

まとめ

国産有料ソフトでは、ここまで完全に認識されるなら、文章だけの小説本などはPDFファイルのままで閲覧するよりも、少しだけ手間はかかりますが、OCR→テキストファイル化することによって文字サイズやフォントの変更が出来るようになるので、他のソフトや電子ブックリーダーやスマートフォン等にに送った時に格段に読みやすくなると思います。
読んde!!ココ Ver.13 ダウンロード版 [ダウンロード]
読んde!!ココ Ver.13 ダウンロード版 [ダウンロード]


Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)




PDF文書をフリーソフトでwordに手動で変換・再利用する(Foxit J-Reader を使用)

まず、もとのPDFをFoxit J-Reader で開き、

  1. テキスト表示ボタン(文書とメガネのアイコン)を押して、 PDF中のテキストが表示されていれば、それを選択し、コピー後、WORDで新規作成した文書に貼りつける。フォントサイズや段組などを調整する。
  2. もとのPDFから取り出したい画像・グラフ等があれば、 画像コピーボタン(カメラのアイコン)を押し、切り出したい画像を矩形選択すると、クリップボードにコピーされるので、WORD上の挿入したい場所でペースト(貼りつけ)する。

1・2 をくり返して完成させる。罫線・デザイン他は新たに作成しなければならないが。

なお、テキスト表示ボタンでテキストが表示されない場合は透明テキストが付加されていません。元のPDFは全面画像化されている(もしくはコピー禁止化されている)ので、OCR(画像から文字認識)をかけないと文字情報は取り出せません。
その場合は、OCRソフトを買う(フリーソフトでは有りません)か、文字を手打ちで入力(しょうがない)し、画像は上記の方法で取り出し(コピーできないときはスクリーンキャプチャーソフトを別途使用して取り出し)、貼り付けます。

数ページの変換ならこれでなんとかいけますが、たくさんある時は、瞬簡PDF変換 7 (旧名称リッチテキストPDF)【有料】等を購入するほうがいいでしょう。一発でイメージどうり以上にしてくれます。
PDFは基本的に”見るため”のものなので、変換・編集するには、手間かお金がかかります。

コチラも参考にどうぞ:フリーソフトのPDF XChange Viewer(無料版)のOCR機能

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)


Windows 7 にもオススメ!なPDF変換フリーソフト

BullZip PDF Printer
BullZip PDF Printer メイン画面

印刷系PDF作成ソフト。「印刷(p)」コマンドからPDFを作成するポピュラーなタイプで、PrimoPDFなどとほぼ同じ機能です。

特 徴

  • 画像ファイル(JPEG/PNG/BMP/TIFFほか)としての出力も可能
  • 透かし(”社外秘”、”SAMPLE”等なんでも)の付加
  • 既存のPDFに結合する形で出力可能(前・後・ページ指定)
  • パスワードの付加や印刷の可否を設定可能
  • 透明テキストが付加されるので、語句で検索できるPDFができる(元にテキストが含まれている場合)。

基本スペック

  • PDFのバージョン: 1.1~1.5
  • セキュリティ: パスワード(40 or 128bit)、印刷の可否
  • 作成品質: 4段階(画面・eBOOK・プリンタ・製版)から選択可
  • プロパティ: 題名・検索用キーワード設定…等

外国製ですが、インストールから日本語を選べるので日本語化に手間がかかる事もありませんし、使用感も国産ソフトと遜色ありません。 作成した日本語の文書も、特に文字化け等もなく、普通に使えました(Windows 7 64bitで確認済)。実際に作成したPDFはこちら

アップデートもこまめにされており、フリーで利用できますが完成度も高く使い勝手も良い感じです。

 

ダウンロード: BullZip PDF Printer 【64Bit OK!】

Windows 7 への対応: Windows 7、Vista ともに正式対応しています(64- and 32-bit)。

GIGAZINE記事: PDFファイルを作成可能なフリーソフト「BullZip PDF Printer」

 

タイトルや題名など日本語の文字化け防止アドイン: こちらをクリック
もしうまく動作しないときは、Ghostscript 8.64 以降がインストールされているか確認してください。
ゴーストスクリプト: 
http://www.bullzip.com/products/pdf/info.php#SystemRequirements

 

スポンサードリンク

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)




 

Adobe リーダーでもいろいろな検索ができます。(Adobe Reader 9.3)

検索ツールバーで現在開いているの文書内のを検索も可能ですが、メニューの、編集(E)→検索(F)で検索ウインドウを開いて、指定のフォルダの全てのPDFを検索することもできます。

検索ウインドウでは、完全一致・部分一致・タイトル・日付・注釈 etc.を含めるかどうかなど細かく指定できます。

もちろん、内容の語句を検索するならキーワードが設定してあるPDFか、テキスト情報(透明テキスト)の含まれるPDFでないと検索には掛かりません。画像集なPDFはNGです。

スポンサードリンク

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)




XPSはマイクロソフト版 PDFです

Windows Vista ,7にはもとからインストールされています。

印刷ダイアログで『Microsoft XPS Document Writer』を選ぶと.xps ファイルが出来上がります。

XPS 印刷ダイアログ
印刷ダイアログ

仮想プリンタドライバーから作成される CubePDFBullzip PDF Printer など一般的なPDF作成ソフトと同じ要領です。

xps viewer
XPS ビューアーのスクリーンショット

透明テキストも付加されるので、語句の全文検索も可能です。

 

以下引用

XML Paper Specification (XPS) は、マイクロソフトが Windows Vista から採用したドキュメント ファイル形式である。特徴としてXPS ドキュメントは、印刷方法の向上、より簡単な共有、より強力なセキュリティ、および信頼性の高いアーカイブを実現する。

XPS は Adobe 主導の Portable Document Format (PDF) に対抗するものだが、PDF と異なり動的コンテンツを含むことが出来ない。あくまでも静的な電子文書です。

Windows Vista には、XPS ドキュメント機能が組み込まれています。印刷時にプリンタとして Microsoft XPS Document Writer を選択することにより、どのアプリケーションからでも XPS ドキュメントを生成できます。また、XPS ドキュメントをダブルクリックすると、XPS ビューアが自動的に開き、ドキュメントを表示することができます。

2009年6月に ECMA-388 Open XML Paper Specification (OpenXPS) として国際標準規格となりました。

 

ダウンロード Microsoft XPS Viewer(for XP)

XPSを削除するフリーソフトXPS Removal Tool【Gigazine記事へ】

Amazonで PDF 関連のおすすめ商品を探す(有償ソフト)