狐火家

twitterでは物足りない?ならばブログだ!今のところ読んだ雑誌メモとか本のメモとかになるんじゃないかという噂。

PDFをOCR認識させるときになるべく小さいサイズにするためのメモ

最近iPadの登場で自炊とかの記事が増えてきて、その関係でAcrobatを持ってればスキャン画像をOCR認識できる!しかも1クリックで!という事を知ったから色々試してみました。

PDF化

元ファイルは大体2500*3500くらいのA4のスキャン画像6枚。(PNG形式、合計19.6MB)
まずこれをAcrobat8の機能でPDFとして統合。右クリックから「対応しているファイルをPDFに統合」を押して順番と画質を確認してOKを押して待つだけ。1分もすればPDFが完成するのでまずそれを保存。この時点で2.47MBに縮小されました。

OCR認識,ファイルサイズ縮小

この先が今回のメインのOCR認識とファイルサイズ縮小。
完成したPDFファイルをAcrobat8で開いてメニューの「文書」を押すと使えそうなメニューがズラッと登場。さすが高かっただけあるw
この中から「スキャンしたPDFを最適化」と「OCRテキスト認識」の2種類を使ってみることに。
とりあえずオプションをいじらずにOCRテキスト認識をさせてみると、出来上がったファイルは2.17MBOCR認識の時点で若干サイズも落ちるのです。


次に、元のファイルから先に「最適化」を実行してみました。この場合は画質が見た目でちょっと分かる程度に落ちるけど、ファイルサイズもガクッと低下。294KB。単位が違う。
しかし、ファイルサイズが縮んだことに機嫌を良くしてOCR認識をかけると…
なんということでしょう!
ファイルサイズが2.45MBになってしまいました!
最適化前とほとんど同じですね。これだと画質が下がった残念なファイルです。


そこで、気を取り直して先にOCR認識させておいたファイルを最適化してみることに。
これが大当たり。ファイルサイズ304KBに。
しっかりテキストも認識されています。

まとめ

ごちゃごちゃ書いたけど、スキャンた画像から生成したPDFファイルにOCR認識でテキストつけて、それでファイルサイズを下げるには
PDF化→OCR認識→最適化
が一番無難なようです。