PR

 各製品を一通り見たところで、一般的な注意点を述べよう。まずはOCR型における文字の誤認識。これはOCRの宿命だけに、いずれのOCR型も手作業での修正が可能。文字を一通り認識した後、元のPDFと見比べながら修正でき、訂正候補の一覧メニューから選べる製品もある。

【OCR型に誤認識はつきもの】
拡大表示
図23 OCR型のPDF逆変換では光学的な文字の誤認識がつきもの。どの製品も変換時の調整画面で誤認識を手作業で修正する機能を持つ。修正候補をメニューから選べるなど、紙(スキャナー)のOCRでつちかったノウハウがそのまま生かされている(画面は読取革命)

 OCR型ではPDFを画像に変換してOCRをかけるためラスタライズ時の解像度が気になるが、通常は適切な解像度が選ばれる。読取革命などは手動で解像度を設定できるが、むやみに高いのは禁物で「300~400dpiが適切。600dpiを超えると辞書内で設定している文字の大きさの範囲を外れてしまい、誤認識が増える可能性もある」(松下電器産業)。いきなりPDF to Dataでは72dpiから288dpiまで4段階で設定可能だ。

図24 いったんラスタライズしてからOCRをかけるため、ラスタライズ時の解像度が低いと認識精度が落ちる。解像度を自分で調整できる製品もある(画面はいきなりPDF to Data)

実は数値表に強いOCR

 正確さがキモの数値表に対してOCR型は不向きに思えるが、実はExcel書類への変換は意外と精度が高かった。0~9の数字にわずかな記号とマッチングする文字数が極端に少ないため、誤変換がほとんどない。難しい記号などでは誤変換も見受けられたが、セルの位置や区切り方などはかなりきれいに再現されていた。

【老舗のOCR型は表のExcel変換が得意】
拡大表示
図25 OCR型はExcelへの変換に関しては精度が高かったが、読んde!!ココは秀逸。そもそもデータ変換型ではExcel変換ができないものが多いので、Excel変換はOCRソフトの強みでもある
拡大表示
図26 罫線はもちろん、セルの連結まできちんと再現された。セル内での改行や数値の指数表記もばっちり