PR

 PDF逆変換の手法は大きく2つに分かれる。PDFに含まれる描画命令を解析する方法と、OCR(光学式文字読み取り)をかける方法だ。ここが第2のポイントなので、しっかり押さえておきたい。

【データ変換型とOCR型の長所短所】
拡大表示
図4 データ変換型では文字の誤認識は原理的に起こり得ない。OCR型では文字誤認識の可能性が常につきまとうが、画像中の文字も読み取れるメリットがある

 PDFファイルの中には、図やテキストなどの描画命令データが、ストリームと呼ばれる固まりごとに圧縮されて収まっている。例えばテキストのストリームであれば、文字コードのほかにフォント名やサイズ、文字位置などの情報が含まれている。さらに色情報や、各ストリームのページ内での位置情報などもある。

 これらを解析して、WordやExcelのデータに置き換えるのが第1の手法。本特集ではこれを「データ変換型」と呼ぶ。今回評価するソフトの中では「リッチテキストPDF2」「Acrobat 8 Standard」「同Professional」「PDF2Office Personal Version 2.0」が該当する。

 一方のOCR型はスキャナーでおなじみの方法。乱暴に言えば、PDFを印刷してスキャナーで読み込み、OCRで文字認識させるのと原理は同じだ。実際は印刷せずにPDFをTIFFやJPEGといったビットマップ画像に変換(ラスタライズ)し、その画像に対してOCRをかける。冒頭で紹介した読取革命のほか、今回評価するものでは「いきなりPDF to Data Professional 2」「同2」「やさしくPDF OCR v.2.0」「読んde!!ココ Ver.12」がこれに該当する。いずれもOCR機能はもともとスキャナー用のものだ。読取革命と読んde!!ココはスキャナーソフトにPDF逆変換機能も組み込んだ統合型製品(その分、価格も高め)、ほかはPDF逆変換の専用ソフトだ。

「認識」はもろ刃の剣

 OCR型の場合、画像から文字の輪郭を読み取って認識するため、文字の誤認識が生じ得る。一方のデータ変換型はPDF中の文字コードを取り出すため、原理的に誤認識は起こり得ない。半面、画像ストリームは画像としてしか再現できないため、画像中の文字の認識は不可能だ(後述する複合型を除く)。

 一方、OCR型にとって画像中の文字認識はお家芸。さらに、文書中のどの部分をどう認識させるか、ユーザーが細かく調整できるのもOCR型のメリットだ。例えば飾り文字なら、それに該当する領域を認識枠で囲み、どのタイプのデータとして認識させるかを指定できる。通常は「文字」「図形」「表」などから選べ、さらに数字や欧文など文字種まで指定できる製品もある。一般的には、読み取り対象に関する情報を細かく指示するほど認識精度は上がる。

 ただし、OCRは斜体や下線、太字などが苦手なため、それらを強引に文字認識させようとすると失敗することが多い。複雑な装飾文字などは文字認識をあきらめて画像として変換した方がきれいに仕上がる。

 なおリッチテキストPDF2はデータ変換型だが、OCR型と同じように認識枠を設定して「図」「表」「余白」などの指定ができる。Acrobat 8とPDF2Officeではこうした調整ができず、ソフトにお任せで変換する。