PR

 ドキュメントスキャナーが本領を発揮するのは、ここからだ。デジタル化した文書データは、生かすも殺すもアイデア次第。ポイントは「検索」「管理」「保管場所」──の3つ。“攻め”の活用術を紹介しよう。ここでは、キヤノンの「imageFORMULA DR-2510C」(imageFORMULA)を使った実験結果も紹介する。

 データ活用のための最初のポイントは「検索」。ファイルの内容を、テキストやワープロファイルと同様、キーワードで検索できるようにするのだ。実は多くの製品では、標準設定のままでPDF形式で保存しても、中身を検索できない、ただの画像となる。検索可能なPDFは、通常の画像だけのPDFと区別され、「検索可能なPDF」「透明テキスト付きPDF」などと呼ばれる(図1)。

図1 ドキュメントスキャナーは、JPEGやTIFFといった画像ファイルに加え、PDFに対応しているのがポイント。PDFには、複数ページを1つのファイルとしてまとめられるほか、テキストを含めることもできる
[画像のクリックで拡大表示]

 検索できないPDFはあまり役に立たない。会議の議事録など、文字ばかりの文書は目的の個所を探し出すだけでも一苦労だ。そこで、OCR(光学的文字認識)の力を借りる。ドキュメントスキャナーの多くは、文書を読み取り中にOCR処理を施し、最終的に検索可能なPDFを作成する機能を備える(図2)。

図2 検索できる理由は、OCR処理の結果、画像の表面に目に見えない透明なテキストを埋め込むため。画像の中の文字の部分に、OCR処理で認識したテキストをぴったり重ね合わせる。ちょうど、紙の上に透明な紙を重ね合わせるイメージだ
[画像のクリックで拡大表示]