全969文字
PR

紙の書類をスキャンしワード文書に再利用

 印刷した契約書は手元にあるのに、ワードのデータが見当たらないといった場合、以前なら入力し直すしかなかったが、今はよい方法がある。印刷物をスキャンして PDFファイルとして保存するのだ。通常のPDFファイルは、見た目を画像として保存しているだけなので、テキスト情報が付いていない。しかし、文字認識(OCR)処理をすれば、画像からテキストを生成することが可能だ(図1)。専用のOCRアプリがなくても、ワードでPDFを開くだけで、編集可能なワード文書になる。

テキスト情報のないPDFもワード文書に
テキスト情報のないPDFもワード文書に
図1 紙の書類をスキャンしただけのPDFは文字情報がない。しかし、ワードで開くことで文字認識(OCR)処理が行われ、通常のワード文書と同様に文字列の編集ができる
[画像のクリックで拡大表示]

 スキャナーで読み込む際には、解像度を「300dpi」程度に上げたほうが文字認識の際、正確に読み取れる。スキャン後のPDFファイルは、ワードで開くと同時にOCR機能により文字が認識され、編集可能なワード文書として開く(図2〜図3)。一般的なフォントで作成された文字中心のモノクロ文書なら、ほぼ問題なく文字が認識される。テキストをコピーすれば別のアプリでも使える。一部、誤認識される文字列もあるので、ワードで開いた後は入念にチェックしよう。

テキスト情報のないPDFをワードで開く
テキスト情報のないPDFをワードで開く
図2(左側) ワードを起動して、「ファイル」→「開く」→「参照」と順に選択(1、2) 図3(右側) ファイルの形式が「すべてのWord 文書」となっているが、PDFファイルも表示されるので問題ない。目的のPDFファイルを選び、「開く」を押す(1、2)
[画像のクリックで拡大表示]
図4 PDFファイルを開くと確認画面が表示されるので、「OK」ボタンを押す(1)。OCR機能により文字が認識され、編集可能なワード文書として開く(2)。誤認識されることもあるので、チェックして適宜修正する
図4 PDFファイルを開くと確認画面が表示されるので、「OK」ボタンを押す(1)。OCR機能により文字が認識され、編集可能なワード文書として開く(2)。誤認識されることもあるので、チェックして適宜修正する
[画像のクリックで拡大表示]