全2891文字
PR

 「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。

 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。

「NDLOCR」によるテキスト化の様子
「NDLOCR」によるテキスト化の様子
出所:国立国会図書館
[画像のクリックで拡大表示]

 NDLが蔵書のデジタル化に乗り出したのは2000年代に遡る。資料をスキャンし、主に「JPEG 2000」のフォーマットで保存、提供してきた。NDLが手掛けるオンラインサービス「国立国会図書館デジタルコレクション」から利用可能だ。

 デジタル化を進める最大の目的は資料の保存にある。時がたつほど紙は劣化していくからだ。

 ただし、NDLの狙いはそれだけではない。「デジタル化すれば、たくさんの人に見てもらえる」と、徳原室長は説明する。2022年5月19日には、絶版になった資料などを個人がオンライン経由で閲覧できるサービスも始める。

 NDLがデジタル画像化して提供済みの資料は約281万点に及ぶ。内訳は図書99万点、雑誌135万点、江戸期以前の和古書や清代以前の漢籍といった古典籍9万点、博士論文16万点、官報2万点などだ。

国立国会図書館がデジタル画像化している資料の数(2022年5月時点)
国立国会図書館がデジタル画像化している資料の数(2022年5月時点)
出所:国立国会図書館
[画像のクリックで拡大表示]

 しかし、必ずしも利用者にとって使い勝手の良いものとは言えなかった。目次や一部資料は人手や既製のOCRでテキスト化して提供していたものの、大半は画像形式での利用が前提で検索性に優れていなかったからだ。

 さまざまな資料に触れられる場を用意しても、実際に見つけ出してもらえなければ魅力を伝えきれない。そこで2021年度、AI-OCRを活用したテキストデータ化に乗り出した。