全1442文字
PR

 日本語でありながら、限られた人しか読めない「くずし字」。このくずし字を解読するシステムを約6年かけて開発したのが凸版印刷だ。ニッチな分野のサービス開発に長い期間をかけた背景には、ある狙いがあるという。

 同社は2021年2月16日、Webブラウザー上で古文書を解読するシステム「ふみのはゼミ」を発表した。AI(人工知能)を組み込んだOCR(光学的文字認識)である「AI OCR」を使い、版木に彫るなどして印刷した「版本」と手書きのくずし字を解読する。AI OCRの目標精度は版本の読み取りで90%だ。

 ふみのはゼミはWebブラウザー上で解読したい範囲を指定するとAIが連続する文字列を自動で区切り、読み取った平仮名や漢字をくずし字の真横に表示する。目視による校正もでき、校正結果をAIに再学習させて読み取り精度を高められる。他の参加者の作業をリアルタイムで表示する画面共有機能や解読した文字や単語に対して質問やコメントをつける機能も備えており、教育やイベントでの利用を見込む。

「ふみのはゼミ」の画面イメージ。AIが読み取った平仮名や漢字の候補を複数表示する
「ふみのはゼミ」の画面イメージ。AIが読み取った平仮名や漢字の候補を複数表示する
出所:凸版印刷。文書は『源氏物語』で国文学研究資料館所蔵
[画像のクリックで拡大表示]

 ふみのはゼミと同じAI OCRを使い、大量のくずし字をテキスト化するサービスも同時に始めた。古文書や古典籍を所蔵する博物館などの利用を見込んでいる。

国文学研究資料館と共同研究

 同社がくずし字を判別するOCRの開発に取り組み始めたのは約6年前のことだ。OCRを使った書籍の電子アーカイブ事業を進める中で、明治時代以前のくずし字もアーカイブできないかと顧客から打診を受けたのがきっかけだった。2015年に国文学研究資料館と共同でOCRの研究を始めた。

 2016年ごろからくずし字のデータベースの構築に取り組んだ。版本から約100万字のくずし字データを整備する国文学研究資料館の事業において、同社がデータの製作を担ったという。手書きのくずし字データも古文書から独自に集めた。

AIに学習させたくずし字の一例。同じ字でも様々なバリエーションがある
AIに学習させたくずし字の一例。同じ字でも様々なバリエーションがある
(出所:凸版印刷)
[画像のクリックで拡大表示]

 2017年には同社独自のAIの開発を始めた。教師データは解読済みの版本と手書きのくずし字データだ。版本のくずし字は形がそろっている一方、手書きのくずし字は書き手の癖や文字の大きさの揺れがある。同社はそれぞれの文字認識を最適化するため、活字と手書きに特化したAIを別々に作った。完成したAIは版本なら90%、手書きなら60~80%の目標精度でくずし字を読み取る。