全1745文字

 「漫画の翻訳にかかる時間を減らし、日本語版と翻訳版を同時に配信できれば、海賊版の出回るのを抑えられる」――。こう話すのは、漫画に特化した機械翻訳技術の開発を手掛けるベンチャー企業、Mantra(東京・文京)代表取締役の石渡祥之佑氏だ。同社は2020年1月に設立。同社が開発した漫画の翻訳支援技術「MANTRA ENGINE」は、これまでハードルが高かった漫画の吹き出しや擬音の文字認識、文章翻訳に新たに対応した。同年4月には白泉社(東京・千代田)が、アフリカンSFヒーロー漫画「READ」の翻訳に同システムを利用するなど、漫画界で利用が始まりつつある。

図1 学習データの生成と、学習結果の「認識モデル」
図1 学習データの生成と、学習結果の「認識モデル」
フォント(書体)と文字を組み合わせて、漫画の背景上に出力して、学習データを生成。そのデータを利用して「認識モデル」を生み出す。(出所:Mantra)
[画像のクリックで拡大表示]

 MANTRA ENGINEの特徴は、漫画の翻訳や写植、原稿のやり取り、データの加工など、一連の翻訳作業にかかる時間を従来の約半分にできる点だ。翻訳作業にかかる時間を減らすことで、海賊版漫画を減らせる可能性がある。正規の翻訳漫画を用意するまでに時間がかかるため、その間に海外で海賊版が広がってしまうケースが多いからだ。石渡氏は「集英社は同社の漫画配信サイト『MANGA Plus by SHUEISHA』で、一部の漫画の翻訳版を日本語版とほぼ同時に配信している。翻訳版を配信する漫画は海賊版の出回りも少ない。海外のファンも不都合がなければオリジナルを読みたい」と話す。

 漫画の機械翻訳は、文字認識と文章翻訳の両面で技術的なハードルが高かった。まず漫画の文字認識は、対象となる文字は吹き出し内のせりふから吹き出し外の説明文、さらに背景の擬音など多岐にわたる。従来のOCR(光学式文字読み取り装置)を使った文字認識では、吹き出し内のせりふさえ読み取るのが難しいという。漫画で利用する文字フォント(書体)が多様である点や、ページ内に変形した文字が混在していること、漫画の背景の影響を受けながら文字認識しなければならない点などが技術的に難しかった。

 同社は、データとアルゴリズムの両面から工夫することで、こうした漫画のページに使われるさまざまなフォントや変形文字などを文字認識できるようにした。具体的にはひらがなやカタカナ、漢字など4000文字以上を数百のフォントを使って、さまざまな漫画の背景上に出力。こうした画像をデータとして利用し、吹き出しの内外で表現される文字を学習して漫画に特化した「文字認識モデル」を作り出した(図1)。