PR

まだまだ性能を向上できるかな漢字変換

 ワープロに残されたもう一つの道は,日本語処理技術の向上である。機能追加に限界が見えてきたワープロ本体とは違い,かな漢字変換ソフトはまだまだ性能を上げられる。言語処理技術はいまだ発展途上にあり,これから進歩する余地はいくらでもあるからだ。「我々はATOKを,単なるかな漢字変換ソフトでなく,日本語入力全般を支援するソフトと考えている。変換の精度面でも入力効率の面でも,やるべきことはまだまだ残っている」(ジャストシステムATOK製品開発部ATOKプロダクトオーナーの阿望博喜氏)。

 具体的にATOKが目指していることの一つが,正しい日本語入力の支援である。一太郎13に含まれる最新版「ATOK16」では,この部分に着目した新機能「フィードバック変換」と「名称変更アシスト」を搭載した(写真6[拡大表示])。

 フィードバック変換とは,確定済みの直前の文字列の誤りを指摘すること。その後に入力された単語が何かによって判断する。前後の単語の情報を利用して正しい文字を出す仕組みは,現在製品化されているかな漢字変換システムの多くが持っている。ATOK16は,さらに確定済みの直前の文字列に対してもそれを実行して誤りを指摘する。

 名称変更アシストは,名称が変わり現在では使用されていない語を変換しようとした場合,その誤りを指摘する機能である。「おおくらしょう」という入力に対して,「財務省」をコメントで表示するというものだ注4)

写真6●「ATOK16」の新機能
フィードバック変換(左)と名称変更アシスト(右)。フィードバック変換は,直前の確定済みの文字列に対して誤りを指摘するもの。この状態でShift+Enterキーを押すと,「人工」が「人口」に置き換わる。名称変更アシストは,「大蔵省」など現在は使用されていない名称を入力した際に表示される。ただし「旧大蔵省」という入力に対しては,誤りではないと判断し何も表示しない。
写真7●Japanistに含まれるツール「メディアパネル」
デスクトップ上に表示され,辞書引きやインターネット検索などができる。

性能向上,機能追加の両面で進化する

 ATOKはこの先,さらなるかな漢字変換の精度向上を目指している。それは,「人格」を持った文書を正しく作成できるソフトであるという。具体的には,人や企業に特有の言葉遣いなどをATOKが学習し,それに合った語の提案をすること。「ビジネス文書でも,企業によって何らかの性格がある。文書作成時に,それに合った言葉の提案をしたい。また,表現の幅を広げたい場合などには,同じ意味を持つ別の言葉も提示したい」(ジャストシステムの阿望氏)。

 「VJE-Delta」を開発/販売するバックスも,同じく性能向上の可能性を語る。「これからは,キーボードだけでなく音声での入力シーンも増えてくるだろう。しゃべった通りの言葉を文字として入力できるソフトは,現在でも存在する。これをさらに進化させれば,適当にしゃべってもそれなりに文章を作ってくれることも夢ではないのではないか」(バックス国際言語処理システム部の藤川礎久主任)。例えば公式な文書を作りたい,など,作成前に文書の種類をかな漢字変換ソフトに指示しておく。その後適当に内容を話せば,公的な表現に変換してくれるというものだ。

 機能追加によるかな漢字変換ソフトの進化の可能性を語るのは富士通である。かな漢字変換ソフトがすべてのアプリケーションの入力手段として使われる点に着目して,Japanistをデスクトップ環境のポータルにしたいと考えている(写真7[拡大表示])。「例えば現状のJapanistでは,Windowsを起動した後に“ワープロ”と入力するとOASYSが起動する。辞書を引いたり,入れた言葉でインターネット検索をしたりもできる。このように,ユーザーの作業を総合的に支援する方向で進化させたい」(富士通の押金氏)。

かな漢字変換技術が世界へ羽ばたく

 かな漢字変換に使われている日本固有の言語処理技術には,世界展開の可能性も見えてきている。文字列の変換処理は,入力機器のキーよりも文字数の多い言語の入力で必要となる。このため英語圏などでは不要な技術だったが「携帯電話やPDAの普及で,言語の文字数よりもキーの数が少ない状況が世界中で発生するようになった。ここで,日本のかな漢字変換技術が世界に広がる可能性が出てきた」(東京大学情報学環工学部計数工学科の田中久美子講師)。

 東京大学大学院工学系研究科情報工学専攻/計数工学専攻の武市正人教授,田中講師の研究室では,「Touch Me Key 10」という入力システムを開発している。携帯電話など,キーが限られた機器から日本語を入力する。子音が割り当てられたキーを一度ずつ押すだけで,適切な漢字文字列を上位に表示する([拡大表示])。

 この技術は,米Tegic Communications社が開発した文字入力技術「T9」と似ている。しかし,T9はひらがなを一度ユーザーが選び,改めて変換し直す。Touch Me Keyではこの手間を省き,キーを打つだけで適切な漢字文字列が候補に表示される。T9に比べて候補となり得る単語数が多くなるため「T9より賢い言語モデルが必要。これまで日本で蓄積されてきたかな漢字変換のノウハウが生きる」(田中氏)。

 単語の候補の順位は,その単語が使われる可能性の高さによって決まる。大量の文書データを用意し,それを解析して単語の出現頻度を調べた。また,すでに変換済みの単語を見て,それとの連接のしやすさも考慮する。さらに,そのユーザーの過去の変換の履歴も加味して候補の順位を決める。これらの処理を組み合わせ,より適切な単語が上位にくるようにする。

 この仕組みは,日本語以外の言語にもそのまま適用できる(写真[拡大表示])。その国の言葉で書かれた文書データさえあれば,単語の頻度や単語と単語の連接のしやすさは算出できるからだ。このため「かな漢字変換の手間が,今までは足かせだった。しかし,この経験が強みになる可能性がある。T9よりも高度な仕組みを使うため,変換精度や使い勝手を上げられる」(田中氏)という。現在ジャストシステムがこの技術のライセンス供与を受け,製品化に取り組んでいる。

図●「Touch Me Key 10」と他の方式の違い
文字の子音に対応付けられたキーを一度ずつ押すだけで,可能性の高い漢字文字列が表示される。ひらがな文字列をユーザーが選択し,変換する必要がないのが「T9」との違いである。
写真●Touch Me Key 10のフランス語版
日本語に依存した処理ではないので,同じ仕組みが他の言語にも適用できる。その国の言葉で書かれた大量の文書データがあればよい。

(八木 玲子)