全2196文字
PR

 米グーグルが、ディープラーニング(深層学習)を活用することで「コミュニケーションの壁」を取り払うための技術開発に注力している。同社はその取り組みについて2019年10月末、報道機関向けに米国マウンテンビューで説明会を開催した。

 話題は大きく2つある。1つは高精度な音声認識による文字起こしアプリ。もう1つは、発話したり体を動かしたりするのが困難な人の意思伝達を音声認識技術によって支援する取り組みである。

図1 70超の言語に対応する文字起こしアプリ
図1 70超の言語に対応する文字起こしアプリ
クラウド型の音声認識による文字起こしアプリ「Live Transcribe」は、70超の言語に対応する。グーグルの担当技術者であるSagar Savla氏によれば、現状では、1対1や家族などの少人数グループでの会話向けに作られているという。
[画像のクリックで拡大表示]

 前者はAndroid端末向けに実用化済みで、クラウドで処理するタイプと、クラウドに接続することなく機器内部で処理する「on device(オンデバイス)」タイプの2種類がある。クラウド型のアプリが、「Live Transcribe」である(図1)。話し相手の発話内容をリアルタイムで文字に起こしてスマートフォンに表示させる。耳が聞こえない、あるいは音声の聞き取りが困難な人に向けて、会話をスムーズに行えるようにすることを主な目的にして開発したという。既に70超の言語に対応している。

 世界保健機関(WHO)によれば、聴覚障がい、あるいは聞き取りが困難な人は2018年時点で、世界におよそ4億6600万人いるという。その後も増え続け、2050年には9億人に達すると予測している。それだけに、Live Transcribeのようなアプリが今後ますます重要になるとグーグルはみており、Live Transcribeアプリ機能を随時向上させていく。例えば、音声認識技術の担当技術者であるSagar Savla氏によれば、現状では、1対1や家族などの少人数グループでの会話向けに作られているものの、今後はパーティーやカンファレンスといった、より多くの人が参加する会話でも高い精度で音声認識できるようにさせたいとする。

 オンデバイス型として実用化したのが、2019年10月に発売したスマートフォン「Pixel」シリーズの最新機種「Pixel 4」に搭載した新しい音声レコーダーアプリである。現状で対応するのは英語だけにとどまるものの、Pixel 4単体で音声を認識し、それをほぼリアルタイムで文字に起こせることを特徴にする。新しいレコーダーアプリを搭載するのは現状でPixel 4シリーズのみ。ただし、Pixel 3シリーズ(Pixel 3/3 XL/3a)への展開も準備中である。Pixel 3シリーズ用の新しいレコーダーアプリの提供開始は「まもなく」(Savla氏)としている。

 説明会では、Live TranscribeアプリとPixel 4のレコーダーアプリの基になった音声認識技術の精度についても明かした。同社はPixel 4の音声レコーダーアプリについては具体的な精度を明らかにしていないものの、Savla氏によれば、クラウド型とオンデバイス型を含めた平均値として単語誤り率(word error rate)が6.7%だという。これ自体は人間の音声認識の精度には達していないが、グーグルは2017年の開発者会議「Google I/O」で高精度な音声認識成果の成果として同4.9%という数値を披露している。