全2693文字
PR
(写真:ソニーCSL)
(写真:ソニーCSL)

人間の能力がインターネットを介して時間・空間を超越し、拡張していく概念「IoA(Internet of Abilities)」を提唱する、ソニーコンピュータサイエンス研究所(ソニーCSL)副所長で東京大学大学院情報学環教授の暦本純一氏。人間拡張技術の分野でリーダーの1人だ。同氏は今、どのような研究に取り組み、人間拡張技術の未来をどう描いているのか。

人間拡張技術の分野が広がり続けています。これから人間と技術の関係はどのようになっていくとお考えでしょうか。

 人間とAIが融合して、能力を引き上げたり、能力を補ってくれたりするようになるでしょう。人間とロボット技術が相互作用し、共存することを「ヒューマンロボットインタラクション」と呼びますが、我々の目で見えていた技術が人間の内側に潜り込み、人間とAIのインテグレーション(融合)が進む「ヒューマンAIインテグレーション」といった領域が拡大すると考えています。インターネットの検索のような機能を持つAIが人間に組み込まれると、我々が考えていることとAIの機能の境目が分からなくなるというような日が来るかもしれません。

 ヒューマンAIインテグレーションの一例として、我々の研究に「Sotto Voce(ソット・ヴォーチェ)」があります。イタリア語で「ささやき声」という意味です。これは無発声の音声を検出する技術で、超音波装置(プローブ)で人間の口腔内をセンシングし、その様子から発声をAIが認識して音声化してくれます。利用者は口腔の真下であるあごの部分に超音波装置を当てます。すると超音波画像が撮影され、その画像の特徴と音声データをニューラルネットでひも付け、利用者の発話を推定して音声を出力します。

 もし、音声認識がどこでも利用できるようになれば、それは主要なユーザーインターフェース(UI)として普及すると思います。ただ実際には、声を出せない場所や声を出すのをためらってしまうような場所もあります。だからこそソット・ヴォーチェのような技術を使えば声を出さなくても言いたいことを伝えられるので、新しいUIとして受け入れられる可能性があると考えています。

 ソット・ヴォーチェには別の可能性もあります。声質を自由に操れるので、例えば、ちょっと自信を失っている話者の声を少し自信あるものにしてあげられます。すると話者は自信のある声を自ら発していると錯覚し、自信を取り戻せます。技術で人間をちょっと良くするわけです。

 人間とAIの融合を志向した、外国語の学習法を支援するシステムも開発しています。手本となる外国語の音声を聞きながら、その発音をまねて発声するシャドーイングという練習法がありますが、これは実際に取り組んでみると意外に難しい。やっているうちに、手本の音声に追いつけなくなっていきます。

 そこで利用者の発声を音声認識技術でトラッキングし、手本の音声にちゃんと追いついているかを確認するシステムを構築しました。例えば手本から離れすぎると、音声がちょっと待ってくれたり、ゆっくり喋ったりするようになります。トレーニングというのは難しすぎても、簡単すぎても練習になりません。このシステムは対象者に寄り添って音声の時間軸を操ることで、練習者にとってちょっと難しいぐらいのレベルに調節するわけです。実は機械学習もいきなり困難な課題を与えるより、能力に応じて課題を複雑にしていくとパフォーマンスが高まりやすい傾向にあるそうです。この事例は人間にも共通すると考えています。