都市に備わる物理空間の側面と情報空間の側面を重ね合わせるとき、それらが人にもAIにも認識しやすい必要がある。そして、お互いの理解を深める鍵の1つは、物理的な「体」や、これを媒介にする「感覚」までAIが身に付けるのか否か。次なるAIのブレイクスルーのためにも避けて通れない道、と西田教授はみている。
第1回[上編]AIと人が協働できる「3D世界」構築が日本版スマートシティーの活路
第1回[中編]AIが現実世界を認識するには都市版「コモングラウンド」が必須
豊田啓介 西田先生から言葉と概念をお借りし、僕がスマートシティーの文脈で「コモングラウンド」という表現を使っているのは、本当に実用における狭義の意味なんです。
これからいろいろな技術を社会へ実装するには、人の側の多様性だけではなく、デジタルエージェントの側も多様であるという視点に立ち、この世界をどう認識できるのか、どんなインタラクションが可能なのかを考えないといけません。それには、まずは、この物理世界を「彼らに見える形」で記述しておいてあげることです。
例えば、自律走行ロボットに普通のオフィスを走らせようとしたとき、僕らが普通に認識できる机や椅子、植木鉢といったオブジェクトも、それらがデジタル形式で記述されるまで、デジタルエージェントには見えていません。そんな環境で何かサービスをしろと命じられても、彼らにとってはいろいろな障害物のある部屋を目隠しをされたまま手探りで歩くようなものです。
つまり、この場合のコモングラウンド構築というのは、物理エージェントである我々人間の側からもデジタルエージェントであるAIの側からも、物理世界もデジタル世界も相互に共通して認識できるようなものとしておく。合理的に、あらかじめ記述された環境を用意しておくという、純粋に技術面の社会実装の話になります。
目下開発が進んでいるロボットやモビリティーなど自律エージェントのほとんどは、基本的にエッジ(ネットワークの末端)側の空間把握で動こうとしています。しかし、今お話ししたようなコモングラウンドがない状況では、今後もデジタルエージェントが人間に対して対等なパフォーマンスでサービスすることはできないんじゃないか、と。
ツールの発達で実現した共有の場の構築
西田豊明 本当にそうですね。そうした大目標を設定した上で、どこから取り掛かっていくか。
これはエンジニアリングのアプローチなのですが、私たちも、かなり実装のレベルに落とし込んできたつもりです。研究当初(2004年)は、「会話AI」が、三人称視点と一人称視点の情報から会話の場で何が起こっているかを推定できるよう、まず人間同士が演じる「インタラクティブドラマ」を制作し、その映像をコモングラウンドの構築に役立てる実験をしていました。現在は、その「AI」に会話の状況を映像化させる段階に移行しています。すると、会話の内容から本当に会話の場を映像化できるので、そのインパクトはずいぶん大きかったんですよ。
豊田 AIに会話の場を映像化させるというのは、すごいですね! その場合、生成される映像というのは、実写的なんですか? それともアニメーション的なものでしょうか?
西田 ゲームエンジンのUnity 3Dを使い、3DCGのムービーを生成させています。最新の事例は、京都で2018年に開催した「キッズベンチャータウン」というプロジェクトで、小5から中2の子どもたちを集めてワークショップを実施したんですね。「来場者に向けてベンチャービジネスのアイデアを披露する」という課題でした。スケッチやパネルを使っても、彼らにはそんな場面の表現力は全くありませんから、普通は大人の側が想像で補って理解するしかない。
豊田 子どもたちは言葉の面はもちろん、身ぶり手ぶりの動作の面でも十分なボキャブラリーやビジュアルの表現手段を持っていませんからね。
西田 ところが、そのときは子どもたちの伝えたいことを補完するために、会話AIがリアルタイムで推定しながら、身振り手振りのあるインタラクティブムービーの一場面を呼び出してくれたわけです。いきなりUnity 3Dのムービーでプレゼンできるようにしちゃった。それがすごくうまくいき、彼らの言いたいことがよく分かったんです。
豊田 ゲームエンジンは即時性に特化したツールなので、今、コモングラウンドに類する共有空間構築の可能性を切り開いていますよね。建築設計事務所では通常CADソフトやBIMソフトを使うわけですが、例えば、多少なりとも実験的な環境を有する僕らnoizのような事務所では、Unity 3DやUnreal Engineのようなゲームエンジンを使うほうが効果的だという場面は急速に増えてきています。
空間をデジタル記述するとひと口に言っても、その方法はたくさんある。それぞれに一長一短があるわけですが、恐らく自律走行からARナビゲーション、デジタル広告など多様なサービスが複合的に乗る初期のコモングラウンドでは、BIMでもスキャンによる点群でもなく、ゲームエンジンが汎用プラットフォームになる可能性が高そうです。
西田 本当におっしゃる通りです。そうやってゲームエンジンとAIの生成する空間が、リアルな都市と重なるような世界になったとき、どういうコモングラウンドがつくられているのかは全く想像がつかない。すごいことが起こるんじゃないかという、それだけは確かです。