スマートフォンに表示された写真に指で触れると、その部分が何であるかをAI(人工知能)が読み上げる。米フェイスブック(Facebook)がこのようなユーザー支援技術を開発していることを明らかにした。AIが人と人の位置関係など写真が持つコンテキスト(文脈)を、目の不自由な人に伝えられるようになった。
新しいユーザー支援技術はフェイスブックのプロダクトデザイン担当バイスプレジデントであるマーガレット・スチュワート氏が2018年11月15日(米国時間)、米サンフランシスコで開催された「New Context Conference」で公表した。日本のデジタルガレージが開催した同カンファレンスは今回、AIとデザインの関係をテーマにしていた。
フェイスブックは視覚障害者向けの取り組みとして、「Facebook」に投稿された写真の被写体をAIが読み上げる「Automatic Alternative Text」という機能を2016年4月から提供している。被写体が何かを認識する画像認識技術や写真の説明文(キャプション)を自動生成する自然言語処理技術を組み合わせて開発したものだ。
しかしスチュワート氏はこの機能について、「役には立っているが、人と人の位置関係など写真が持つコンテキストが抜け落ちていた」と指摘する。
セグメンテーション技術を活用
そこでフェイスブックは写真のコンテキストもAIが理解し、それをユーザーに伝える技術を開発している。画像認識技術に加えて、画像に映った被写体の領域を識別するセグメンテーション技術や人物の表情を識別する表情認識技術、文字認識(OCR)技術を組み合わせた。
例えば上記の写真では「Happy Birthday」と書かれたプレートの部分に指で触れると、AIが「Happy Birthday」と読み上げる。フォークやナイフ、ケーキの部分に触れても、それが何であるかをAIが教えてくれる。