全1490文字
PR

 テレワークの広まりとともに、もはや日常になっているWeb会議。画面越しに上司や同僚と毎日のように顔を合わせている人は少なくないだろう。

 ただWeb会議の最中にキーボードをたたくときは注意してほしい。画面に映っている肩や腕のわずかな動きから、入力している単語や文章を推測できる可能性があるというのだ。Web会議中にプライベートチャットで同僚に送った上司の悪口が、会議に参加しているその上司に筒抜けになる。そんなことが現実になるかもしれない。

映像の1コマ1コマを画像処理

 人物の上半身しか見えないWeb会議の映像から、その人物がキーボードに入力している文字を推測する。そのような研究に挑んだのは、米テキサス大学サンアントニオ校のムルトゥザ・ジャリワラ氏が率いるプロジェクトチームだ。具体的には、対象とする人物の肩や腕の動きを解析して、キー入力時の指の動きを推測する。多くのパソコンが高解像度のWebカメラを搭載しているので、上半身のわずかな動きも記録できるという。

 キーを1つひとつ探しながらタイプするなら入力時に肩や腕が動きそうだが、タッチタイピングなら動くのは手首や指だけで、肩や腕はほとんど動かないように思える。だがジャリワラ氏らの論文によれば、入力時にキーが及ぼす反発力により、滑らかなタッチタイピングであっても肩や腕は視覚的に観察できるほど動くという。

 映像の1コマ1コマの画像から、対象ユーザーが入力した単語を推測する大まかな流れは次の通り。まず画像から背景を取り除いてグレースケールにする。それから対象の顔を検出し、その位置から肩や腕の位置を特定する。そして対象とした人物の肩および腕の輪郭を推測し、これらの変位からどの指がどの方向に動いたのかを計算。押されたキーを特定して、その人物が入力した英単語を推測する。

 ただ、入力キーの特定には誤差がある。入力されたと思われるキーの文字を並べても英単語にならない可能性がある。そこで辞書を使って補正する。例えば入力されたキーが5文字の場合、そのうち4文字が一致する英単語が辞書にあれば、その英単語が入力されたと判断する――といった具合だ。

 実験環境は次の通り。被験者は20人。被験者はWebカメラが付いたパソコンの前に座り、画面に表示された単語をキーボードで入力する。そして入力した単語と、映像から推測した単語を比較。1回の実験につき300単語が表示され、それを6回繰り返した。

 結論から言うと正解率はそれほど高くなかった。論文では、入力した単語と推測した単語がずばり一致した割合は記されていない。その代わり、「映像から推測した上位k個の単語に、入力した単語が含まれていた割合」を示している。これを「Top k」と表す。

 例えば「Top 10の正解率(単語の復元率:Word Recovery)が40%」というのは、映像から推測した上位10個の単語の中に、実際にキー入力した単語が含まれる割合が40%であることを表す。実験では、被験者の服装やタイピングの方法、Webカメラやキーボードの種類などを変えて、正解率がどのように変わるかを調べた。

 いずれの条件でもTop 10が40~50%程度、Top 200が70~80%程度だった。実際の状況では、どのような単語を入力したのかは文脈などからも判断できるので、「Top k」を推測できるだけでも脅威になり得る。とはいえ現状では、Web会議の映像からプライベートチャットの内容を推測するのは難しいようだ。攻撃者にとって有望な手法であるが、実際の脅威になるまでは時間がかかるだろう。

勝村 幸博(かつむら・ゆきひろ)
勝村 幸博(かつむら・ゆきひろ) 1997年日経BP入社。主にセキュリティーやインターネット技術に関する記事を執筆。ITpro(現日経クロステック)、日経パソコン、日経コンピュータなどを経て、現在は日経NETWORK編集長。