テレワークの広まりとともに、もはや日常になっているビデオ会議。画面越しに上司や同僚と毎日のように顔を合わせている人は少なくないだろう。
ただビデオ会議の最中にキーボードをたたくときには注意してほしい。画面に映っている肩や腕のわずかな動きから、入力している単語や文章を推測できる可能性があるというのだ。
ビデオ会議中にプライベートチャットで同僚に送った上司の悪口が、会議に参加しているその上司に筒抜けになる――そんな恐ろしいことが現実のものになるかもしれない。
映像の1コマ1コマを画像処理
人物の上半身しか見えないビデオ会議の映像から、その人物がキーボードに入力している文字を推測する――。そのような研究に挑んだのは、米テキサス大学サンアントニオ校のMurtuza Jadliwala氏が率いるプロジェクトチームだ。
具体的には、対象とする人物の肩や腕の動きを解析して、キー入力時の指の動きを推測する。現在では多くのパソコンが高解像度のWebカメラを搭載しているので、上半身のわずかな動きも記録できるという。
この手法でキー入力を推測できるのなら、ビデオ会議以外にも対象が広がる。例えばYouTubeで公開されている映像から、ユーチューバーが入力している文字を推測するといったことも可能になるだろう。
キーを一つひとつ探しながらタイプするハントアンドペックなら入力時に肩や腕が動きそうだが、タッチタイピングなら動くのは手首や指だけで、肩や腕はほとんど動かないように思える。
だがJadliwala氏らの論文によれば、入力時にキーが及ぼす反発力により、滑らかなタッチタイピングであっても肩や腕は視覚的に観察できるほど動くという。
映像の1コマ1コマの画像から、対象ユーザーが入力した単語を推測する大まかな流れは次の通り。まず画像から背景を取り除いてグレースケールにする。
それから対象の顔を検出し、その位置から肩や腕がある位置を特定する。
そして対象とした人物の肩および腕の輪郭を推測し、これらの変位からどの指がどの方向に動いたのかを計算。キーボードのどのキーが押されたのかを特定して、最終的にはその人物が入力した英単語を推測する。