全2553文字
PR

 スマートフォンやタブレットに数字や文字を入力する際には、画面に表示されるキーボードをタップするのが一般的だ。指で画面をタップするときには、音や振動のフィードバックを無効にしていてもわずかながら音が出る。スマートスピーカーなどの外部マイクでこの音を拾えば、入力された暗証番号(PIN)や文章を推測できるのではないだろうか――。そんなゾッとする研究を紹介しよう。

 今回紹介する研究を実施したのは英ケンブリッジ大学コンピューター研究所のグループ。「Hey Alexa what did I just type? Decoding smartphone sounds with a voice assistant」という論文に結果をまとめて2020年12月に発表した

同様の研究は10年以上前から

 物理的なキーボードのタイプ音から入力キーを推測する研究は以前から行われている。音の強度や周波数のわずかな違いから押されたキーを特定する。2004年には関連する論文が発表され、推測を可能にするソフトウエアなども出回っている。現在では現実的な脅威になっているといえる。

 2011年になると、スマホなどのスクリーンキーボード(仮想キーボード)のタップから入力キーを推測する研究も相次いで発表され始めた。最初はスマホのジャイロスコープを使って、タップによる振動からどのキーを入力したのかを推測する研究が発表された。その後2014年にはジャイロスコープとマイクを組み合わせて入力キーを推測する論文、2019年にはスマホのマイクだけで入力キーを推測する論文が発表された。

 ただ、これらは対象とするスマホの機能を利用するので、攻撃者の用意したアプリをインストールさせる必要などがある。そこでケンブリッジ大学のグループは、スマホとは無関係の外部マイクでタップ音を拾うことにした。

 外部マイクとして論文の著者らが候補として考えたのが、音声アシスタント機能を備えるAmazon EchoやGoogle Homeといったスマートスピーカーである。スマートスピーカーは高性能マイクを備えている。研究では次のような攻撃シナリオを想定した(図1)。

図1●今回取り上げた研究で想定するシナリオ
図1●今回取り上げた研究で想定するシナリオ
まずユーザーがスマートフォンをタップしてパスワードなどを入力する。攻撃者は、ユーザーの部屋に置かれたスマートスピーカーなどを使ってすべての音を記録する。攻撃者はその音を解析して、ユーザーがスマホをタップする音を抽出するとともに、タップされた数字や文字を特定する。「Hey Alexa what did I just type? Decoding smartphone sounds with a voice assistant」を基に作成。
[画像のクリックで拡大表示]

(1)ユーザーがスマホをタップして銀行などの暗証番号を入力する。

(2)ユーザーのそばに置かれたスマートスピーカー(音声アシスタント)が部屋の音を収集してクラウドに送信。そこで処理および保存される。

(3)攻撃者は何らかの方法で音声情報にアクセスして記録する。

(4)攻撃者は音声情報からタップ音を抽出し、入力された暗証番号などを推測する。

 だが、一般に販売されているスマートスピーカーが収集した生の音声情報にアクセスするのは容易ではない。そこで何らかの方法でスマートスピーカーを乗っ取れたと仮定し、実験ではReSpeakerをスマートスピーカーの代わりに用いた。ReSpeakerはマイクを備えた装置で音声認識などに利用できる。小型コンピューターのRaspberry Piに接続する。