全1186文字
PR

 プライバシー保護の手法の1つ。個人データを含むデータベースから統計値などを抽出する際に、その数値に乱数を加えることで正確な値を秘匿する。これにより、抽出したデータと他の外部データを掛け合わせて特定個人のプライバシー情報を取り出すといった「攻撃」からデータを保護できる。

 データベースなどに格納してある元の個人データには手を加えず、データを分析などに使う人がクエリー(問い合わせ)を実行した際に、システム側がクエリーの結果に乱数を加えて返答する仕組みだ。クエリーの結果に加える乱数は、数学的に定義された要件を満たすアルゴリズムに基づいて導き出す。

 抽出したデータに乱数を加えることで、仮にデータを第三者に奪われても、そこから特定の個人に関わる情報を取り出すのは難しくなる。データを外部に公開する場合も、差分プライバシーの手法で乱数を加えることで、公開したデータから特定個人の情報が漏れるリスクを抑えられる。

 一般にプライバシー保護技術としては、特定の個人を識別できないよう元データ自体を加工する匿名化の手法がよく活用される。匿名化では「k-匿名性」などの評価指標を基準にデータを加工する。一方、差分プライバシーは元データではなく抽出した統計値などに加工を施す方式のため、一般的な統計分析から機械学習まで幅広く使える利点がある。

 米グーグルや米マイクロソフトは差分プライバシーを実装できるライブラリーをオープンソースソフトとして公開している。

アップルやグーグルなどが活用

 差分プライバシーの活用事例が増えるきっかけとなったのは、米アップルが2016年に開発者会議「WWDC」で差分プライバシーに言及したことだ。

 アップルやグーグルは差分プライバシーを活用し、プライバシー保護とデータ利活用の両立を図る。例えばアップルは、ユーザーに付与する「Apple ID」と個人のデータが関連付けられることを防ぐため、プライバシー保護技術の1つとして差分プライバシーを採用している。

 グーグルは「Googleマップ」で施設などが混雑する時間帯やリアルタイムでの混雑状況を表示する機能に差分プライバシーを採用する。混雑状況を表示する機能は、Googleアカウントで位置情報のデータである「ロケーション履歴」を有効にするユーザーのデータを基に集計する。グーグルはこのデータに差分プライバシーを使い、ロケーション履歴のデータセットに乱数を追加している。これにより、個人の匿名性を保ちつつ混雑度を表示可能にしている。

 このほか米国では、2020年の国勢調査から差分プライバシーを活用し、国民の匿名性を担保したうえで所得や学歴などの詳細な結果やそれらを州ごとに集計したデータなどを公開している。

 差分プライバシーに関する研究は現在も進みつつあり、GAFAなどの大手IT企業が研究・実装を進めている。