2019年1月にセキュリティー専門家であるトロイ・ハント(Troy Hunt)氏が、「Collection #1」と呼ぶ大量のメールアドレスとパスワードの組み合わせをインターネット上で発見したと発表しました(図1)。流出したデータを入手して確認したところ、Webサービスのユーザー認証に使うアカウント情報、いわゆるクレデンシャル情報のようです。アカウント情報はおよそ21億件、データサイズは約89Gバイトもありました。
またCollection #1が見つかったオンラインストレージサービスには、Collection #2からCollection #5までの4つのデータと、AntiPubというデータが一緒に保存されていました。これらのデータにもアカウント情報が含まれていました。
こういったデータが2017年の後半以降、インターネット上で相次いで見つかっています。件数が数十億件と多いため、発見のニュースが流れるたびに恐怖を感じる人もいるでしょう。しかし、本当に恐れるようなデータなのでしょうか。今回は流出データを調査しました。
流出データの解析を依頼
調査の対象は、2017年9月と2018年2月に見つかった合計16億件のデータです。
まず、このデータに含まれるメールアドレスとパスワードとの組み合わせを、メールアドレスのドメインごとに分類しました。例えば、「xxx@example.co.jp」と「yyy@example.co.jp」といったexample.co.jpドメインのデータをひとまとめにしました。
そしてそのドメインを所有する企業など複数の組織に、データの解析を依頼しました。
データの解析は、次の3段階で実施しました。1段階目は、重複データの排除です。様々なサービスから漏洩したと思われる流出データなので、全く同じメールアドレスとパスワードを設定しているケース、つまり使い回しているケースがあると考えられます。そういったデータを1つにします。
2段階目は、解析時点で登録のないメールアドレスの排除です。既に在籍していなかったり、でたらめだったりしたデータを削除します。
最後の3段階目は流出データを使って、依頼した組織で使っている認証(メールサービスへのログインなど)をパスできるかどうかを確認します。こうしてどれだけのデータが有効なのかを確認しました。
4万件が認証をパス
解析を依頼したデータは合計で934万4404件です。全体の分量からするとあまり多くありませんが、データの傾向を見る上では十分な量だと考えています。
各組織から集めた解析結果を図2に示します。
1段階目の重複データの排除で、512万7659件に絞り込まれました。データ全体の55%です。
2段階目の登録されていないデータの排除で、364万7770件に絞り込まれました。この時点で全体の39%まで減っています。
最後の段階で、認証をパスできないデータを排除すると、残ったデータは3万9606件でした。全体の0.4%しか残っていません。
過去のパスワードリスト攻撃▼の被害組織が公開した攻撃内容から算出した不正ログインの成功率は0.数%です。今回の調査結果と大差がないことが分かりました。
別のサービスから漏洩したアカウント情報を使って不正ログインを試みる攻撃。