全1283文字
PR

 特定のWebサイトを定期的にチェックしている読者は多いだろう。例えばテック系ニュースサイトの閲覧は、技術情報の収集には欠かせない。業務に特化した情報収集もある。ネットワーク管理者であれば、ネットワーク機器などの脆弱性情報を定期的に取得しているだろう。

 しかし脆弱性情報はそう頻繁に更新されるわけではない。手作業で個々のベンダーのWebサイトにアクセスしても、空振りに終わることは少なくない。

 このため、こうした作業は自動化するのがよい。漏れや抜けをなくし、しかも素早く情報を収集できる。そこで使われるテクニックが、Webサイトに掲載された情報から必要なところだけを取得する「スクレイピング」である。

スクレイピングで必要な情報を抜き出す
スクレイピングで必要な情報を抜き出す
[画像のクリックで拡大表示]

自動的に情報を収集

 スクレイピングの処理によく使われるのが、「Python」と呼ぶスクリプト言語だ。スクリプト言語はプログラミング言語の一種。「スクリプト」とは、テキストで書かれた手順書を指す。スクリプト言語の場合、実行エンジンがスクリプトを読み込んで処理を実行する。

スクリプトは処理の手順書
スクリプトは処理の手順書
[画像のクリックで拡大表示]

 例えば、米MITREが公開しているCVE(Common Vulnerabilities and Exposures)の最新情報を取得することを考えてみよう。米国の日付が変わる直前にその日の情報を取得すれば、漏れなく毎日の情報が得られる。