全2727文字
PR

 取得したデータを解析する方法を解説しよう。言うまでもなくWebページはHTMLで記述されている。スクレイピングをするには、ここからどうやれば所望の情報を抽出できるかを考えなければならない。

データ要素の付加情報に注目

 まずは欲しいデータの要素に付加されている情報に注目する。HTML自体にはデータの構造を表現する機能はないが、構造に関連する情報が付与されていることが多い。

画面の情報はHTMLで記述される
画面の情報はHTMLで記述される
[画像のクリックで拡大表示]

 例えば上記の図では、個別記事のタイトルに付与されているのはh5タグで、そこに「p-name」というクラスが指定されている。また、h5タグを囲むように「div」タグが付与されていて、「card-title」というクラスが指定されている。これらを使えば記事タイトルを取り出すことができそうだと分かる。

開発者ツールを有効活用

 ただHTMLのソースを全部展開して、そこから必要な部分を探し出すのは困難だ。そこでWebブラウザーの「開発者ツール」を利用する。

開発者ツールを使って要素を把握
開発者ツールを使って要素を把握
[画像のクリックで拡大表示]

 開発者ツールを実行すると、標準で「要素」が選択された状態になっている。ここでツールのウインドウに表示されるソースコードをクリックすると、左にあるWebページにおいて対応する要素の背景色が変わって対応関係が分かる。

 逆に、要素タブの左にあるアイコンをクリックしておくと、Webページの要素をクリックできるようになる。ツールで表示するソースコードが対応する場所に切り替わる。

 こうしたツールを有効利用すれば、自分が求める情報にどのようなクラスやIDが割り当てられているかが分かる。