脆弱性などの情報をWebサイトから手作業で集めるのはかなりの手間がかかる。定期的に同じ処理を手作業で繰り返すのはばかばかしい。Webサイトから必要な情報だけをそいで(スクレイプして)集める作業を「スクレイピング」という。Pythonのライブラリーを活用してスクリプトを作れば、こうした定型作業を自動化できる。

特集
Pythonで楽々「スクレイピング」入門
出典:日経NETWORK 2022年10月号 pp.26-39 「スクレイピング入門」を改題、編集
記事は執筆時の情報に基づいており、現在では異なる場合があります。
目次
-
「スクレイピング」のキモは情報抽出、HTMLの付加情報に注目する
スクレイピングでは、取得したHTMLを解析して必要な情報を取り出す必要がある。そのためにはまずWebサイトの構造を把握する必要がある。
-
Pythonライブラリーを活用して「スクレイピング」、Webにアクセスする2つの方法
スクレイピングするには、Webサイトにアクセスして情報を取得する必要がある。高速で手軽なライブラリーを使う方法と、Webブラウザーを使ってアクセスする方法がある。
-
Pythonで「スクレイピング」の第1歩、指定したURLからタイトルを取得
スクレイピングを実際にやってみよう。Webページからタイトルを取得することで、スクレイピングに必要な3つのステップを解説する。
-
Pythonを使って「スクレイピング」、実行環境は簡単に用意できる
Windows環境にPythonをインストールする方法を解説する。またPythonでよく使われる「仮想環境」についても説明する。
-
Webサイトから必要な情報だけを収集、「スクレイピング」を業務に生かす
日々特定のWebサイトから情報を収集する技術者は多い。例えばセキュリティー担当者は、企業内で使っているネットワーク機器の脆弱性情報は日々収集する。そうした作業をスクリプトで自動化すれば一気に楽になる。
日経クロステック Special
What's New
経営
- 北海道から見たデジタル経済安保と地方創生
- デジタル先進自治体・渋谷区が目指すもの
- 量子コンピュータ実用化へ必要な備えとは?
- データ活用新時代-エッジからクラウドまで
- 「大みかグリーンネットワーク」構想とは?
- 攻めの法務を実現する3つのポイントとは?
- すぐ始められるオフィス環境の改善手段とは
- トラブルを防ぐ秘密保持契約をつくるには?
- 間接材購買の見直しが利益向上に貢献する?
- バックオフィスDXの効果とポイントとは?
- 早稲田大学岩﨑教授に聞く、行政DXの課題
- 今から「2025年の崖」を克服するには?
- 「経営、組織、人財」に関する課題を論じる
- 「経営、組織、人財」に関する課題を論じる
- 成田悠輔氏語る 働き方の「これから」へ
- カーボンニュートラルは本当に「茨の道」か
- 前デジタル副大臣が語る、DX推進の鍵とは
- 竹中工務店、東京海上日動≫DXのコツは?
- デジタル基盤でインフラ保守の生産性を向上
- デジタルガバメント実現へ、富士通の挑む力