自動的にホームページの内容を解析したり取得したりしたい。
そういったことをするのをWebスクレイピングと言います。
今回はWebスクレイピングするために必要なPythonライブラリのBeautiful Soupのインストール手順を紹介します。
また、Beautiful Soup単体だけではWebスクレイピングに不足しているので、他のライブラリも必要になってくるので、その辺りも紹介します。
前提
- python3がインストールされていること
- pip3がインストールされていること
また、動作検証するために、Jupyter Notebookをインストールしていると良いです。
インストール方法は以下を参照ください。
Webスクレイピングの手順
各種ライブラリをダウンロードする前にWebスクレイピングの手順を確認すると以下のようになります。
実はWebスクレイピングで有名なBeautiful Soupは主にデータを解析に特化したライブラリで、データを取得することはできません。
データを取得するためのライブラリは「Requests」というものを利用します。まずはRequestsをインストールしましょう。
Requestsのインストール
それでは、Requestsライブラリをインストールします。
command
pip3 install requests
動作確認
Jupiter Notebookで簡単に動作を確認してみましょう。
Web Scraping Testページをこのサイトにあるのでこちらで確認してみまよう。
Web Scraping Test ページ | Yes We Can
command imports requests
url = 'https://tobe-happy.com/web_scraping_test/'
response = requests.get(url)
response.text
と記載して、実行すると取得できました。
Beautiful Soupのインストール
次に、Beautiful Soupをインストールします。
command
pip3 install beautifulsoup4
*忘れずに末尾の「4」を入力するようにしてください。
動作確認
インストールが無事に完了したかどうか確認しましょう。
確認のため、先頭のh1タグを取得します。
command soup = BeautifulSoup(response.text, "html.parser")
soup.find("h1")
結果として、以下を取得することができました。
command
<h1 class=“entry-title st-css-no”>Web Scraping Test ページ</h1>
以下がソースとなります。