PythonのライブラリであるBeautifulSoupは、HTMLやXMLの解析を行うためのライブラリで、Webスクレイピングに広く利用されています。VSCodeと組み合わせることで、より効率的な開発環境を構築することが可能です。
BeautifulSoupのインストール
まずはBeautifulSoupをインストールしましょう。VSCodeのターミナルを開き、以下のコマンドを実行します。
pip install beautifulsoup4
これでBeautifulSoupの使用が可能になります。
HTMLファイルの準備
次に、スクレイピング対象のHTMLファイルをローカルに準備します。以下はサンプルファイルの一例です。
<!-- sample.html -->
<div>
<ul class="sample">
<li class="sample">
<a href="aaa">aaaaaa</a>
</li>
<li class="sample">
<a href="bbb">bbbbb</a>
</li>
</ul>
<div class="sample">
<a href="ccc">ccc</a>
</div>
<div class="sample">
<div class="sample">
<a href="ddd">ddddd</a>
</div>
</div>
</div>
スクレイピング作業
BeautifulSoupを使ってHTMLファイルからデータを抽出します。以下はPythonのスクリプトの一例です。
from bs4 import BeautifulSoup
# スクレイピング対象のhtmlファイルからsoupを作成
with open('sample.html') as f:
soup = BeautifulSoup(f, 'html.parser')
links = soup.find_all('a') # 全てのaタグ要素を取得
# aタグのテキストデータを配列に格納
csvlist = [link.text for link in links]
print(csvlist)
このスクリプトを実行すると、['aaaaaa', 'bbbbb', 'ccc', 'ddddd']
という結果が得られます。
以上がVSCodeとPythonを使ったBeautifulSoupの基本的な使い方です。これを応用して、様々なWebスクレイピングを行うことが可能です。Happy coding!