PythonのライブラリであるBeautifulSoupは、HTMLやXMLの解析を行うためのライブラリで、Webスクレイピングに広く利用されています。VSCodeと組み合わせることで、より効率的な開発環境を構築することが可能です。

BeautifulSoupのインストール

まずはBeautifulSoupをインストールしましょう。VSCodeのターミナルを開き、以下のコマンドを実行します。

pip install beautifulsoup4

これでBeautifulSoupの使用が可能になります。

HTMLファイルの準備

次に、スクレイピング対象のHTMLファイルをローカルに準備します。以下はサンプルファイルの一例です。

<!-- sample.html -->
<div>
  <ul class="sample">
    <li class="sample">
      <a href="aaa">aaaaaa</a>
    </li>
    <li class="sample">
      <a href="bbb">bbbbb</a>
    </li>
  </ul>
  <div class="sample">
    <a href="ccc">ccc</a>
  </div>
  <div class="sample">
    <div class="sample">
      <a href="ddd">ddddd</a>
    </div>
  </div>
</div>

スクレイピング作業

BeautifulSoupを使ってHTMLファイルからデータを抽出します。以下はPythonのスクリプトの一例です。

from bs4 import BeautifulSoup

# スクレイピング対象のhtmlファイルからsoupを作成
with open('sample.html') as f:
    soup = BeautifulSoup(f, 'html.parser')

links = soup.find_all('a')  # 全てのaタグ要素を取得

# aタグのテキストデータを配列に格納
csvlist = [link.text for link in links]

print(csvlist)

このスクリプトを実行すると、['aaaaaa', 'bbbbb', 'ccc', 'ddddd']という結果が得られます。

以上がVSCodeとPythonを使ったBeautifulSoupの基本的な使い方です。これを応用して、様々なWebスクレイピングを行うことが可能です。Happy coding!

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です