PythonとSeleniumを使ってWebスクレイピングを行う方法を紹介します。今回はVSCodeを使用しますが、他のエディタでも同様の手順で進めることができます。

環境設定

まずは必要なパッケージをインストールします。VSCodeのターミナルを開き、以下のコマンドを実行してください。

pip install selenium
pip install beautifulsoup4
pip install lxml
pip install requests

次に、Seleniumでブラウザを操作するためにはブラウザDriverが必要になります。今回はChromeのDriverを使用します。Chrome Driverのダウンロードと設置については、以下のリンクを参照してください。

Seleniumの基本構文

以下に、Seleniumを使った基本的なWebスクレイピングのコードを示します。

from selenium import webdriver
from bs4 import BeautifulSoup

options = webdriver.ChromeOptions()
flg=1
if flg==1:
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome('chromedriver',options=options)
url="https://kaikan.co/shop/kinki/?p=2"
driver.get(url)

html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, 'lxml')
results = soup.find_all("h2", class_="_shop_name")

cell_list=[]
for result in results:
    txt = result.findAll("a")[0].get_text()
    href= result.findAll("a")[0].get('href')
    print(txt+','+href)

driver.close()
driver.quit()

このコードは、指定したURLのWebページを開き、特定のHTML要素を取得し、そのテキストとリンクを出力します。

以上がPythonとSeleniumを使ったWebスクレイピングの基本的な手順です。詳細な情報や応用的な使い方については、公式ドキュメンテーションを参照してください。.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です