PythonとSeleniumを使ってWebスクレイピングを行う方法を紹介します。今回はVSCodeを使用しますが、他のエディタでも同様の手順で進めることができます。
環境設定
まずは必要なパッケージをインストールします。VSCodeのターミナルを開き、以下のコマンドを実行してください。
pip install selenium
pip install beautifulsoup4
pip install lxml
pip install requests
次に、Seleniumでブラウザを操作するためにはブラウザDriverが必要になります。今回はChromeのDriverを使用します。Chrome Driverのダウンロードと設置については、以下のリンクを参照してください。
Seleniumの基本構文
以下に、Seleniumを使った基本的なWebスクレイピングのコードを示します。
from selenium import webdriver
from bs4 import BeautifulSoup
options = webdriver.ChromeOptions()
flg=1
if flg==1:
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)
url="https://kaikan.co/shop/kinki/?p=2"
driver.get(url)
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, 'lxml')
results = soup.find_all("h2", class_="_shop_name")
cell_list=[]
for result in results:
txt = result.findAll("a")[0].get_text()
href= result.findAll("a")[0].get('href')
print(txt+','+href)
driver.close()
driver.quit()
このコードは、指定したURLのWebページを開き、特定のHTML要素を取得し、そのテキストとリンクを出力します。
以上がPythonとSeleniumを使ったWebスクレイピングの基本的な手順です。詳細な情報や応用的な使い方については、公式ドキュメンテーションを参照してください。.