PythonはWebスクレイピングとデータのCSV出力に非常に便利な言語です。この記事では、Pythonを使用してWebスクレイピングを行い、その結果をCSV形式で出力する方法を紹介します。
必要なライブラリ
PythonでWebスクレイピングとCSV出力を行うためには、以下のライブラリが必要です。
requests
: WebページのHTMLを取得するために使用します。BeautifulSoup
: HTMLから目的のデータを抽出するために使用します。csv
: CSVファイルの読み書きを行うために使用します。
スクレイピングとデータの抽出
まずは、Webページからデータを抽出するためのスクレイピングを行います。以下に一例を示します。
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
data = soup.find('div', class_='target-class').text
このコードは、指定したURLのWebページを取得し、BeautifulSoupを使用してHTMLを解析します。その後、find
メソッドを使用して目的のデータを抽出します。
データのCSV出力
次に、抽出したデータをCSV形式で出力します。以下に一例を示します。
import csv
header = ['header1', 'header2', 'header3']
data = ['data1', 'data2', 'data3']
with open('output.csv', 'w', newline='') as f:
writer = csv.writer(f)
writer.writerow(header)
writer.writerow(data)
このコードは、csv
ライブラリを使用してCSVファイルにデータを書き込みます。writerow
メソッドを使用して一行ずつデータを書き込むことができます。
以上がPythonを使用してWebスクレイピングを行い、その結果をCSV形式で出力する基本的な方法です。具体的なスクレイピングの方法やデータの抽出方法は、対象となるWebページの構造によりますので、適宜調整が必要です。