PythonでHTML解析を行う際には、lxml
というサードパーティモジュールが便利です。ここでは、Mac上でPythonのlxml
モジュールをインストールする手順を説明します。
lxmlモジュールのインストール
まずは、Pythonのパッケージ管理システムであるpip
を使ってlxml
モジュールをインストールします。以下のコマンドをターミナルで実行してください。
pip install lxml
このコマンドにより、lxml
モジュールがPython環境にインストールされます。
lxmlモジュールの使用方法
lxml
モジュールを使うと、HTMLから必要なデータを抽出することができます。以下に、Googleニュースのサイトからヘッドラインのタイトルの一覧を取得するサンプルコードを示します。
import requests
import lxml.html
# WebサイトのURLを指定
url = "https://news.google.com/?hl=ja&gl=JP&ceid=JP:ja"
# Requestsを利用してWebページを取得する
r = requests.get(url)
# lxmlを利用してWebページを解析する
html = lxml.html.fromstring(r.text)
# lxmlのfindallを利用して、ヘッドラインのタイトルを取得する
elems = html.findall(".//a[@class='ipQwMb Q7tWef']//span")
for elem in elems:
print(elem.text)
このコードを実行すると、Googleニュースのヘッドラインのタイトルの一覧が表示されます。
以上が、Mac上でPythonのlxml
モジュールをインストールし、使用する方法です。この情報がPythonでのHTML解析作業に役立つことを願っています。