PythonでHTML解析を行う際には、lxmlというサードパーティモジュールが便利です。ここでは、Mac上でPythonのlxmlモジュールをインストールする手順を説明します。

lxmlモジュールのインストール

まずは、Pythonのパッケージ管理システムであるpipを使ってlxmlモジュールをインストールします。以下のコマンドをターミナルで実行してください。

pip install lxml

このコマンドにより、lxmlモジュールがPython環境にインストールされます。

lxmlモジュールの使用方法

lxmlモジュールを使うと、HTMLから必要なデータを抽出することができます。以下に、Googleニュースのサイトからヘッドラインのタイトルの一覧を取得するサンプルコードを示します。

import requests
import lxml.html

# WebサイトのURLを指定
url = "https://news.google.com/?hl=ja&gl=JP&ceid=JP:ja"

# Requestsを利用してWebページを取得する
r = requests.get(url)

# lxmlを利用してWebページを解析する
html = lxml.html.fromstring(r.text)

# lxmlのfindallを利用して、ヘッドラインのタイトルを取得する
elems = html.findall(".//a[@class='ipQwMb Q7tWef']//span")
for elem in elems:
    print(elem.text)

このコードを実行すると、Googleニュースのヘッドラインのタイトルの一覧が表示されます。

以上が、Mac上でPythonのlxmlモジュールをインストールし、使用する方法です。この情報がPythonでのHTML解析作業に役立つことを願っています。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です