PandasはPythonでデータ分析を行うための強力なライブラリで、その中でもDataFrameは2次元の表形式のデータを扱うための主要なデータ構造です。DataFrameの中に含まれているデータにおいて、ユニークな値がどれなのか、それぞれの値がどれくらい含まれているのかを調べる方法をまとめて行きます。この記事では unique関数の使い方について解説します。

Pandasのunique関数

Pandasのunique関数は、引数に入れられた1次元データのユニークな値を抽出してくれます。リストやタプルの形式でもユニークな値を抽出してくれます。

import pandas as pd

# リストからユニークな値を抽出
print(pd.unique([0,1,2,2,1]))  # 出力: array([0, 1, 2])

# タプルからユニークな値を抽出
print(pd.unique((1,0,1,1,0,2)))  # 出力: array([1, 0, 2])

# 文字列のリストからユニークな値を抽出
print(pd.unique(["Satou","Satou","Arakawa","Takahashi"]))  # 出力: array(['Satou', 'Arakawa', 'Takahashi'], dtype=object)

DataFrameの列データに対するunique関数の使用

DataFrameの列データに対してもunique関数は有効です。以下に例を示します。

# サンプルのDataFrameを作成
data = {
    'name': ['Satoh', 'Takahashi', 'Egawa', 'Maeda', 'Satoh', 'Egawa'],
    'age': [32, 28, None, 25, 29, 32],
    'state': ['Kanagawa', None, 'Ohsaka', 'Hiroshima', 'Ohsaka', 'Kanagawa'],
    'id': [1021, 2152, 1432, 1104, 2413, None]
}
df = pd.DataFrame(data)

# 各列のユニークな値を抽出
print(pd.unique(df["age"]))  # 出力: array([32., 28., nan, 25., 29.])
print(pd.unique(df["state"]))  # 出力: array(['Kanagawa', nan, 'Ohsaka', 'Hiroshima'], dtype=object)
print(pd.unique(df["id"]))  # 出力: array([1021., 2152., 1432., 1104., 2413., nan])

以上がPandasのDataFrameでユニークな値を抽出する方法です。この機能を使うことで、データの重複を確認したり、データの種類を把握することが容易になります。.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です