PandasはPythonのデータ分析ライブラリで、データフレームという2次元の表形式のデータ構造を提供しています。この記事では、Pandasのデータフレームの列からユニークな値を取得する方法について説明します。

pd.Series.unique()

pd.Series.unique()は、Seriesオブジェクトのユニークな値を取得するためのメソッドです。以下にその使用例を示します。

import pandas as pd

# データフレームを作成
df = pd.DataFrame({
    'name': ['Satoh', 'Takahashi', 'Egawa', 'Maeda', 'Satoh', 'Egawa'],
    'age': [32, 28, None, 25, 29, 32],
    'state': ['Kanagawa', None, 'Ohsaka', 'Hiroshima', 'Ohsaka', 'Kanagawa'],
    'id': [1021, 2152, 1432, 1104, 2413, None]
})

# 'age'列のユニークな値を取得
unique_ages = df['age'].unique()
print(unique_ages)

このコードを実行すると、age列のユニークな値がNumPy配列として出力されます。

pd.DataFrame.nunique()

pd.DataFrame.nunique()は、データフレームの各列または各行のユニークな値の数を取得するためのメソッドです。以下にその使用例を示します。

# 各列のユニークな値の数を取得
unique_counts = df.nunique()
print(unique_counts)

このコードを実行すると、各列のユニークな値の数がSeriesとして出力されます。

以上が、Pandasで列のユニークな値を取得する基本的な方法です。これらのメソッドを使うことで、データの探索や前処理を効率的に行うことができます。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です