Pythonのデータ分析ライブラリであるPandasを使用して、DataFrameの特定の列からユニークな値を取得する方法について説明します。

Pandasのunique関数

Pandasのunique関数は、SeriesやIndexのユニークな値を取得するための関数です。この関数はDataFrame全体に対しては使用できず、特定の列やIndexに対して使用します。

以下に、DataFrameの特定の列からユニークな値を取得する例を示します。

import pandas as pd

# DataFrameの作成
df = pd.DataFrame({
    'name': ['Satoh', 'Takahashi', 'Egawa', 'Maeda', 'Satoh', 'Egawa'],
    'age': [32, 28, None, 25, 29, 32],
    'state': ['Kanagawa', None, 'Ohsaka', 'Hiroshima', 'Ohsaka', 'Kanagawa'],
    'id': [1021, 2152, 1432, 1104, 2413, None]
})

# 'age'列のユニークな値を取得
unique_ages = df['age'].unique()
print(unique_ages)

このコードを実行すると、age列のユニークな値がNumPyの配列として出力されます。

すべての列のユニークな値を取得

DataFrameのすべての列からユニークな値を取得するには、各列に対してunique関数を適用します。以下にその例を示します。

# すべての列のユニークな値を取得
unique_values = {col: df[col].unique() for col in df}
print(unique_values)

このコードを実行すると、各列のユニークな値が辞書として出力されます。

以上がPythonのPandasを使用してDataFrameの列からユニークな値を取得する方法です。これらの方法を活用して、データ分析をより効率的に行いましょう。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です