Pandasのquantile
メソッドは、データフレームまたはシリーズの分位数を計算するための便利な機能です。このメソッドは、特定の軸での値の分位数を計算します。デフォルトの軸は行ですが、列軸(axis=’columns’)を指定すると、quantile
メソッドは列ごとに分位数を計算し、各行の平均値を返します。
基本的な構文は次のとおりです。
DataFrame.quantile(q=0.5, axis=0, numeric_only=False, interpolation='linear', method='single')
ここで、
– q
: 計算したい分位数(0 <= q <= 1)。デフォルトは0.5(50%分位数)。
– axis
: 分位数を計算する軸。0または’index’(デフォルト)は行ごと、1または’columns’は列ごと。
– numeric_only
: 数値データのみを含めるかどうか。デフォルトはFalse。
– interpolation
: 補間方法。デフォルトは’linear’。
– method
: 分位数を列ごと(’single’)またはすべての列で(’table’)計算するかどうか。デフォルトは’single’。
以下に具体的な使用例を示します。
import pandas as pd
import numpy as np
# データフレームの作成
df = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4, 100]]), columns=['a', 'b'])
# 分位数の計算
q = df['a'].quantile(0.95)
# 分位数を基にデータフレームの絞り込み
new_df = df.query('a < @q')
このように、quantile
メソッドを使用すると、データの分布を理解し、外れ値を確認または除去することが容易になります。これは、データ分析や機械学習のタスクにおいて、データの前処理ステップとして非常に有用です。