Pandasのquantileメソッドは、データフレームまたはシリーズの分位数を計算するための便利な機能です。このメソッドは、特定の軸での値の分位数を計算します。デフォルトの軸は行ですが、列軸(axis=’columns’)を指定すると、quantileメソッドは列ごとに分位数を計算し、各行の平均値を返します。

基本的な構文は次のとおりです。

DataFrame.quantile(q=0.5, axis=0, numeric_only=False, interpolation='linear', method='single')

ここで、
q: 計算したい分位数(0 <= q <= 1)。デフォルトは0.5(50%分位数)。
axis: 分位数を計算する軸。0または’index’(デフォルト)は行ごと、1または’columns’は列ごと。
numeric_only: 数値データのみを含めるかどうか。デフォルトはFalse。
interpolation: 補間方法。デフォルトは’linear’。
method: 分位数を列ごと(’single’)またはすべての列で(’table’)計算するかどうか。デフォルトは’single’。

以下に具体的な使用例を示します。

import pandas as pd
import numpy as np

# データフレームの作成
df = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4, 100]]), columns=['a', 'b'])

# 分位数の計算
q = df['a'].quantile(0.95)

# 分位数を基にデータフレームの絞り込み
new_df = df.query('a < @q')

このように、quantileメソッドを使用すると、データの分布を理解し、外れ値を確認または除去することが容易になります。これは、データ分析や機械学習のタスクにおいて、データの前処理ステップとして非常に有用です。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です