Pythonでデータフレームを標準化する方法について説明します。標準化は、データの平均を0、標準偏差を1に変換することで、データのスケールを揃える手法です。
方法1: apply関数を使用する
def mean_norm(df_input):
return df_input.apply(lambda x: (x-x.mean())/ x.std(), axis=1) # 列ごとの標準化の場合は axis=0
上記の関数のdf_input
のところにdataframeを代入すれば、標準化ができます。
方法2: scikit-learnのStandardScalerを使用する
from sklearn.preprocessing import StandardScaler
# 標準化したいカラムを用意
scaling_columns = ["A", "B", "C"]
# trainと言うDataFrameにfit
sc = StandardScaler().fit(train[scaling_columns])
# 標準化したカラムのみ元のDataFrameに戻す
scaled_train = pd.DataFrame(sc.transform(train[scaling_columns]), columns=scaling_columns, index=train.index)
上記のコードでは、StandardScaler
を使用して特定のカラムを標準化し、元のDataFrameに戻しています。
以上、Pythonでのデータフレームの標準化方法について説明しました。これらの方法を活用して、データの前処理を行ってみてください。