Pythonのデータ分析ライブラリであるpandasには、データの連結や結合を行うための便利な関数があります。その中でも、concat
とjoin
は特に重要です。
concatの使い方
concat
は、複数のデータフレームを縦方向または横方向に結合する手段です。具体的には、同じ構造のテーブルが複数のCSVに分かれて保存されている場合に、それらを一つにくっつけて扱いやすくするために使います。
以下に、Pythonでのconcat
の基本的な使い方を示します。
import pandas as pd
df1 = pd.DataFrame({"Name": ["田中", "鈴木", "柴田"], "Group": ["A", "A", "B"], "Point": [1, 2, 2]}).set_index("Name")
df2 = pd.DataFrame({"Name": ["松井", "広末"], "Group": ["A", "C"], "Point": [0, 3]}).set_index("Name")
# 縦方向に結合
df = pd.concat([df1, df2])
joinの使い方
join
は、「インデックス」を軸に横に結合します。結合軸がインデックスで固定のため、複数をまとめて結合できます。
以下に、Pythonでのjoin
の基本的な使い方を示します。
df1 = pd.DataFrame({"Name": ["田中", "鈴木", "柴田"], "Group": ["A", "A", "B"], "Point": [1, 2, 2]}).set_index("Name")
df3 = pd.DataFrame({"Name": ["田中", "鈴木", "柴田"], "Address": ["東京", "大阪", "北海道"]}).set_index("Name")
# インデックスを軸に横に結合
df = df1.join(df3)
以上、Pythonのpandasライブラリでのデータ結合方法について、concat
とjoin
の使い方を解説しました。これらの関数を理解し、適切に使い分けることで、データ分析作業をより効率的に進めることができます。.