Jupyter Notebookはデータ分析や機械学習のための強力なツールで、PythonとSQLを組み合わせて使用することができます。以下に、その基本的な手順を説明します。
1. マジックコマンドを使う
まずは、Jupyter NotebookでSQLを操作するために必要なマジックコマンドを使えるようにします。以下のコードを打ち込むことで、SQLを使えるようになります。
pip install ipython-sql
%load_ext sql
これにより、コマンドの最初に%%sql
と入力することで、そのセルだけSQLのコマンドが使えるようになります。
2. SQLサーバーを立てる
次に、SQLサーバーを立てます。今回は、SQLiteを使用します。SQLiteは環境構築を必要とせず、ライブラリ感覚で使えます。
%sql sqlite:///tmp.sqlite3
これで、SQLが使えるようになりました。
3. PandasからSQLにデータを送る
Pandasにデータを読み込んだ後、そのデータをSQLに送ることができます。
import pandas as pd
df = pd.read_csv('データへのパス')
df.to_sql('自分でつけるテーブル名', 'sqlite:///tmp.sqlite3')
4. SQLからPandasにデータを送る
SQLでデータを抽出し、そのデータをPandasに送ることも可能です。
data = pd.read_sql_query(
'''
select カラム, count(*) as num
from テーブル名
group by カラム名
order by num desc
''',
'sqlite:///tmp.sqlite3'
)
以上が、Jupyter NotebookでPythonとSQLを使う基本的な手順です。これらの手順を踏むことで、データ分析の幅が広がります。ぜひ試してみてください。.