Googleは、開発者がGoogleの最先端の生成AIモデル(GeminiやPaLMなど)を使用してAI機能やアプリケーションを構築することを可能にするPython SDKを提供しています。このSDKは以下のようなユースケースをサポートしています:
- テキストのみの入力からテキストを生成
- テキストと画像の入力(マルチモーダル)からテキストを生成(Geminiのみ)
- マルチターンの会話(チャット)を構築
たとえば、数行のコードでGeminiのマルチモーダル機能にアクセスし、テキストと画像の入力からテキストを生成することができます。
model = genai.GenerativeModel('gemini-pro-vision')
cookie_picture = {'mime_type': 'image/png', 'data': Path('cookie.png').read_bytes()}
prompt = "Give me a recipe for this:"
response = model.generate_content(content=[prompt, cookie_picture])
print(response.text)
また、Google AI Python SDKはPyPIからインストールでき、APIキーはAI Studioから取得できます。
pip install google-generativeai
import google.generativeai as genai
genai.configure(api_key=os.environ["API_KEY"])
model = genai.GenerativeModel('gemini-pro')
モデルとの会話を開始するには、GenerativeModel.start_chatを使用します。
chat = model.start_chat()
response = chat.send_message('Hello, what should I have for dinner?')
print(response.text) # 'Here are some suggestions...'
response = chat.send_message("How do I cook the first one?")
詳細なインストール手順やAPIの使用方法については、Googleのドキュメンテーションにクイックスタートガイドがあります。このクイックスタートガイドでは、APIキーの追加とSDKのアプリへのインストール、モデルの初期化、APIの呼び出し方法などが説明されています。また、ストリーミング、埋め込み、トークンのカウント、レスポンスの制御などの追加のユースケースと機能についても説明されています。
Google AI SDKとGeminiモデルの完全なドキュメンテーションは、Googleのドキュメンテーションで見つけることができます。