Googleは、開発者がGoogleの最先端の生成AIモデル(GeminiやPaLMなど)を使用してAI機能やアプリケーションを構築することを可能にするPython SDKを提供しています。このSDKは以下のようなユースケースをサポートしています:

  • テキストのみの入力からテキストを生成
  • テキストと画像の入力(マルチモーダル)からテキストを生成(Geminiのみ)
  • マルチターンの会話(チャット)を構築

たとえば、数行のコードでGeminiのマルチモーダル機能にアクセスし、テキストと画像の入力からテキストを生成することができます。

model = genai.GenerativeModel('gemini-pro-vision')
cookie_picture = {'mime_type': 'image/png', 'data': Path('cookie.png').read_bytes()}
prompt = "Give me a recipe for this:"
response = model.generate_content(content=[prompt, cookie_picture])
print(response.text)

また、Google AI Python SDKはPyPIからインストールでき、APIキーはAI Studioから取得できます。

pip install google-generativeai
import google.generativeai as genai
genai.configure(api_key=os.environ["API_KEY"])
model = genai.GenerativeModel('gemini-pro')

モデルとの会話を開始するには、GenerativeModel.start_chatを使用します。

chat = model.start_chat()
response = chat.send_message('Hello, what should I have for dinner?')
print(response.text)  # 'Here are some suggestions...'
response = chat.send_message("How do I cook the first one?")

詳細なインストール手順やAPIの使用方法については、Googleのドキュメンテーションにクイックスタートガイドがあります。このクイックスタートガイドでは、APIキーの追加とSDKのアプリへのインストール、モデルの初期化、APIの呼び出し方法などが説明されています。また、ストリーミング、埋め込み、トークンのカウント、レスポンスの制御などの追加のユースケースと機能についても説明されています。

Google AI SDKとGeminiモデルの完全なドキュメンテーションは、Googleのドキュメンテーションで見つけることができます。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です