Gemini Live API は、 ユーザーとの会話型インターフェースを実装するための包括的なソリューションを提供します。Android XR 向けにビルドする場合は、Firebase AI Logic を介して Gemini Live API と統合できます。テキスト読み上げ(TTS)や自動音声認識(ASR)を使用する場合とは異なり、Gemini Live API は音声の入力と出力をシームレスに処理します。Gemini Live API には、永続的なインターネット 接続が必要であり、費用が発生します。また、プロジェクトごとにサポートされる同時接続数は限られています 。特にディスプレイのない音声メガネでは、エラー状態やその他の重要なユーザー コミュニケーションの処理には適していない可能性があります。
音声インターフェースのサポートに加えて、Gemini Live API を使用してエージェント エクスペリエンスを構築することもできます。
Gemini Live API を使い始めるには、
Gemini Live API ガイドに記載されている手順に沿って操作してください。
LiveGenerativeModel のインスタンス化と構成、
LiveSession の確立、アプリが Gemini からのリクエストを処理できるようにするカスタム
FunctionDeclaration インスタンスの作成について説明します。