L'API Gemini Live fournit une solution complète pour implémenter des interfaces conversationnelles avec votre utilisateur. Lorsque vous développez pour Android XR, vous pouvez l'intégrer à l'API Gemini Live via Firebase AI Logic. Contrairement à l'utilisation de la synthèse vocale (TTS) et de la reconnaissance vocale automatique (ASR), l'API Gemini Live gère de manière transparente les entrées et sorties audio. L'API Gemini Live nécessite une connexion Internet permanente , entraîne des coûts, accepte un nombre limité de connexions simultanées par projet et n'est peut-être pas idéale pour gérer les conditions d'erreur ou d'autres communications utilisateur critiques, en particulier sur les lunettes audio, car elles ne disposent pas d'écran.
En plus de prendre en charge les interfaces audio, vous pouvez également utiliser l'API Gemini Live pour créer des expériences d'agent.
Pour commencer à utiliser l'API Gemini Live, suivez les étapes décrites dans le
guide de l'API Gemini Live. Il vous explique comment instancier et configurer un
LiveGenerativeModel, établir une
LiveSession et créer des instances
FunctionDeclaration personnalisées qui permettent à votre application de traiter
les requêtes de Gemini.