ادغام با Gemini Live API برای عینک‌های صوتی و عینک‌های نمایشی

دستگاه‌های XR قابل اجرا
این راهنما به شما کمک می‌کند تا برای این نوع دستگاه‌های XR تجربه ایجاد کنید.
صوتی و
عینک نمایش

رابط برنامه‌نویسی Gemini Live یک راه‌حل جامع برای پیاده‌سازی رابط‌های محاوره‌ای با کاربر شما ارائه می‌دهد. هنگام ساخت برنامه برای اندروید XR، می‌توانید از طریق Firebase AI Logic با رابط برنامه‌نویسی Gemini Live ادغام شوید. برخلاف استفاده از تبدیل متن به گفتار (TTS) و تشخیص خودکار گفتار (ASR) ، رابط برنامه‌نویسی Gemini Live ورودی و خروجی صدا را به صورت یکپارچه مدیریت می‌کند. رابط برنامه‌نویسی Gemini Live به اتصال اینترنت مداوم نیاز دارد، هزینه‌بر است، از تعداد محدودی اتصال همزمان در هر پروژه پشتیبانی می‌کند و ممکن است برای مدیریت شرایط خطا یا سایر ارتباطات حیاتی کاربر، به ویژه در عینک‌های صوتی، ایده‌آل نباشد زیرا نمایشگر ندارند.

علاوه بر پشتیبانی از رابط‌های صوتی، می‌توانید از Gemini Live API برای ساخت تجربیات عامل‌محور نیز استفاده کنید.

برای شروع کار با Gemini Live API، مراحل ذکر شده در راهنمای Gemini Live API را دنبال کنید. این راهنما شما را در نمونه‌سازی و پیکربندی یک LiveGenerativeModel ، ایجاد یک LiveSession و ایجاد نمونه‌های سفارشی FunctionDeclaration که به برنامه شما اجازه می‌دهد درخواست‌های Gemini را پردازش کند، راهنمایی می‌کند.