Google 提供了广泛的业界领先 AI 模型和 API,可用于云端推理和设备端推理。借助混合推理,您可以在本地设备和云端之间无缝平衡 AI 工作负载,从而优化性能、费用和可用性。
混合推理为 Android 应用提供了两大主要优势:
- 最大限度地扩大覆盖面:当设备端 模型(例如 Gemini Nano)因设备硬件或操作系统 限制而不可用时,云端模型可作为关键的后备方案。这有助于确保您的 AI 功能在尽可能多的用户设备上保持正常运行。
- 费用和离线功能:设备端模型有助于确保您的 AI 功能在用户离线时无缝运行。此外,将例行任务卸载到本地设备有助于降低云端推理费用。
以下分别是设备端推理和云端推理的优势:
| 设备端推理 | 云端推理 |
|---|---|
| 可离线使用 | 与任何设备兼容 |
| 无推理费用 | 高级模型功能 |
实现选项
您可以使用以下方法实现混合推理:
Firebase AI Logic Hybrid API
Firebase AI Logic Hybrid API 提供了一个统一的接口,用于 在云端和设备端环境之间拆分推理。
它包含一个 onDeviceConfig 参数,提供简单的控件来定义
推理模式和管理路由:
PREFER_ON_DEVICE:尝试使用设备端模型,如果设备端模型不可用或不支持该请求,则自动回退到云端托管的模型。PREFER_IN_CLOUD:尝试在设备在线且模型可用时使用云端托管的模型,仅当设备离线时才回退到设备端模型。ONLY_ON_DEVICE:尝试使用设备端模型,但如果该模型不可用或不支持该请求,则抛出异常。ONLY_IN_CLOUD:尝试在设备在线且模型可用时使用云端托管的模型,在所有其他情况下都抛出异常。
val model = Firebase.ai(backend = GenerativeBackend.Companion.googleAI()) .generativeModel( modelName = "gemini-2.5-flash", onDeviceConfig = OnDeviceConfig(mode = InferenceMode.Companion.PREFER_ON_DEVICE) ) val response = model.generateContent("Write a story about a green robot.") print(response.text)
如需了解实现详情,请查看 Firebase 文档 并探索 AI 目录中的 Hybrid AI 示例。
自定义路由
如果您的应用有特定的业务或用户体验要求,您还可以实现自定义路由逻辑。这样,您就可以根据实时因素(例如以下因素)动态确定推理路径:
- 网络延迟
- 设备系统健康状况(例如电池电量和处理器负载)
- 用户查询的复杂性
领先的应用(包括以下应用)使用了这种自定义混合推理方法,这些应用实现了自己的自定义路由,以提供可靠的 AI 体验:
GBoard: Gboard 使用自定义混合推理来支持写作工具,例如 校对和重写。
Kakao Mobility: Kakao Mobility 为其包裹递送服务构建了一个实体提取工具,该工具使用自定义混合推理 从自然语言消息中自动提取收件人姓名、 地址和电话号码,以简化 订单表单。