混合推理

Google 提供了广泛的业界领先 AI 模型和 API,可用于云端推理和设备端推理。借助混合推理,您可以在本地设备和云端之间无缝平衡 AI 工作负载,从而优化性能、费用和可用性。

混合推理为 Android 应用提供了两大主要优势:

  • 最大限度地扩大覆盖面:当设备端 模型(例如 Gemini Nano)因设备硬件或操作系统 限制而不可用时,云端模型可作为关键的后备方案。这有助于确保您的 AI 功能在尽可能多的用户设备上保持正常运行。
  • 费用和离线功能:设备端模型有助于确保您的 AI 功能在用户离线时无缝运行。此外,将例行任务卸载到本地设备有助于降低云端推理费用。

以下分别是设备端推理和云端推理的优势:

设备端推理 云端推理
可离线使用 与任何设备兼容
无推理费用 高级模型功能

实现选项

您可以使用以下方法实现混合推理:

Firebase AI Logic Hybrid API

Firebase AI Logic Hybrid API 提供了一个统一的接口,用于 在云端和设备端环境之间拆分推理。

它包含一个 onDeviceConfig 参数,提供简单的控件来定义 推理模式和管理路由:

  • PREFER_ON_DEVICE:尝试使用设备端模型,如果设备端模型不可用或不支持该请求,则自动回退到云端托管的模型。
  • PREFER_IN_CLOUD:尝试在设备在线且模型可用时使用云端托管的模型,仅当设备离线时才回退到设备端模型。
  • ONLY_ON_DEVICE:尝试使用设备端模型,但如果该模型不可用或不支持该请求,则抛出异常。
  • ONLY_IN_CLOUD:尝试在设备在线且模型可用时使用云端托管的模型,在所有其他情况下都抛出异常。

val model = Firebase.ai(backend = GenerativeBackend.Companion.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.Companion.PREFER_ON_DEVICE)
    )

val response = model.generateContent("Write a story about a green robot.")
print(response.text)

如需了解实现详情,请查看 Firebase 文档 并探索 AI 目录中的 Hybrid AI 示例

自定义路由

如果您的应用有特定的业务或用户体验要求,您还可以实现自定义路由逻辑。这样,您就可以根据实时因素(例如以下因素)动态确定推理路径:

  • 网络延迟
  • 设备系统健康状况(例如电池电量和处理器负载)
  • 用户查询的复杂性

领先的应用(包括以下应用)使用了这种自定义混合推理方法,这些应用实现了自己的自定义路由,以提供可靠的 AI 体验:

  • GBoard: Gboard 使用自定义混合推理来支持写作工具,例如 校对和重写。

  • Kakao Mobility: Kakao Mobility 为其包裹递送服务构建了一个实体提取工具,该工具使用自定义混合推理 从自然语言消息中自动提取收件人姓名、 地址和电话号码,以简化 订单表单。