混合推理

Google 提供了广泛的业界领先 AI 模型和 API,可用于云端推理和设备端推理。借助混合推理,您可以在本地设备和云端之间无缝平衡 AI 工作负载,从而优化性能、成本和可用性。

混合推理可为 Android 应用带来两大主要优势:

  • 最大限度地扩大覆盖面:当设备端模型(例如 Gemini Nano)因设备硬件或操作系统限制而无法使用时,云模型可作为关键的后备方案。这有助于确保您的 AI 功能在尽可能多的用户设备上保持正常运行。
  • 费用和离线功能:设备端模型有助于确保 AI 功能在用户离线时也能顺畅运行。此外,将日常任务分流到本地设备有助于降低云推理费用。
图表:显示了设备端推理与云端推理的原理。
图 1:设备端推理和云端推理各自的优势。

实现选项

您可以使用以下方法实现混合推理:

Firebase AI Logic Hybrid API

Firebase AI Logic Hybrid API 提供了一个统一的接口,用于在云端和设备端环境之间拆分推理。

它包含一个 onDeviceConfig 参数,可提供简单的控件来定义推理模式和管理路由:

  • PREFER_ON_DEVICE:尝试使用设备端模型,如果设备端模型不可用或不支持相应请求,则自动回退到云端托管模型。
  • PREFER_IN_CLOUD:尝试在设备在线且模型可用时使用云托管模型,仅在设备离线时回退到设备端模型。
  • ONLY_ON_DEVICE:尝试使用设备端模型,但如果该模型不可用或不支持相应请求,则会抛出异常。
  • ONLY_IN_CLOUD:当设备在线且模型可用时,尝试使用云端托管的模型;在所有其他情况下,抛出异常。
val model = Firebase.ai(backend = GenerativeBackend.googleAI())
    .generativeModel(
        modelName = "gemini-2.5-flash",
        onDeviceConfig = OnDeviceConfig(mode = InferenceMode.PREFER_ON_DEVICE)
    )


val response = model.generateContent("Write a story about a green robot.")
print(response.text)

如需了解实现详情,请查看 Firebase 文档,并探索 AI 目录中的混合 AI 示例

自定义路由

如果您的应用有特定的业务或用户体验要求,您还可以实现自定义路由逻辑。这样一来,您就可以根据实时因素(例如:)动态确定推理路径:

  • 网络延迟
  • 设备系统健康状况(例如电池电量和处理器负载)
  • 用户查询的复杂程度

这种自定义混合推理方法已被实现自定义路由以提供可靠 AI 体验的领先应用所采用,包括:

  • GBoard:Gboard 使用自定义混合推理技术来支持校对和改写等写作工具。

  • Kakao Mobility:Kakao Mobility 为其包裹递送服务构建了一个实体提取工具,该工具使用自定义混合推理技术,可从自然语言消息中自动提取收件人姓名、地址和电话号码,从而简化订购单。