利用 AI 图片生成功能提高用户互动度

阅读用时：5 分钟

13 10 月 2025 年

向应用添加自定义图片可以显著改善和个性化用户体验，并提高用户互动度。本文将探讨 Firebase AI Logic 的两项新的图片生成功能：目前处于预览状态的专业 Imagen 编辑功能，以及正式版 Gemini 2.5 Flash Image（又称“Nano Banana”），该模型专为上下文或对话式图片生成而设计。

通过 Firebase AI Logic 生成的图片提升用户互动度

图片生成模型可用于创建自定义用户个人资料头像，或将个性化视觉资源直接集成到关键界面流程中。

例如，Imagen 提供新的编辑功能（开发者预览版）。您现在可以绘制蒙版，并利用修复功能在蒙版区域内生成像素。此外，还可以使用外绘功能在蒙版外部生成像素。

Imagen 支持图像修复，可让您仅生成图片的一部分。

或者，Gemini 2.5 Flash Image（又称 Nano Banana）可以利用 Gemini 模型扩展的世界知识和推理能力生成与上下文相关的图片，非常适合创建与用户当前应用内体验相符的动态插图。

使用 Gemini 2.5 Flash Image 创建与您的应用在情境上相关的动态插图。

最后，用户可以通过对话式方式迭代地编辑图片，从而使用自然语言编辑照片。

使用 Gemini 2.5 Flash Image 通过自然语言编辑图片。

开始将 AI 集成到应用中时，请务必了解 AI 安全。尤其要评估应用的安全风险，考虑进行调整以降低安全风险，根据应用场景执行适当的安全测试，并征求用户反馈和监控内容。

Imagen 或 Gemini：由您选择

Gemini 2.5 Flash Image（“Nano Banana”）和 Imagen 的区别在于它们的主要侧重点和高级功能。Gemini 2.5 Flash Image 是 Gemini 系列中的一款图片模型，擅长对话式图片编辑，可在多次迭代中保持上下文和主题一致性，并利用“世界知识和推理”功能创建与上下文相关的视觉内容，或在长文本序列中嵌入准确的视觉内容。

Imagen 是 Google 专门的图片生成模型，旨在提供更出色的创意控制功能，擅长生成高度逼真的输出内容、艺术细节和特定风格，并提供明确的控制功能来指定所生成图片的宽高比或格式。

Gemini 2.5 Flash 图片
(Nano Banana 🍌)

Imagen

🌎 世界知识和推理能力，可生成更符合上下文的图片

💬 以对话方式编辑图片，同时保持上下文

📖 在长文本序列中嵌入准确的视觉元素

📐 指定生成的图片的宽高比或格式

🖌️支持基于蒙版的修改，以进行图像修复和图像外绘。

🎚️ 更好地控制生成的图片的细节（质量、艺术细节和特定风格）

我们来看看如何在应用中使用它们。

使用 Imagen 进行修复

几个月前，我们为 Imagen 发布了新的编辑功能。虽然 Imagen 现在已准备好投入使用，可用于生成图片，但编辑功能仍处于开发者预览版阶段。

Imagen 编辑功能包括修复和扩绘，这些都是基于蒙版的图片编辑功能。借助这项新功能，用户可以修改图片的特定区域，而无需重新生成整张图片。这意味着您可以保留图片的最佳部分，只更改您希望更改的内容。

使用 Imagen 编辑功能对图片进行精准的局部更改，同时保证图片其余部分的完整性

这些更改是在保留原始图片的核心元素和整体完整性的同时进行的，并且仅修改蒙版中的区域。

如需使用 Imagen 实现修复功能，请先初始化支持编辑功能的特定 Imagen 模型 imagen-3.0-capability-001：

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
        Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
            "imagen-3.0-capability-001",
            generationConfig = ImagenGenerationConfig(
                numberOfImages = 1,
                aspectRatio = ImagenAspectRatio.SQUARE_1x1,
                imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75),
            ),
        )

然后，定义修复函数：

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val prompt = "remove the pancakes and make it an omelet instead"

suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap {
        val imageResponse = editingModel.editImage(
            referenceImages = listOf(
                ImagenRawImage(sourceImage.toImagenInlineImage()),
                ImagenRawMask(maskImage.toImagenInlineImage()),
            ),
            prompt = prompt,
            config = ImagenEditingConfig(
                editMode = ImagenEditMode.INPAINT_INSERTION,
                editSteps = editSteps,
            ),
        )
        return imageResponse.images.first().asBitmap()
    }

您需要提供 sourceImage、maskImage、修改提示以及要执行的修改步骤数。

您可以在 Android AI 示例目录中的 Imagen 编辑示例中查看它的实际效果！

Imagen 还支持外绘，让模型生成蒙版之外的像素。您还可以使用 Imagen 的图片自定义功能来更改图片的风格或更新图片中的对象。如需详细了解，请参阅 Android 开发者文档。

使用 Gemini 2.5 Flash Image 进行对话式图片生成

使用 Gemini 2.5 Flash Image 修改图片的一种方法是利用模型的多轮对话功能。

首先，初始化模型：

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
    modelName = "gemini-2.5-flash-image",
    // Configure the model to respond with text and images (required)
    generationConfig = generationConfig {
        responseModalities = listOf(ResponseModality.TEXT,
        ResponseModality.IMAGE)
    }
)

为了实现与上述基于遮罩的 Imagen 方法类似的结果，我们可以利用 chat API 与 Gemini 2.5 Flash Image 开启对话。

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

// Initialize the chat
val chat = model.startChat()


// Load a bitmap
val source = ImageDecoder.createSource(context.contentResolver, uri)
val bitmap = ImageDecoder.decodeBitmap(source)


// Create the initial prompt instructing the model to edit the image
val prompt = content {
    image(bitmap)
    text("remove the pancakes and add an omelet")
}

// To generate an initial response, send a user message with the image and text prompt
var response = chat.sendMessage(prompt)

// Inspect the returned image
var generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

您可以在 Android AI 示例目录中查看 Gemini 图片聊天示例，了解其运作方式，还可以在 Android 文档中详细了解相关信息。

总结

Imagen 和 Gemini 2.5 Flash Image 均提供强大的功能，您可以根据自己的具体使用情形选择理想的图片生成模型，从而实现应用个性化并提高用户互动度。

编剧：

Thomas Ezan

高级开发者关系工程师

read_more 查看个人资料
Mozart Louis

开发者关系工程师

read_more 查看个人资料

继续阅读

17 2026 年 4 月

17 2026 年 4 月

产品资讯

Android 上的实验性混合推理和新的 Gemini 模型

arrow_forward

如果您是 Android 开发者，并希望在应用中实现创新的 AI 功能，那么我们最近推出的强大新更新将能满足您的需求。
Thomas Ezan • 阅读用时：3 分钟
17 12 月 2025 年

17 12 月 2025 年

产品资讯

使用 Gemini 3 Flash 构建更智能的应用

arrow_forward

今天，我们为 Gemini 3 模型家族增添了新成员 Gemini 3 Flash。它在提供前沿智能的同时，专为高速处理而设计，且成本大幅降低。
Thomas Ezan • 阅读用时：2 分钟
08 7 月 2026 年

08 7 月 2026 年

产品资讯

不断改进 LLM 在 Android 方面的衡量方式：Android Bench 的新时代

arrow_forward

早在 3 月，我们就推出了 Android Bench，这是我们的大语言模型排行榜，用于评估其在实际 Android 开发任务中的表现。此后，我们根据您的反馈意见对基准进行了增强，包括评估开放权重模型，以及在排行榜中添加费用和效率维度。
Zoe Lopez-Latorre • 阅读用时：3 分钟
- #Agentic Android 开发

Thomas Ezan

高级开发者关系工程师

Mozart Louis

开发者关系工程师

Android 上的实验性混合推理和新的 Gemini 模型

使用 Gemini 3 Flash 构建更智能的应用

不断改进 LLM 在 Android 方面的衡量方式：Android Bench 的新时代