向应用添加自定义图片可以显著改善和个性化用户体验,并提高用户互动度。本文将探讨 Firebase AI Logic 的两项新的图片生成功能:目前处于预览版阶段的专业 Imagen 编辑功能,以及 Gemini 2.5 Flash Image(又称“Nano Banana”)的正式版,该模型专为上下文或对话式图片生成而设计。
通过 Firebase AI Logic 生成的图片提升用户互动度
图片生成模型可用于创建自定义用户个人资料头像,或将个性化视觉资源直接集成到关键界面流程中。
例如,Imagen 提供新的编辑功能(处于开发者预览版阶段)。您现在可以绘制遮罩,并利用修复功能在遮罩区域内生成像素。此外,还可以使用外绘功能在蒙版外部生成像素。
Imagen 支持图像修复,可让您仅生成图片的一部分。
或者,Gemini 2.5 Flash Image(又称 Nano Banana)可以利用 Gemini 模型扩展的世界知识和推理能力生成与上下文相关的图片,非常适合创建与用户当前应用内体验相符的动态插图。
使用 Gemini 2.5 Flash Image 创建与您的应用在情境上相关的动态插图。
最后,用户可以通过对话式方式迭代地编辑图片,从而使用自然语言编辑照片。
使用 Gemini 2.5 Flash Image 通过自然语言编辑图片。
开始将 AI 集成到应用中时,请务必了解 AI 安全。尤其要评估应用的安全风险,考虑进行调整以降低安全风险,根据应用场景执行适当的安全测试,并征求用户反馈和监控内容。
Imagen 或 Gemini:由您选择
Gemini 2.5 Flash Image(“Nano Banana”)和 Imagen 的区别在于它们的主要侧重点和高级功能。Gemini 2.5 Flash Image 是 Gemini 系列中的一款图片模型,擅长对话式图片编辑,可在多次迭代中保持上下文和主题一致性,并利用“世界知识和推理”来创建与上下文相关的视觉内容,或在长文本序列中嵌入准确的视觉内容。
Imagen 是 Google 专门用于生成图片的模型,旨在提供更出色的创意控制功能,擅长生成高度逼真的输出内容、艺术细节和特定风格,并提供明确的控制功能来指定所生成图片的宽高比或格式。
| Gemini 2.5 Flash 图片 (Nano Banana 🍌) | Imagen |
🌎 世界知识和推理能力,可生成更符合上下文的图片 💬 以对话方式编辑图片,同时保持上下文 📖 在长文本序列中嵌入准确的视觉元素 | 📐 指定生成的图片的宽高比或格式
🖌️支持基于蒙版的修改,以进行涂抹和扩展。
🎚️ 更好地控制生成的图片的细节(质量、艺术细节和特定风格) |
我们来看看如何在应用中使用它们。
使用 Imagen 进行修复
几个月前,我们为 Imagen 发布了新的编辑功能。虽然 Imagen 现在已可用于生成图片,但编辑功能仍处于开发者预览版阶段。
Imagen 编辑功能包括修复和扩绘,这些都是基于蒙版的图片编辑功能。借助这项新功能,用户可以修改图片的特定区域,而无需重新生成整张图片。这意味着您可以保留图片的最佳部分,只更改您希望更改的内容。
使用 Imagen 编辑功能对图片进行精准的局部更改,同时保证图片其余部分的完整性
这些更改是在保持原始图片的核心元素和整体完整性的同时进行的,并且仅修改蒙版中的区域。
如需使用 Imagen 实现修复功能,请先初始化 imagen-3.0-capability-001 支持编辑功能的特定 Imagen 模型:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val editingModel = Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel( "imagen-3.0-capability-001", generationConfig = ImagenGenerationConfig( numberOfImages = 1, aspectRatio = ImagenAspectRatio.SQUARE_1x1, imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75), ), )
然后,定义修复函数:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val prompt = "remove the pancakes and make it an omelet instead" suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap { val imageResponse = editingModel.editImage( referenceImages = listOf( ImagenRawImage(sourceImage.toImagenInlineImage()), ImagenRawMask(maskImage.toImagenInlineImage()), ), prompt = prompt, config = ImagenEditingConfig( editMode = ImagenEditMode.INPAINT_INSERTION, editSteps = editSteps, ), ) return imageResponse.images.first().asBitmap() }
您需要提供 sourceImage、maskImage、修改提示以及要执行的修改步骤数。
您可以在 Android AI 示例目录中的 Imagen 编辑示例中查看它的实际效果!
Imagen 还支持扩绘,可让模型生成蒙版之外的像素。您还可以使用 Imagen 的图片自定义功能来更改图片的风格或更新图片中的对象。如需详细了解,请参阅 Android 开发者文档。
使用 Gemini 2.5 Flash Image 进行对话式图片生成
使用 Gemini 2.5 Flash Image 修改图片的一种方法是利用模型的多轮对话功能。
首先,初始化模型:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel( modelName = "gemini-2.5-flash-image", // Configure the model to respond with text and images (required) generationConfig = generationConfig { responseModalities = listOf(ResponseModality.TEXT, ResponseModality.IMAGE) } )
为了实现与上述基于遮罩的 Imagen 方法类似的结果,我们可以利用 chat API 与 Gemini 2.5 Flash Image 展开对话。
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 // Initialize the chat val chat = model.startChat() // Load a bitmap val source = ImageDecoder.createSource(context.contentResolver, uri) val bitmap = ImageDecoder.decodeBitmap(source) // Create the initial prompt instructing the model to edit the image val prompt = content { image(bitmap) text("remove the pancakes and add an omelet") } // To generate an initial response, send a user message with the image and text prompt var response = chat.sendMessage(prompt) // Inspect the returned image var generatedImageAsBitmap = response .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image // Follow up requests do not need to specify the image again response = chat.sendMessage("Now, center the omelet in the pan") generatedImageAsBitmap = response .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
您可以在 Android AI 示例目录中查看 Gemini 图片聊天示例,了解其运作方式,还可以在 Android 文档中详细了解相关信息。
总结
Imagen 和 Gemini 2.5 Flash Image 均提供强大的功能,您可以根据具体用例选择理想的图片生成模型,从而实现应用个性化并提高用户互动度。
继续阅读
-
产品资讯
今天,我们为 Gemini 3 模型家族增添了新成员 Gemini 3 Flash。它在提供前沿智能的同时,专为高速处理而设计,且成本大幅降低。
Thomas Ezan • 阅读用时:2 分钟
-
产品资讯
每位开发者的 AI 工作流程和需求都是独一无二的,因此能够选择 AI 如何帮助您进行开发非常重要。1 月,我们推出了在 Android Studio 中选择任何本地或远程 AI 模型来支持 AI 功能的功能
Matthew Warner • 阅读用时:2 分钟
-
产品资讯
Android Studio Panda 3 现已是稳定版,可在生产环境中使用。此版本可让您对 AI 赋能的工作流程进行更多控制和自定义,从而比以往更轻松地构建高品质的 Android 应用。
Matt Dyor • 阅读用时:3 分钟
随时了解最新动态
每周通过电子邮件接收最新的 Android 开发洞见。