Novedades de productos
Aumentar la interacción de los usuarios con la generación de imágenes por IA
Lectura de 5 minutos
Añadir imágenes personalizadas a tu aplicación puede mejorar y personalizar significativamente la experiencia de usuario, así como aumentar la interacción de los usuarios. En esta entrada, se explican dos nuevas funciones de generación de imágenes con Firebase AI Logic: las funciones de edición especializadas de Imagen, que están en versión preliminar, y la disponibilidad general de Gemini 2.5 Flash Image (también conocido como "Nano Banana"), diseñado para la generación de imágenes contextual o conversacional.
Aumentar la interacción de los usuarios con imágenes generadas mediante Firebase AI Logic
Los modelos de generación de imágenes se pueden usar para crear avatares de perfil de usuario personalizados o para integrar recursos visuales personalizados directamente en los flujos de pantalla clave.
Por ejemplo, Imagen ofrece nuevas funciones de edición (en versión preliminar para desarrolladores). Ahora puedes dibujar una máscara y usar la función de pintura para generar píxeles en el área enmascarada. Además, puedes usar la función de expansión de imagen para generar píxeles fuera de la máscara.
Imagen admite la función de pintura, que permite generar solo una parte de una imagen.
Por otro lado, Gemini 2.5 Flash Image (también conocido como Nano Banana) puede usar un conocimiento del mundo más amplio y las funciones de razonamiento de los modelos de Gemini para generar imágenes contextuales, lo que resulta ideal para crear ilustraciones dinámicas que se ajusten a la experiencia actual del usuario en la aplicación.
Usa Gemini 2.5 Flash Image para crear ilustraciones dinámicas que sean relevantes para el contexto de tu aplicación.
Por último, la posibilidad de editar imágenes de forma conversacional e iterativa permite a los usuarios editar una foto mediante el lenguaje natural.
Usa Gemini 2.5 Flash Image para editar una imagen con lenguaje natural.
Cuando empieces a integrar la IA en tu aplicación, es importante que conozcas la seguridad de la IA. Es fundamental que evalúes los riesgos de seguridad de tu aplicación, que consideres la posibilidad de hacer ajustes para mitigar los riesgos de seguridad, que realices pruebas de seguridad adecuadas a tu caso práctico y que solicites comentarios de los usuarios y monitorices el contenido.
Imagen o Gemini: tú eliges
La diferencia entre Gemini 2.5 Flash Image ("Nano Banana") e Imagen radica en su enfoque principal y sus funciones avanzadas. Gemini 2.5 Flash Image, como modelo de imagen de la familia de modelos de Gemini, destaca en la edición de imágenes conversacional, ya que mantiene el contexto y la coherencia del tema en varias iteraciones, y aprovecha el conocimiento y el razonamiento del mundo para crear imágenes relevantes en función del contexto o insertar imágenes precisas en secuencias de texto largas.
Imagen es el modelo de generación de imágenes especializado de Google, diseñado para ofrecer un mayor control creativo. Se especializa en resultados fotorrealistas, detalles artísticos y estilos específicos, y proporciona controles explícitos para especificar la relación de aspecto o el formato de la imagen generada.
| Imágenes de Gemini 2.5 Flash (Nano Banana 🍌) | Imagen |
🌎 Conocimiento del mundo y razonamiento para obtener imágenes más relevantes en el contexto. 💬 Edita imágenes de forma conversacional sin perder el contexto 📖 Insertar elementos visuales precisos en secuencias de texto largas | 📐 Especificar la relación de aspecto o el formato de las imágenes generadas
🖌️ Compatibilidad con la edición basada en máscaras para la función de relleno y la de expansión.
🎚️ mayor control sobre los detalles de la imagen generada (calidad, detalles artísticos y estilos específicos) |
Veamos cómo usarlas en tu aplicación.
Reconstrucción de imagen con Imagen
Hace unos meses, lanzamos nuevas funciones de edición para Imagen. Aunque Imagen ya está listo para la producción de imágenes, las funciones de edición aún se encuentran en versión preliminar para desarrolladores.
Las funciones de edición de Imagen incluyen relleno inteligente y extensión inteligente, que son funciones de edición de imágenes basadas en máscaras. Esta nueva función permite a los usuarios modificar áreas específicas de una imagen sin tener que regenerarla por completo. Esto significa que puedes conservar las mejores partes de la imagen y solo modificar lo que quieras cambiar.
Usa las funciones de edición de Imagen para hacer cambios precisos y específicos en una imagen y garantizar la integridad del resto de la imagen
Estos cambios se realizan manteniendo los elementos principales y la integridad general de la imagen original, y modificando solo el área de la máscara.
Para implementar la pintura de relleno con Imagen, primero inicializa imagen-3.0-capability-001 un modelo de Imagen específico que admita funciones de edición:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val editingModel = Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel( "imagen-3.0-capability-001", generationConfig = ImagenGenerationConfig( numberOfImages = 1, aspectRatio = ImagenAspectRatio.SQUARE_1x1, imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75), ), )
A continuación, define la función de restauración:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val prompt = "remove the pancakes and make it an omelet instead" suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap { val imageResponse = editingModel.editImage( referenceImages = listOf( ImagenRawImage(sourceImage.toImagenInlineImage()), ImagenRawMask(maskImage.toImagenInlineImage()), ), prompt = prompt, config = ImagenEditingConfig( editMode = ImagenEditMode.INPAINT_INSERTION, editSteps = editSteps, ), ) return imageResponse.images.first().asBitmap() }
Proporcionas una imagen de origen, una imagen de máscara y una petición para la edición, así como el número de pasos de edición que se deben realizar.
Puedes verla en acción en el ejemplo de edición de imágenes del catálogo de ejemplos de IA de Android.
Imagen también admite la función expansión de imagen, que permite que el modelo genere los píxeles fuera de una máscara. También puedes usar las funciones de personalización de imágenes de Imagen para cambiar el estilo de una imagen o actualizar un sujeto en una imagen. Consulta más información en la documentación para desarrolladores de Android.
Generación de imágenes conversacionales con Gemini 2.5 Flash Image
Una forma de editar imágenes con Gemini 2.5 Flash Image es usar las funciones de chat de varias interacciones del modelo.
Primero, inicializa el modelo:
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel( modelName = "gemini-2.5-flash-image", // Configure the model to respond with text and images (required) generationConfig = generationConfig { responseModalities = listOf(ResponseModality.TEXT, ResponseModality.IMAGE) } )
Para conseguir un resultado similar al del método de Imagen basado en máscaras descrito anteriormente, podemos utilizar la API chat para iniciar una conversación con Gemini 2.5 Flash Image.
// Copyright 2025 Google LLC. // SPDX-License-Identifier: Apache-2.0 // Initialize the chat val chat = model.startChat() // Load a bitmap val source = ImageDecoder.createSource(context.contentResolver, uri) val bitmap = ImageDecoder.decodeBitmap(source) // Create the initial prompt instructing the model to edit the image val prompt = content { image(bitmap) text("remove the pancakes and add an omelet") } // To generate an initial response, send a user message with the image and text prompt var response = chat.sendMessage(prompt) // Inspect the returned image var generatedImageAsBitmap = response .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image // Follow up requests do not need to specify the image again response = chat.sendMessage("Now, center the omelet in the pan") generatedImageAsBitmap = response .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image
Puedes verlo en acción en el ejemplo de Gemini Image Chat del catálogo de ejemplos de IA de Android y leer más sobre él en la documentación de Android.
Conclusión
Tanto Imagen como Gemini 2.5 Flash Image ofrecen funciones potentes que te permiten seleccionar el modelo de generación de imágenes ideal para personalizar tu aplicación y aumentar la interacción de los usuarios, en función de tu caso práctico específico.
Seguir leyendo
-
Noticias sobre productos
Hoy ampliamos la familia de modelos Gemini 3 con el lanzamiento de Gemini 3 Flash, una inteligencia de vanguardia diseñada para ser rápida a una fracción del coste.
Thomas Ezan • Tiempo de lectura: 2 min
-
Noticias sobre productos
Nos complace anunciar importantes actualizaciones de nuestros recursos de diseño, que te ofrecen la guía completa que necesitas para crear aplicaciones Android adaptables y de alta calidad en todos los factores de forma. Ahora tenemos una guía sobre la experiencia de escritorio y una galería de diseño de Android renovada.
Ivy Knight • Tiempo de lectura: 2 min
-
Noticias sobre productos
Se ha lanzado la primera versión alfa de Room 3.0. Room 3.0 es una versión principal de la biblioteca que introduce cambios importantes y se centra en Kotlin Multiplatform (KMP). Además, añade compatibilidad con JavaScript y WebAssembly (WASM) a la compatibilidad con Android, iOS y JVM para ordenadores.
Daniel Santiago Rivera • Tiempo de lectura: 4 min
Mantente al día
Recibe cada semana en tu bandeja de entrada las últimas novedades sobre el desarrollo para Android.