Novedades de productos

Cómo la optimización automática de las peticiones desbloquea mejoras de calidad en la API GenAI Prompt de ML Kit

Lectura de 3 minutos

Optimización automática de peticiones (APO)

Para ayudarte a llevar a producción tus casos prácticos de la API Prompt de ML Kit, nos complace anunciar la optimización automática de peticiones (APO) para modelos On-Device en Vertex AI. Optimización automática de peticiones es una herramienta que te ayuda a encontrar automáticamente la petición óptima para tus casos prácticos.

La era de la IA en el dispositivo ya no es una promesa, sino una realidad. Con el lanzamiento de Gemini Nano v3, ponemos en manos de los usuarios capacidades multimodales y de comprensión del lenguaje sin precedentes. Gracias a la familia de modelos Gemini Nano, tenemos una amplia cobertura de dispositivos compatibles en todo el ecosistema Android. Sin embargo, para los desarrolladores que están creando la próxima generación de aplicaciones inteligentes, acceder a un modelo potente es solo el primer paso. El verdadero reto reside en la personalización: ¿cómo se adapta un modelo fundacional para que alcance un rendimiento de nivel experto en un caso de uso específico sin incumplir las limitaciones del hardware móvil?

En el mundo del lado del servidor, los LLMs más grandes suelen ser muy eficaces y requieren menos adaptación al dominio. Incluso cuando sea necesario, se pueden usar opciones más avanzadas, como el ajuste fino de LoRA (adaptación de bajo rango). Sin embargo, la arquitectura única de Android AICore prioriza un modelo de sistema compartido y eficiente en cuanto a memoria. Esto significa que implementar adaptadores LoRA personalizados para cada aplicación individual conlleva problemas en estos servicios del sistema compartidos.

Sin embargo, hay otra vía que puede tener el mismo impacto. Al aprovechar la optimización automática de peticiones (APO) en Vertex AI, los desarrolladores pueden conseguir una calidad similar a la del ajuste fino, todo ello mientras trabajan sin problemas en el entorno de ejecución nativo de Android. Al centrarse en instrucciones de sistema superiores, APO permite a los desarrolladores adaptar el comportamiento del modelo con mayor solidez y escalabilidad que las soluciones de ajuste fino tradicionales.

Nota:  Gemini Nano V3 es una versión optimizada en cuanto a calidad del aclamado modelo Gemma 3N. Las optimizaciones de las peticiones que se hagan en el modelo de código abierto Gemma 3N también se aplicarán a Gemini Nano V3. En los dispositivos compatibles, las APIs de IA generativa de ML Kit aprovechan el modelo nano-v3 para maximizar la calidad para los desarrolladores de Android.

Diagrama de bloques de APO.jpg

APO trata la petición no como un texto estático, sino como una superficie programable que se puede optimizar. Aprovecha los modelos del lado del servidor (como Gemini Pro y Flash) para proponer peticiones, evaluar variaciones y encontrar la óptima para tu tarea específica. Este proceso emplea tres mecanismos técnicos específicos para maximizar el rendimiento:

  1. Análisis de errores automatizado: APO analiza los patrones de errores de los datos de entrenamiento para identificar automáticamente los puntos débiles específicos de la petición inicial.
  2. Destilación de instrucciones semánticas: analiza ejemplos de entrenamiento masivos para destilar la "verdadera intención" de una tarea, creando instrucciones que reflejan con mayor precisión la distribución de datos real.
  3. Pruebas paralelas de candidatos: en lugar de probar una idea a la vez, APO genera y prueba numerosos candidatos de peticiones en paralelo para identificar el máximo global de calidad.

Por qué APO puede abordar la calidad de ajuste preciso

Es un error común pensar que el ajuste fino siempre da mejores resultados que las peticiones. En el caso de los modelos fundacionales modernos, como Gemini Nano v3, la ingeniería de peticiones puede ser eficaz por sí sola:

  • Conservar las funciones generales: el ajuste fino ( PEFT o LoRA) obliga a los pesos de un modelo a centrarse en una distribución de datos específica. Esto suele provocar un "olvido catastrófico", que se produce cuando el modelo mejora en tu sintaxis específica, pero empeora en la lógica general y la seguridad. APO no modifica las ponderaciones, por lo que se conservan las funciones del modelo base.
  • Seguimiento de instrucciones y descubrimiento de estrategias: Gemini Nano v3 se ha entrenado rigurosamente para seguir instrucciones complejas del sistema. APO aprovecha esta situación buscando la estructura de instrucciones exacta que desbloquea las funciones latentes del modelo. De esta forma, a menudo descubre estrategias que a los ingenieros humanos les resultaría difícil encontrar. 

Para validar este enfoque, evaluamos APO en diversas cargas de trabajo de producción. Nuestra validación ha mostrado mejoras de precisión constantes del 5 al 8% en varios casos prácticos.En varias funciones implementadas en el dispositivo, APO ha proporcionado mejoras significativas en la calidad.

Caso prácticoTipo de tareaDescripción de la tareaMétricaMejora de APO
Clasificación por temaClasificación de textosClasifica un artículo de noticias en temas como finanzas, deportes, etc.Precisión+5%
Clasificación de la intenciónClasificación de textosClasificar una consulta de atención al cliente en intencionesPrecisión+8,0%
Traducción de páginas webTraducción de textoTraducir una página web del inglés a un idioma localBLEU+8,57%

Un flujo de trabajo de desarrollo integral y fluido

Es un error común pensar que el ajuste fino siempre da mejores resultados que las peticiones. En el caso de los modelos fundacionales modernos, como Gemini Nano v3, la ingeniería de peticiones puede ser eficaz por sí sola:

  • Conservar las funciones generales: el ajuste fino ( PEFT o LoRA) obliga a los pesos de un modelo a centrarse en una distribución de datos específica. Esto suele provocar un "olvido catastrófico", que se produce cuando el modelo mejora en tu sintaxis específica, pero empeora en la lógica general y la seguridad. APO no modifica las ponderaciones, por lo que se conservan las funciones del modelo base.
  • Seguimiento de instrucciones y descubrimiento de estrategias: Gemini Nano v3 se ha entrenado rigurosamente para seguir instrucciones complejas del sistema. APO aprovecha esta situación buscando la estructura de instrucciones exacta que desbloquea las funciones latentes del modelo. De esta forma, a menudo descubre estrategias que a los ingenieros humanos les resultaría difícil encontrar. 

Para validar este enfoque, evaluamos APO en diversas cargas de trabajo de producción. Nuestra validación ha mostrado mejoras de precisión constantes del 5 al 8% en varios casos prácticos.En varias funciones implementadas en el dispositivo, APO ha proporcionado mejoras significativas en la calidad.

Conclusión

El lanzamiento de Optimización automática de peticiones (APO) marca un punto de inflexión para la IA generativa en el dispositivo. Al acortar la distancia entre los modelos fundacionales y el rendimiento de nivel experto, ofrecemos a los desarrolladores las herramientas necesarias para crear aplicaciones móviles más sólidas. Tanto si acabas de empezar a usar la optimización sin ejemplos como si quieres ampliar la producción con el ajuste basado en datos, ahora es más fácil conseguir una inteligencia de alta calidad en el dispositivo. Lanza hoy mismo tus casos prácticos en el dispositivo a producción con la API Prompt de ML Kit y la optimización automática de peticiones de Vertex AI. 

Enlaces relevantes: 

Escrito por:

Seguir leyendo