Novedades de productos
Mejora el desarrollo de Android asistido por IA y los LLM con Android Bench
2 min de lectura
Queremos que te resulte más rápido y sencillo compilar apps para Android de alta calidad, y una de las formas en que te ayudamos a ser más productivo es poniendo la IA a tu alcance. Sabemos que quieres una IA que comprenda realmente los matices de la plataforma de Android, por lo que hemos estado midiendo el rendimiento de los LLM en las tareas de desarrollo de Android. Hoy lanzamos la primera versión de Android Bench, nuestra tabla de clasificación oficial de LLM para el desarrollo de Android.
Nuestro objetivo es proporcionar a los creadores de modelos una comparativa para evaluar las capacidades de LLM para el desarrollo de Android. Al establecer una base clara y confiable para lo que implica el desarrollo de Android de alta calidad, ayudamos a los creadores de modelos a identificar brechas y acelerar las mejoras, lo que permite a los desarrolladores trabajar de manera más eficiente con una gama más amplia de modelos útiles para elegir la asistencia de IA, lo que, en última instancia, conducirá a apps de mayor calidad en todo el ecosistema de Android.
Diseñado con tareas de desarrollo de Android del mundo real
Creamos la comparativa seleccionando un conjunto de tareas en una variedad de áreas comunes de desarrollo de Android. Se compone de desafíos reales de diferente dificultad, obtenidos de repositorios públicos de GitHub para Android. Los casos de uso incluyen la resolución de cambios rotundos en las versiones de Android, tareas específicas del dominio, como la conexión en red en wearables, y la migración a la versión más reciente de Jetpack Compose, por nombrar algunos.
Cada evaluación intenta que un LLM solucione el problema informado en la tarea, que luego verificamos con pruebas unitarias o de instrumentación. Este enfoque independiente del modelo nos permite medir la capacidad de un modelo para navegar por bases de código complejas, comprender las dependencias y resolver el tipo de problemas que encuentras todos los días.
Validamos esta metodología con varios fabricantes de LLM, incluido JetBrains.
“Medir el impacto de la IA en Android es un desafío enorme, por lo que es genial ver un marco tan sólido y realista. Si bien estamos activos en la evaluación comparativa, Android Bench es una incorporación única y bienvenida. Esta metodología es exactamente el tipo de evaluación rigurosa que los desarrolladores de Android necesitan en este momento”
- Kirill Smelov, director de Integraciones de IA en JetBrains.
Los primeros resultados de Android Bench
Para este lanzamiento inicial, queríamos medir puramente el rendimiento del modelo y no enfocarnos en el uso de agentes o herramientas. Los modelos pudieron completar con éxito entre el 16% y el 72% de las tareas. Este es un rango amplio que demuestra que algunos LLM ya tienen una base sólida para el conocimiento de Android, mientras que otros tienen más margen de mejora. Independientemente de dónde se encuentren los modelos ahora, esperamos una mejora continua a medida que alentamos a los fabricantes de LLM a mejorar sus modelos para el desarrollo de Android.
El LLM con la puntuación promedio más alta para este primer lanzamiento es Gemini 3.1 Pro, seguido de cerca por Claude Opus 4.6. Puedes probar todos los modelos que evaluamos para la asistencia de IA para tus proyectos de Android usando claves de API en la versión estable más reciente de Android Studio.
Proporciona transparencia a los desarrolladores y fabricantes de LLM
Valoramos un enfoque abierto y transparente, por lo que pusimos a disposición pública nuestra metodología, nuestro conjunto de datos y nuestro arnés de prueba en GitHub.
Un desafío para cualquier comparativa pública es el riesgo de contaminación de datos, en el que los modelos pueden haber visto tareas de evaluación durante su proceso de entrenamiento. Tomamos medidas para garantizar que nuestros resultados reflejen un razonamiento genuino en lugar de memorización o adivinación, incluida una revisión manual exhaustiva de las trayectorias de los agentes o la integración de una cadena canary para desalentar el entrenamiento.
En el futuro, seguiremos mejorando nuestra metodología para preservar la integridad del conjunto de datos y, al mismo tiempo, realizar mejoras para las versiones futuras de la comparativa, por ejemplo, aumentar la cantidad y la complejidad de las tareas.
Esperamos que Android Bench pueda mejorar la asistencia de IA a largo plazo. Nuestra visión es cerrar la brecha entre el concepto y el código de calidad. Estamos sentando las bases para un futuro en el que, sin importar lo que imagines, puedas compilarlo en Android.
Seguir leyendo
-
Novedades de productos
Hoy, mejoramos el desarrollo de Android con Gemma 4, nuestro modelo abierto de vanguardia más reciente, diseñado con razonamiento complejo y capacidades autónomas de llamada a herramientas.
Matthew McCullough • 2 min de lectura
-
Novedades de productos
Android 17 alcanzó oficialmente la estabilidad de la plataforma hoy con la versión beta 3. Eso significa que la superficie de la API está bloqueada. Puedes realizar pruebas de compatibilidad finales y enviar tus apps orientadas a Android 17 a Play Store.
Matthew McCullough • 5 min de lectura
-
Novedades de productos
Hoy lanzamos la segunda versión beta de Android 17, y continuamos nuestro trabajo para compilar una plataforma que priorice la privacidad, la seguridad y el rendimiento mejorado.
Matthew McCullough • 6 min de lectura
Mantente al día
Recibe la información más reciente sobre el desarrollo de Android en tu bandeja de entrada todas las semanas.