Novedades de productos
Mejoramos el desarrollo de Android asistido por IA y los LLMs con Android Bench
Lectura de 2 minutos
Queremos que te resulte más rápido y sencillo crear aplicaciones Android de alta calidad. Para ayudarte a ser más productivo, ponemos la IA a tu alcance. Sabemos que quieres una IA que entienda de verdad los matices de la plataforma Android, por eso hemos estado midiendo el rendimiento de los LLMs en las tareas de desarrollo de Android. Hoy hemos lanzado la primera versión de Android Bench, nuestra tabla de clasificación oficial de LLMs para el desarrollo de Android.
Nuestro objetivo es proporcionar a los creadores de modelos una métrica para evaluar las capacidades de los LLMs en el desarrollo para Android. Al establecer una base clara y fiable de lo que significa un desarrollo de Android de alta calidad, ayudamos a los creadores de modelos a identificar las carencias y acelerar las mejoras, lo que permite a los desarrolladores trabajar de forma más eficiente con una gama más amplia de modelos útiles para obtener asistencia de IA. En última instancia, esto dará lugar a aplicaciones de mayor calidad en todo el ecosistema Android.
Diseñado con tareas de desarrollo de Android del mundo real
Hemos creado la comparativa seleccionando un conjunto de tareas en una serie de áreas de desarrollo de Android comunes. Se compone de retos reales de dificultad variable, procedentes de repositorios públicos de Android en GitHub. Entre los casos prácticos se incluyen la resolución de cambios incompatibles entre versiones de Android, tareas específicas de un dominio (como la creación de redes en wearables) y la migración a la versión más reciente de Jetpack Compose, entre otros.
En cada evaluación, se intenta que un LLM solucione el problema notificado en la tarea, que luego verificamos mediante pruebas unitarias o de instrumentación. Este enfoque independiente del modelo nos permite medir la capacidad de un modelo para desplazarse por bases de código complejas, comprender las dependencias y resolver los problemas a los que te enfrentas cada día.
Hemos validado esta metodología con varios creadores de LLMs, incluido JetBrains.
"Medir el impacto de la IA en Android es un gran reto, así que es genial ver un marco tan sólido y realista. Aunque nos esforzamos por compararnos con otras empresas, Android Bench es una incorporación única y muy valiosa. Esta metodología es exactamente el tipo de evaluación rigurosa que necesitan los desarrolladores de Android en este momento".
- Kirill Smelov, responsable de Integraciones de IA en JetBrains.
Primeros resultados de Android Bench
En esta primera versión, queríamos medir únicamente el rendimiento del modelo y no centrarnos en el uso de agentes o herramientas. Los modelos pudieron completar entre el 16 y el 72% de las tareas. Se trata de un intervalo amplio que demuestra que algunos LLMs ya tienen una base sólida de conocimientos sobre Android, mientras que otros tienen más margen de mejora. Independientemente del estado actual de los modelos, prevemos que seguirán mejorando a medida que animemos a los creadores de LLMs a optimizar sus modelos para el desarrollo de Android.
El LLM con la puntuación media más alta en esta primera versión es Gemini 3.1 Pro, seguido de cerca por Claude Opus 4.6. Puedes probar todos los modelos que hemos evaluado para la asistencia de IA en tus proyectos de Android usando claves de API en la última versión estable de Android Studio.
Ofrecer transparencia a los desarrolladores y creadores de LLMs
Valoramos un enfoque abierto y transparente, por lo que hemos puesto a disposición del público nuestra metodología, nuestro conjunto de datos y nuestro arnés de pruebas en GitHub.
Uno de los retos de cualquier prueba comparativa pública es el riesgo de contaminación de los datos, en el que los modelos pueden haber visto tareas de evaluación durante su proceso de entrenamiento. Hemos tomado medidas para asegurarnos de que nuestros resultados reflejen un razonamiento genuino en lugar de memorización o conjeturas, como una revisión manual exhaustiva de las trayectorias de los agentes o la integración de una cadena canaria para disuadir el entrenamiento.
De cara al futuro, seguiremos desarrollando nuestra metodología para preservar la integridad del conjunto de datos, al tiempo que introduciremos mejoras en las próximas versiones de la prueba de rendimiento. Por ejemplo, aumentaremos la cantidad y la complejidad de las tareas.
Estamos deseando ver cómo Android Bench puede mejorar la asistencia de la IA a largo plazo. Nuestro objetivo es acortar la distancia entre el concepto y el código de calidad. Estamos sentando las bases de un futuro en el que, independientemente de lo que imagines, puedas crearlo en Android.
Seguir leyendo
-
Noticias sobre productos
Hoy lanzamos la segunda beta de Android 17, con la que seguimos trabajando para crear una plataforma que priorice la privacidad, la seguridad y el rendimiento optimizado.
Matthew McCullough • Lectura de 6 minutos
-
Noticias sobre productos
Las expectativas de los usuarios respecto a la IA en sus dispositivos están cambiando radicalmente la forma en que interactúan con sus aplicaciones.
Matthew McCullough • Tiempo de lectura: 3 min
-
Noticias sobre productos
Hoy lanzamos la primera beta de Android 17, con la que seguimos trabajando para crear una plataforma que priorice la privacidad, la seguridad y el rendimiento optimizado.
Matthew McCullough • Lectura de 7 minutos
Mantente al día
Recibe cada semana en tu bandeja de entrada las últimas novedades sobre el desarrollo para Android.