Mejoramos el desarrollo de Android asistido por IA y los LLMs con Android Bench

Lectura de 2 minutos

05 Mar 2026

Queremos que te resulte más rápido y sencillo crear aplicaciones Android de alta calidad. Para ayudarte a ser más productivo, ponemos la IA a tu alcance. Sabemos que quieres una IA que entienda de verdad los matices de la plataforma Android, por eso hemos estado midiendo el rendimiento de los LLMs en las tareas de desarrollo de Android. Hoy hemos lanzado la primera versión de Android Bench, nuestra tabla de clasificación oficial de LLMs para el desarrollo de Android.

Nuestro objetivo es proporcionar a los creadores de modelos una métrica para evaluar las capacidades de los LLMs en el desarrollo para Android. Al establecer una base clara y fiable de lo que significa un desarrollo de Android de alta calidad, ayudamos a los creadores de modelos a identificar las carencias y acelerar las mejoras, lo que permite a los desarrolladores trabajar de forma más eficiente con una gama más amplia de modelos útiles para obtener asistencia de IA. En última instancia, esto dará lugar a aplicaciones de mayor calidad en todo el ecosistema Android.

Diseñado con tareas de desarrollo de Android del mundo real

Hemos creado la comparativa seleccionando un conjunto de tareas en una serie de áreas de desarrollo de Android comunes. Se compone de retos reales de dificultad variable, procedentes de repositorios públicos de Android en GitHub. Entre los casos prácticos se incluyen la resolución de cambios incompatibles entre versiones de Android, tareas específicas de un dominio (como la creación de redes en wearables) y la migración a la versión más reciente de Jetpack Compose, entre otros.

En cada evaluación, se intenta que un LLM solucione el problema notificado en la tarea, que luego verificamos mediante pruebas unitarias o de instrumentación. Este enfoque independiente del modelo nos permite medir la capacidad de un modelo para desplazarse por bases de código complejas, comprender las dependencias y resolver los problemas a los que te enfrentas cada día.

Hemos validado esta metodología con varios creadores de LLMs, incluido JetBrains.

"Medir el impacto de la IA en Android es un gran reto, así que es genial ver un marco tan sólido y realista. Aunque nos esforzamos por compararnos con otras empresas, Android Bench es una incorporación única y muy valiosa. Esta metodología es exactamente el tipo de evaluación rigurosa que necesitan los desarrolladores de Android en este momento".
- Kirill Smelov, responsable de Integraciones de IA en JetBrains.

Primeros resultados de Android Bench

En esta primera versión, queríamos medir únicamente el rendimiento del modelo y no centrarnos en el uso de agentes o herramientas. Los modelos pudieron completar entre el 16 y el 72% de las tareas. Se trata de un intervalo amplio que demuestra que algunos LLMs ya tienen una base sólida de conocimientos sobre Android, mientras que otros tienen más margen de mejora. Independientemente del estado actual de los modelos, prevemos que seguirán mejorando a medida que animemos a los creadores de LLMs a optimizar sus modelos para el desarrollo de Android.

El LLM con la puntuación media más alta en esta primera versión es Gemini 3.1 Pro, seguido de cerca por Claude Opus 4.6. Puedes probar todos los modelos que hemos evaluado para la asistencia de IA en tus proyectos de Android usando claves de API en la última versión estable de Android Studio.

Ofrecer transparencia a los desarrolladores y creadores de LLMs

Valoramos un enfoque abierto y transparente, por lo que hemos puesto a disposición del público nuestra metodología, nuestro conjunto de datos y nuestro arnés de pruebas en GitHub.

Uno de los retos de cualquier prueba comparativa pública es el riesgo de contaminación de los datos, en el que los modelos pueden haber visto tareas de evaluación durante su proceso de entrenamiento. Hemos tomado medidas para asegurarnos de que nuestros resultados reflejen un razonamiento genuino en lugar de memorización o conjeturas, como una revisión manual exhaustiva de las trayectorias de los agentes o la integración de una cadena canaria para disuadir el entrenamiento.

De cara al futuro, seguiremos desarrollando nuestra metodología para preservar la integridad del conjunto de datos, al tiempo que introduciremos mejoras en las próximas versiones de la prueba de rendimiento. Por ejemplo, aumentaremos la cantidad y la complejidad de las tareas.

Estamos deseando ver cómo Android Bench puede mejorar la asistencia de la IA a largo plazo. Nuestro objetivo es acortar la distancia entre el concepto y el código de calidad. Estamos sentando las bases de un futuro en el que, independientemente de lo que imagines, puedas crearlo en Android.

Escrito por:

Matthew McCullough

Vicepresidente de Gestión de Productos de Android Developer

read_more Ver perfil

Seguir leyendo

26 Feb 2026

26 Feb 2026

Noticias sobre productos

Segunda versión beta de Android 17

arrow_forward

Hoy lanzamos la segunda beta de Android 17, con la que seguimos trabajando para crear una plataforma que priorice la privacidad, la seguridad y el rendimiento optimizado.
Matthew McCullough • Lectura de 6 minutos
25 Feb 2026

25 Feb 2026

Noticias sobre productos

El SO inteligente: cómo hacer que los agentes de IA sean más útiles para las aplicaciones Android

arrow_forward

Las expectativas de los usuarios respecto a la IA en sus dispositivos están cambiando radicalmente la forma en que interactúan con sus aplicaciones.
Matthew McCullough • Tiempo de lectura: 3 min
13 Feb 2026

13 Feb 2026

Noticias sobre productos

Primera versión beta de Android 17

arrow_forward

Hoy lanzamos la primera beta de Android 17, con la que seguimos trabajando para crear una plataforma que priorice la privacidad, la seguridad y el rendimiento optimizado.
Matthew McCullough • Lectura de 7 minutos

Diseñado con tareas de desarrollo de Android del mundo real

Primeros resultados de Android Bench

Ofrecer transparencia a los desarrolladores y creadores de LLMs

Escrito por:

Vicepresidente de Gestión de Productos de Android Developer

Seguir leyendo

Matthew McCullough • Lectura de 6 minutos

Matthew McCullough • Tiempo de lectura: 3 min

Matthew McCullough • Lectura de 7 minutos

Mantente al día