Migliorare lo sviluppo di Android assistito dall'AI e i modelli LLM con Android Bench

2 minuti di lettura

05 Mar 2026

Matthew McCullough Vice President, Product Management, Android Developer

Vogliamo rendere più facile e veloce la creazione di app Android di alta qualità e uno dei modi in cui ti aiutiamo a essere più produttivo è mettere l'AI a portata di mano. Sappiamo che vuoi un'AI che comprenda davvero le sfumature della piattaforma Android, motivo per cui abbiamo misurato il rendimento dei modelli LLM nelle attività di sviluppo di Android. Oggi abbiamo rilasciato la prima versione di Android Bench, la nostra classifica ufficiale dei modelli LLM per lo sviluppo di Android.

Il nostro obiettivo è fornire ai creatori di modelli un benchmark per valutare le funzionalità dei modelli LLM per lo sviluppo di Android. Stabilendo una base di riferimento chiara e affidabile per lo sviluppo di Android di alta qualità, aiutiamo i creatori di modelli a identificare le lacune e ad accelerare i miglioramenti, il che consente agli sviluppatori di lavorare in modo più efficiente con una gamma più ampia di modelli utili da scegliere per l'assistenza AI, il che alla fine porterà ad app di qualità superiore nell'ecosistema Android.

Progettato con attività di sviluppo di Android nel mondo reale

Abbiamo creato il benchmark curando un insieme di attività in una serie di aree di sviluppo di Android comuni. È composto da sfide reali di varia difficoltà, provenienti da repository Android pubblici di GitHub. Gli scenari includono la risoluzione di modifiche che causano interruzioni tra le release di Android, attività specifiche del dominio come la rete su wearable e la migrazione all'ultima versione di Jetpack Compose, solo per citarne alcuni.

Ogni valutazione tenta di far risolvere al modello LLM il problema segnalato nell'attività, che poi verifichiamo utilizzando test unitari o di strumentazione. Questo approccio indipendente dal modello ci consente di misurare la capacità di un modello di navigare in codebase complesse, comprendere le dipendenze e risolvere il tipo di problemi che incontri ogni giorno.

Abbiamo convalidato questa metodologia con diversi produttori di modelli LLM, tra cui JetBrains.

"Misurare l'impatto dell'AI su Android è una sfida enorme, quindi è fantastico vedere un framework così solido e realistico. Sebbene siamo attivi nel benchmarking, Android Bench è un'aggiunta unica e gradita. Questa metodologia è esattamente il tipo di valutazione rigorosa di cui gli sviluppatori Android hanno bisogno in questo momento."
- Kirill Smelov, Head of AI Integrations presso JetBrains.

I primi risultati di Android Bench

Per questa release iniziale, volevamo misurare esclusivamente il rendimento del modello e non concentrarci sull'utilizzo di agenti o strumenti. I modelli sono riusciti a completare correttamente il 16-72% delle attività. Si tratta di un'ampia gamma che dimostra che alcuni modelli LLM hanno già una solida base di conoscenza di Android, mentre altri hanno più margini di miglioramento. Indipendentemente dalla situazione attuale dei modelli, prevediamo un miglioramento continuo man mano che incoraggiamo i produttori di modelli LLM a migliorare i propri modelli per lo sviluppo di Android.

Il modello LLM con il punteggio medio più alto per questa prima release è Gemini 3.1 Pro, seguito da vicino da Claude Opus 4.6. Puoi provare tutti i modelli che abbiamo valutato per l'assistenza AI per i tuoi progetti Android utilizzando le chiavi API nell'ultima versione stabile di Android Studio.

Fornire trasparenza a sviluppatori e produttori di modelli LLM

Apprezziamo un approccio aperto e trasparente, quindi abbiamo reso la nostra metodologia, il nostro set di dati e il nostro harness di test disponibili pubblicamente su GitHub.

Una sfida per qualsiasi benchmark pubblico è il rischio di contaminazione dei dati, in cui i modelli potrebbero aver visto le attività di valutazione durante il processo di addestramento. Abbiamo adottato misure per garantire che i nostri risultati riflettano un ragionamento genuino anziché la memorizzazione o la supposizione, inclusa una revisione manuale approfondita delle traiettorie degli agenti o l'integrazione di una stringa canary per scoraggiare l'addestramento.

In futuro, continueremo a far evolvere la nostra metodologia per preservare l'integrità del set di dati, apportando al contempo miglioramenti per le future release del benchmark, ad esempio aumentando la quantità e la complessità delle attività.

Non vediamo l'ora di scoprire in che modo Android Bench può migliorare l'assistenza AI a lungo termine. La nostra visione è colmare il divario tra il concetto e il codice di qualità. Stiamo costruendo le basi per un futuro in cui, indipendentemente da ciò che immagini, potrai crearlo su Android.

Scritto da:

Matthew McCullough

Vice President, Product Management, Android Developer

read_more Visualizza profilo

Continua a leggere

19 May 2026

19 May 2026

Novità sui prodotti

17 cose da sapere per gli sviluppatori Android al Google I/O!

arrow_forward

Google I/O '26 presenta 17 annunci chiave per gli sviluppatori Android incentrati sulla produttività guidata dagli agenti, su Compose First come standard dell'interfaccia utente e su media ad alte prestazioni e sviluppo adattivo per l'ecosistema in espansione.
Matthew McCullough • 8 min read
- #Google I/O
12 May 2026

12 May 2026

Novità sui prodotti

Creare per il sistema di intelligence su Android

arrow_forward

Annunciato oggi durante The Android Show, Android sta passando da un sistema operativo a un sistema di intelligence, creando maggiori opportunità di coinvolgimento con le tue app.
Matthew McCullough • 4 min read
- #Android
02 Apr 2026

02 Apr 2026

Novità sui prodotti

Gemma 4: il nuovo standard per l'intelligence degli agenti locali su Android

arrow_forward

Oggi stiamo migliorando lo sviluppo di Android con Gemma 4, il nostro modello aperto allo stato dell'arte più recente progettato con funzionalità di ragionamento complesso e chiamata di strumenti autonomi.
Matthew McCullough • 2 min read
- #Android Studio

Progettato con attività di sviluppo di Android nel mondo reale

I primi risultati di Android Bench

Fornire trasparenza a sviluppatori e produttori di modelli LLM

Matthew McCullough

Vice President, Product Management, Android Developer

17 cose da sapere per gli sviluppatori Android al Google I/O!

Creare per il sistema di intelligence su Android

Gemma 4: il nuovo standard per l'intelligence degli agenti locali su Android