Berita Produk
Meningkatkan pengembangan Android yang dibantu AI dan meningkatkan kualitas LLM dengan Android Bench
Waktu baca: 2 menit
Kami ingin mempercepat dan mempermudah Anda membangun aplikasi Android berkualitas tinggi, dan salah satu cara kami membantu Anda menjadi lebih produktif adalah dengan menyediakan AI di ujung jari Anda. Kami tahu Anda menginginkan AI yang benar-benar memahami nuansa platform Android. Itulah sebabnya kami mengukur performa LLM dalam tugas pengembangan Android. Hari ini, kami merilis versi pertama Android Bench, leaderboard resmi LLM untuk pengembangan Android.
Tujuan kami adalah menyediakan tolok ukur bagi pembuat model untuk mengevaluasi kemampuan LLM dalam pengembangan Android. Dengan menetapkan dasar yang jelas dan andal untuk pengembangan Android berkualitas tinggi, kami membantu pembuat model mengidentifikasi kesenjangan dan mempercepat peningkatan—yang memungkinkan developer bekerja lebih efisien dengan berbagai model bermanfaat yang lebih luas untuk dipilih sebagai bantuan AI—yang pada akhirnya akan menghasilkan aplikasi berkualitas lebih tinggi di seluruh ekosistem Android.
Dirancang dengan tugas pengembangan Android dunia nyata
Kami membuat tolok ukur dengan menyusun kumpulan tugas yang disesuaikan dengan berbagai area pengembangan Android umum. Tolok ukur ini terdiri dari tantangan nyata dengan tingkat kesulitan yang bervariasi, yang bersumber dari repositori Android GitHub publik. Skenarionya mencakup penyelesaian perubahan yang melanggar di seluruh rilis Android, tugas khusus domain seperti jaringan di perangkat wearable, dan migrasi ke Jetpack Compose versi terbaru, dan masih banyak lagi.
Setiap evaluasi mencoba membuat LLM memperbaiki masalah yang dilaporkan dalam tugas, yang kemudian kami verifikasi menggunakan pengujian unit atau instrumentasi. Pendekatan yang tidak bergantung pada model ini memungkinkan kami mengukur kemampuan model untuk menavigasi codebase yang kompleks, memahami dependensi, dan memecahkan jenis masalah yang Anda hadapi setiap hari.
Kami memvalidasi metodologi ini dengan beberapa pembuat LLM, termasuk JetBrains.
“Mengukur dampak AI pada Android adalah tantangan besar, jadi sangat bagus melihat framework yang solid dan realistis ini. Meskipun kami aktif melakukan benchmarking sendiri, Android Bench adalah tambahan yang unik dan disambut baik. Metodologi ini adalah jenis evaluasi ketat yang dibutuhkan developer Android saat ini.”
- Kirill Smelov, Head of AI Integrations di JetBrains.
Hasil Android Bench pertama
Untuk rilis awal ini, kami ingin mengukur performa model secara murni dan tidak berfokus pada penggunaan agen atau alat. Model berhasil menyelesaikan 16-72% tugas. Rentang ini menunjukkan bahwa beberapa LLM sudah memiliki dasar yang kuat untuk pengetahuan Android, sementara yang lain memiliki lebih banyak ruang untuk peningkatan. Terlepas dari posisi model saat ini, kami mengantisipasi peningkatan berkelanjutan karena kami mendorong pembuat LLM untuk meningkatkan kualitas model mereka untuk pengembangan Android.
LLM dengan skor rata-rata tertinggi untuk rilis pertama ini adalah Gemini 3.1 Pro, diikuti oleh Claude Opus 4.6. Anda dapat mencoba semua model yang kami evaluasi untuk bantuan AI bagi project Android Anda dengan menggunakan kunci API di Android Studio versi stabil terbaru.
Memberikan transparansi kepada developer dan pembuat LLM
Kami menghargai pendekatan yang terbuka dan transparan, jadi kami menyediakan metodologi kami, set data, dan test harness secara publik di GitHub.
Salah satu tantangan untuk tolok ukur publik adalah risiko kontaminasi data, yang mana model mungkin telah melihat tugas evaluasi selama proses pelatihan. Kami telah mengambil langkah-langkah untuk memastikan hasil kami mencerminkan penalaran yang sebenarnya, bukan hafalan atau tebakan, termasuk peninjauan manual menyeluruh terhadap lintasan agen, atau integrasi string canary untuk mencegah pelatihan.
Ke depannya, kami akan terus mengembangkan metodologi kami untuk menjaga integritas set data, sekaligus melakukan peningkatan untuk rilis tolok ukur mendatang—misalnya, meningkatkan kuantitas dan kompleksitas tugas.
Kami menantikan bagaimana Android Bench dapat meningkatkan bantuan AI dalam jangka panjang. Visi kami adalah menutup kesenjangan antara konsep dan kode berkualitas. Kami membangun fondasi untuk masa depan yang memungkinkan Anda membangun apa pun yang Anda bayangkan di Android.
Lanjutkan membaca
-
Berita Produk
Google I/O '26 menampilkan 17 pengumuman utama untuk developer Android yang berfokus pada produktivitas yang dipimpin agen, Compose First sebagai standar UI kami, serta media berperforma tinggi dan pengembangan adaptif untuk ekosistem yang berkembang.
Matthew McCullough • Waktu baca: 8 menit
-
Berita Produk
Diumumkan hari ini selama The Android Show, Android bertransisi dari sistem operasi menjadi sistem kecerdasan, sehingga menciptakan lebih banyak peluang untuk berinteraksi dengan aplikasi Anda.
Matthew McCullough • Waktu baca: 4 menit
-
Berita Produk
Hari ini, kami meningkatkan pengembangan Android dengan Gemma 4, model terbuka canggih terbaru kami yang dirancang dengan kemampuan penalaran yang kompleks dan pemanggilan alat otomatis.
Matthew McCullough • Waktu baca: 2 menit
Terus dapatkan informasi
Dapatkan insight pengembangan Android terbaru yang dikirim ke kotak masuk Anda setiap minggu.