Android Bench ile yapay zeka destekli Android geliştirmeyi iyileştirme ve LLM'leri geliştirme

Okuma süresi: 2 dakika

05 Mar 2026

Yüksek kaliteli Android uygulamaları oluşturma sürecini sizin için daha hızlı ve kolay hale getirmek istiyoruz. Üretkenliğinizi artırmanıza yardımcı olmanın bir yolu olarak yapay zekayı parmaklarınızın ucuna getiriyoruz. Android platformunun nüanslarını gerçekten anlayan bir yapay zeka istediğinizi biliyoruz. Bu nedenle, büyük dil modellerinin Android geliştirme görevlerindeki performansını ölçüyoruz. Bugün, Android geliştirme için LLM'lerin resmi skor tablosu olan Android Bench'in ilk sürümünü yayınladık.

Amacımız, model oluşturuculara Android geliştirme için LLM özelliklerini değerlendirebilecekleri bir kıyaslama sunmaktır. Yüksek kaliteli Android geliştirmenin nasıl göründüğüne dair net ve güvenilir bir temel oluşturarak model üreticilerin eksiklikleri belirlemesine ve iyileştirmeleri hızlandırmasına yardımcı oluyoruz. Bu sayede geliştiriciler, yapay zeka desteği için aralarından seçim yapabilecekleri daha geniş bir faydalı model yelpazesiyle daha verimli çalışabiliyor. Bu da sonuç olarak Android ekosisteminde daha yüksek kaliteli uygulamalar sunulmasını sağlıyor.

Gerçek hayattaki Android geliştirme görevleri için tasarlanmıştır

Karşılaştırmayı, çeşitli yaygın Android geliştirme alanlarına yönelik bir görev grubu oluşturarak yaptık. Bu zorluklar, herkese açık GitHub Android depolarından alınan ve zorluk seviyeleri değişen gerçek sorunlardan oluşur. Android sürümlerindeki önemli değişiklikleri çözme, giyilebilir cihazlarda ağ oluşturma gibi alana özgü görevler ve Jetpack Compose'un en yeni sürümüne geçiş yapma gibi senaryolar bunlardan bazılarıdır.

Her değerlendirmede, bir LLM'nin görevde bildirilen sorunu düzeltmesi denenir. Ardından, birim veya enstrümantasyon testleri kullanarak bunu doğrularız. Modele özgü olmayan bu yaklaşım, bir modelin karmaşık kod tabanlarında gezinme, bağımlılıkları anlama ve her gün karşılaştığınız türden sorunları çözme becerisini ölçmemize olanak tanır.

Bu metodolojiyi JetBrains dahil olmak üzere çeşitli LLM üreticileriyle doğruladık.

"Yapay zekanın Android üzerindeki etkisini ölçmek büyük bir zorluktur. Bu nedenle, bu kadar sağlam ve gerçekçi bir çerçeve görmek harika. Kendimizi karşılaştırma konusunda aktif olsak da Android Bench, benzersiz ve memnuniyet verici bir ektir. Bu metodoloji, Android geliştiricilerin şu anda ihtiyaç duyduğu titiz değerlendirme türüdür."
- Kirill Smelov, JetBrains'te Yapay Zeka Entegrasyonları Başkanı.

İlk Android Bench sonuçları

Bu ilk sürümde, yalnızca model performansını ölçmek ve aracı veya araç kullanımına odaklanmamak istedik. Modeller, görevlerin% 16-72'sini başarıyla tamamlayabildi. Bu geniş aralık, bazı LLM'lerin Android bilgisi konusunda güçlü bir temele sahip olduğunu, bazılarının ise iyileştirme için daha fazla alanı olduğunu gösteriyor. Modeller şu anda nerede olursa olsun, LLM üreticilerini modellerini Android geliştirme için geliştirmeye teşvik ettiğimizden sürekli iyileşme bekliyoruz.

Bu ilk sürümde en yüksek ortalama puanı alan LLM, Gemini 3.1 Pro oldu. Claude Opus 4.6 ise onu yakından takip etti. Android Studio'nun en son kararlı sürümünde API anahtarlarını kullanarak Android projelerinizde yapay zeka yardımına yönelik olarak değerlendirdiğimiz tüm modelleri deneyebilirsiniz.

Geliştiricilere ve LLM üreticilerine şeffaflık sağlama

Açık ve şeffaf bir yaklaşımı benimsediğimiz için metodolojimizi, veri kümemizi ve test düzeneğimizi GitHub'da herkese açık olarak paylaştık.

Herkese açık tüm karşılaştırma testlerinde, modellerin eğitim sürecinde değerlendirme görevlerini görmüş olabileceği veri kirlenmesi riski vardır. Sonuçlarımızın ezberleme veya tahmin yerine gerçek muhakemeyi yansıtmasını sağlamak için önlemler aldık. Bu önlemler arasında, temsilci yörüngelerinin kapsamlı bir şekilde manuel olarak incelenmesi veya eğitimi engellemek için bir kanarya dizesinin entegrasyonu yer alıyor.

Veri kümesinin bütünlüğünü korumak için metodolojimizi geliştirmeye devam edeceğiz. Ayrıca, karşılaştırma testinin gelecekteki sürümlerinde iyileştirmeler yapacağız. Örneğin, görevlerin sayısını ve karmaşıklığını artıracağız.

Android Bench'in uzun vadede yapay zeka yardımını nasıl iyileştireceğini görmek için sabırsızlanıyoruz. Vizyonumuz, konsept ile kaliteli kod arasındaki boşluğu kapatmaktır. Hayal ettiğiniz her şeyi Android'de oluşturabileceğiniz bir geleceğin temelini atıyoruz.

Yazan:

Matthew McCullough

Vice President, Product Management, Android Developer

read_more Profili göster

Okumaya devam edin

19 Mayıs 2026

19 Mayıs 2026

Ürün Haberleri

Google I/O'da Android geliştiricilerin bilmesi gereken 17 şey

arrow_forward

Google I/O 2026 'da Android geliştiriciler için 17 önemli duyuru yapıldı. Bu duyurularda, ajan tabanlı üretkenlik, kullanıcı arayüzü standardımız olarak Compose First ve genişleyen ekosistem için yüksek performanslı medya ve uyarlanabilir geliştirme konularına odaklanıldı.
Matthew McCullough • Okuma süresi: 8 dk.
- #Google I/O
12 Mayıs 2026

12 Mayıs 2026

Ürün Haberleri

Android'de Intelligence System için geliştirme

arrow_forward

Bugün The Android Show sırasında duyurulan Android, işletim sisteminden zeka sistemine geçiş yaparak uygulamalarınızla etkileşim için daha fazla fırsat sunuyor.
Matthew McCullough • Okuma süresi: 4 dakika
- #Android
02 Nis 2026

02 Nis 2026

Ürün Haberleri

Gemma 4: Android'de yerel yapay zeka için yeni standart

arrow_forward

Bugün, karmaşık akıl yürütme ve bağımsız araç çağırma özellikleri için tasarlanmış en yeni ve gelişmiş açık modelimiz Gemma 4 ile Android geliştirmeyi daha da iyi hale getiriyoruz.
Matthew McCullough • Okuma süresi: 2 dakika
- #Android Studio

Gerçek hayattaki Android geliştirme görevleri için tasarlanmıştır

İlk Android Bench sonuçları

Geliştiricilere ve LLM üreticilerine şeffaflık sağlama

Yazan:

Vice President, Product Management, Android Developer

Okumaya devam edin

Matthew McCullough • Okuma süresi: 8 dk.

Matthew McCullough • Okuma süresi: 4 dakika

Matthew McCullough • Okuma süresi: 2 dakika

Gelişmelerden haberdar olun