Ürün Haberleri
Android Bench ile yapay zeka destekli Android geliştirmeyi iyileştirme ve LLM'leri geliştirme
Okuma süresi: 2 dakika
Yüksek kaliteli Android uygulamaları oluşturma sürecini sizin için daha hızlı ve kolay hale getirmek istiyoruz. Üretkenliğinizi artırmanıza yardımcı olmanın bir yolu olarak yapay zekayı parmaklarınızın ucuna getiriyoruz. Android platformunun nüanslarını gerçekten anlayan bir yapay zeka istediğinizi biliyoruz. Bu nedenle, büyük dil modellerinin Android geliştirme görevlerindeki performansını ölçüyoruz. Bugün, Android geliştirme için LLM'lerin resmi skor tablosu olan Android Bench'in ilk sürümünü yayınladık.
Amacımız, model oluşturuculara Android geliştirmede LLM özelliklerini değerlendirebilecekleri bir karşılaştırma ölçütü sunmaktır. Yüksek kaliteli Android geliştirmenin nasıl göründüğüne dair net ve güvenilir bir temel oluşturarak model üreticilerin eksiklikleri belirlemesine ve iyileştirmeleri hızlandırmasına yardımcı oluyoruz. Bu sayede geliştiriciler, yapay zeka yardımı için daha geniş bir faydalı model yelpazesi arasından seçim yaparak daha verimli çalışabiliyor. Bu da sonuç olarak Android ekosisteminde daha yüksek kaliteli uygulamalar sunulmasını sağlıyor.
Gerçek hayattaki Android geliştirme görevleri için tasarlanmıştır
Karşılaştırmayı, çeşitli yaygın Android geliştirme alanlarına yönelik bir görev grubu oluşturarak yaptık. Bu veri kümesi, herkese açık GitHub Android depolarından alınan ve zorluk seviyeleri farklı olan gerçek sorunlardan oluşur. Android sürümlerindeki önemli değişiklikleri çözme, giyilebilir cihazlarda ağ oluşturma gibi alana özgü görevler ve Jetpack Compose'un en yeni sürümüne geçiş yapma gibi senaryolar bunlardan bazılarıdır.
Her değerlendirmede, bir LLM'nin görevde bildirilen sorunu düzeltmesi denenir. Ardından, birim veya enstrümantasyon testleri kullanarak bunu doğrularız. Modele özgü olmayan bu yaklaşım, bir modelin karmaşık kod tabanlarında gezinme, bağımlılıkları anlama ve her gün karşılaştığınız türden sorunları çözme becerisini ölçmemize olanak tanır.
Bu metodolojiyi JetBrains dahil olmak üzere çeşitli LLM üreticileriyle doğruladık.
"Yapay zekanın Android üzerindeki etkisini ölçmek büyük bir zorluktur. Bu nedenle, bu kadar sağlam ve gerçekçi bir çerçeve görmek harika. Kendimizi karşılaştırma konusunda aktif olsak da Android Bench, benzersiz ve memnuniyet verici bir ektir. Bu metodoloji, Android geliştiricilerin şu anda ihtiyaç duyduğu titiz değerlendirme türüdür."
- Kirill Smelov, JetBrains'te Yapay Zeka Entegrasyonları Başkanı.
İlk Android Bench sonuçları
Bu ilk sürümde, tamamen model performansını ölçmek ve aracı veya araç kullanımına odaklanmamak istedik. Modeller, görevlerin% 16-72'sini başarıyla tamamlayabildi. Bu geniş aralık, bazı LLM'lerin Android bilgisi konusunda güçlü bir temele sahip olduğunu, bazılarının ise iyileştirme için daha fazla alana ihtiyaç duyduğunu gösteriyor. Modellerin şu anki durumundan bağımsız olarak, LLM üreticilerini modellerini Android geliştirme için iyileştirmeye teşvik ettiğimizden sürekli iyileşme bekliyoruz.
Bu ilk sürümde en yüksek ortalama puanı alan LLM, Gemini 3.1 Pro oldu. Claude Opus 4.6 ise onu yakından takip etti. Android Studio'nun en son kararlı sürümünde API anahtarlarını kullanarak Android projelerinizde yapay zeka yardımına yönelik olarak değerlendirdiğimiz tüm modelleri deneyebilirsiniz.
Geliştiricilere ve LLM üreticilerine şeffaflık sağlama
Açık ve şeffaf bir yaklaşımı benimsediğimiz için metodolojimizi, veri kümemizi ve test düzeneğimizi GitHub'da herkese açık olarak paylaştık.
Herkese açık karşılaştırma testlerinin karşılaştığı zorluklardan biri, modellerin eğitim sürecinde değerlendirme görevlerini görmüş olabileceği veri kirlenmesi riskidir. Sonuçlarımızın ezberleme veya tahmin yerine gerçek muhakemeyi yansıtmasını sağlamak için önlemler aldık. Bu önlemler arasında, temsilci yörüngelerinin kapsamlı bir şekilde manuel olarak incelenmesi veya eğitimi engellemek için bir kanarya dizesinin entegrasyonu yer alıyor.
Veri kümesinin bütünlüğünü korumak için metodolojimizi geliştirmeye devam edeceğiz. Ayrıca, karşılaştırma testinin gelecekteki sürümlerinde iyileştirmeler yapacağız. Örneğin, görevlerin sayısını ve karmaşıklığını artıracağız.
Android Bench'in uzun vadede yapay zeka yardımını nasıl iyileştireceğini görmek için sabırsızlanıyoruz. Vizyonumuz, konsept ile kaliteli kod arasındaki boşluğu kapatmaktır. Hayal ettiğiniz her şeyi Android'de oluşturabileceğiniz bir geleceğin temelini atıyoruz.
Okumaya devam edin
-
Ürün Haberleri
Bugün, karmaşık akıl yürütme ve bağımsız araç çağırma özellikleri için tasarlanmış en yeni ve gelişmiş açık modelimiz Gemma 4 ile Android geliştirmeyi daha da iyi hale getiriyoruz.
Matthew McCullough • Okuma süresi: 2 dakika
-
Ürün Haberleri
Android 17, Beta 3 ile bugün resmen platform kararlılığına ulaştı. Bu, API yüzeyinin kilitlendiği anlamına gelir. Son uyumluluk testini yapabilir ve Android 17'yi hedefleyen uygulamalarınızı Play Store'a gönderebilirsiniz.
Matthew McCullough • Okuma süresi: 5 dakika
-
Ürün Haberleri
Bugün, gizliliğe, güvenliğe ve gelişmiş performansa öncelik veren bir platform oluşturma çalışmalarımızı sürdürerek Android 17'nin ikinci beta sürümünü yayınlıyoruz.
Matthew McCullough • Okuma süresi: 6 dakika
Gelişmelerden haberdar olun
Android geliştirmeyle ilgili en son analizleri her hafta gelen kutunuza alın.