Android Bench की मदद से, एआई की मदद से Android ऐप्लिकेशन बनाने की प्रोसेस को बेहतर बनाना और एलएलएम को बेहतर बनाना

दो मिनट में पढ़ें

05 मार्च 2026

हम चाहते हैं कि आप अच्छी क्वालिटी वाले Android ऐप्लिकेशन को तेज़ी से और आसानी से बना सकें. हम एआई को आपके लिए उपलब्ध करा रहे हैं, ताकि आप ज़्यादा से ज़्यादा काम कर सकें. हम जानते हैं कि आपको ऐसा एआई चाहिए जो Android प्लैटफ़ॉर्म की बारीकियों को समझता हो. इसलिए, हम यह मेज़र कर रहे हैं कि एलएलएम, Android डेवलपमेंट से जुड़े टास्क कैसे पूरे करते हैं. आज हमने Android Bench का पहला वर्शन रिलीज़ किया है. यह Android डेवलपमेंट के लिए, LLM का आधिकारिक लीडरबोर्ड है.

हमारा लक्ष्य, मॉडल क्रिएटर्स को एक बेंचमार्क उपलब्ध कराना है, ताकि वे Android ऐप्लिकेशन बनाने के लिए एलएलएम की क्षमताओं का आकलन कर सकें. Android पर ऐप्लिकेशन बनाने के लिए, बेहतरीन क्वालिटी के स्टैंडर्ड तय करके हम मॉडल क्रिएटर्स की मदद कर रहे हैं. इससे वे कमियों का पता लगा सकते हैं और उन्हें तेज़ी से ठीक कर सकते हैं. इससे डेवलपर को एआई की मदद से, ज़्यादा असरदार तरीके से काम करने में मदद मिलती है. साथ ही, वे एआई की मदद के लिए कई तरह के मॉडल चुन सकते हैं. इससे Android ईकोसिस्टम में, बेहतर क्वालिटी वाले ऐप्लिकेशन उपलब्ध कराए जा सकेंगे.

Android डेवलपमेंट के असल दुनिया के टास्क के साथ डिज़ाइन किया गया

हमने Android डेवलपमेंट के सामान्य पहलुओं से जुड़े टास्क का एक सेट तैयार करके, बेंचमार्क बनाया है. इसमें अलग-अलग मुश्किल लेवल की असली चुनौतियां शामिल हैं. इन्हें सार्वजनिक तौर पर उपलब्ध GitHub Android रिपॉज़िटरी से लिया गया है. इनमें Android के अलग-अलग वर्शन में होने वाले बड़े बदलावों को ठीक करना, डोमेन से जुड़े टास्क (जैसे, पहनने लायक डिवाइसों पर नेटवर्किंग) करना, और Jetpack Compose के नए वर्शन पर माइग्रेट करना शामिल है.

हर आकलन में, एलएलएम से टास्क में बताई गई समस्या को ठीक करने के लिए कहा जाता है. इसके बाद, हम यूनिट या इंस्ट्रूमेंटेशन टेस्ट का इस्तेमाल करके इसकी पुष्टि करते हैं. इस तरीके से, हम किसी मॉडल की इन क्षमताओं का आकलन कर पाते हैं: मुश्किल कोडबेस को समझना, डिपेंडेंसी को समझना, और रोज़मर्रा की समस्याओं को हल करना.

हमने इस तरीके की पुष्टि, एलएलएम बनाने वाली कई कंपनियों के साथ की है. इनमें JetBrains भी शामिल है.

“Android पर एआई के असर को मेज़र करना एक बड़ी चुनौती है. इसलिए, इस तरह के फ़्रेमवर्क को देखना बहुत अच्छा है, जो भरोसेमंद और असलियत के काफ़ी करीब है. हम खुद को बेंचमार्क करने के लिए लगातार काम कर रहे हैं. ऐसे में, Android Bench एक यूनीक और बेहतरीन टूल है. यह तरीका, Android डेवलपर के लिए काफ़ी मददगार है.”
- किरिल स्मेलोव, JetBrains में एआई इंटिग्रेशन के हेड.

Android Bench के पहले नतीजे

इस शुरुआती रिलीज़ के लिए, हम सिर्फ़ मॉडल की परफ़ॉर्मेंस को मेज़र करना चाहते थे. हम एजेंटिक या टूल के इस्तेमाल पर फ़ोकस नहीं करना चाहते थे. मॉडल, 16 से 72% टास्क को पूरा कर पाए. यह एक बड़ी रेंज है. इससे पता चलता है कि कुछ एलएलएम के पास Android के बारे में पहले से ही अच्छी जानकारी है, जबकि अन्य एलएलएम में सुधार की गुंजाइश है. फ़िलहाल, मॉडल की परफ़ॉर्मेंस कैसी भी हो, हमें उम्मीद है कि इसमें लगातार सुधार होता रहेगा. ऐसा इसलिए, क्योंकि हम एलएलएम बनाने वाली कंपनियों को Android डेवलपमेंट के लिए अपने मॉडल को बेहतर बनाने के लिए प्रोत्साहित कर रहे हैं.

पहली रिलीज़ के लिए, सबसे ज़्यादा औसत स्कोर वाला एलएलएम Gemini 3.1 Pro है. इसके बाद, Claude Opus 4.6 का स्कोर सबसे ज़्यादा है. हमने Android प्रोजेक्ट के लिए, एआई की मदद से कोडिंग करने वाले सभी मॉडल का आकलन किया है. Android Studio के नए स्टेबल वर्शन में एपीआई पासकोड का इस्तेमाल करके, इन सभी मॉडल को आज़माया जा सकता है.

डेवलपर और एलएलएम बनाने वालों को पारदर्शिता के साथ जानकारी देना

हम खुले और पारदर्शी तरीके को अहमियत देते हैं. इसलिए, हमने अपनी कार्यप्रणाली, डेटासेट, और टेस्ट हार्नेस को GitHub पर सार्वजनिक तौर पर उपलब्ध कराया है.

किसी भी सार्वजनिक बेंचमार्क के लिए, डेटा में गड़बड़ी होने का जोखिम एक चुनौती है. ऐसा इसलिए, क्योंकि ट्रेनिंग के दौरान मॉडल ने आकलन के टास्क देखे हो सकते हैं. हमने यह पक्का करने के लिए कई कदम उठाए हैं कि हमारे नतीजे, रटने या अनुमान लगाने के बजाय असली वजहों को दिखाएं. इनमें एजेंट के जवाबों की मैन्युअल तरीके से पूरी समीक्षा करना या ट्रेनिंग को हतोत्साहित करने के लिए कैनरी स्ट्रिंग को इंटिग्रेट करना शामिल है.

हम आने वाले समय में, डेटासेट की इंटिग्रिटी को बनाए रखने के लिए, अपनी कार्यप्रणाली को बेहतर बनाते रहेंगे. साथ ही, बेंचमार्क के आने वाले वर्शन में सुधार करते रहेंगे. उदाहरण के लिए, टास्क की संख्या और जटिलता को बढ़ाना.

हम यह देखने के लिए उत्सुक हैं कि Android Bench, लंबे समय तक एआई की मदद को कैसे बेहतर बना सकता है. हमारा लक्ष्य, कॉन्सेप्ट और अच्छी क्वालिटी के कोड के बीच के अंतर को कम करना है. हम आने वाले समय के लिए, Android को इस तरह से तैयार कर रहे हैं कि आप जो भी चाहें, उसे Android पर बना सकें.

इसे लिखा है:

Matthew McCullough

वाइस प्रेसिडेंट, प्रॉडक्ट मैनेजमेंट, Android डेवलपर

read_more प्रोफ़ाइल देखें

पढ़ना जारी रखें

02 Apr 2026

02 Apr 2026

प्रॉडक्ट से जुड़ी खबरें

Gemma 4: Android पर लोकल एजेंटिक इंटेलिजेंस का नया स्टैंडर्ड

arrow_forward

आज हम Android डेवलपमेंट को बेहतर बनाने के लिए, Gemma 4 को लॉन्च कर रहे हैं. यह हमारा सबसे नया और बेहतरीन ओपन मॉडल है. इसे जटिल तर्कों को समझने और टूल को अपने-आप कॉल करने की क्षमताओं के साथ डिज़ाइन किया गया है.
Matthew McCullough • दो मिनट में पढ़ें
- #Android Studio
26 मार्च 2026

26 मार्च 2026

प्रॉडक्ट से जुड़ी खबरें

Android 17 का तीसरा बीटा वर्शन

arrow_forward

Android 17 का बीटा 3 वर्शन आज आधिकारिक तौर पर लॉन्च हो गया है. इसका मतलब है कि एपीआई की सतह लॉक हो गई है. अब कंपैटिबिलिटी की फ़ाइनल टेस्टिंग की जा सकती है. साथ ही, Android 17 को टारगेट करने वाले ऐप्लिकेशन को Play Store पर पुश किया जा सकता है.
Matthew McCullough • पांच मिनट में पढ़ें
- #Android 17
- #beta
26 फ़रवरी 2026

26 फ़रवरी 2026

प्रॉडक्ट से जुड़ी खबरें

Android 17 का दूसरा बीटा वर्शन

arrow_forward

आज हम Android 17 का दूसरा बीटा वर्शन रिलीज़ कर रहे हैं. हम ऐसा प्लैटफ़ॉर्म बनाने के लिए लगातार काम कर रहे हैं जो निजता, सुरक्षा, और बेहतर परफ़ॉर्मेंस को प्राथमिकता देता है.
Matthew McCullough • छह मिनट में पढ़ें

Android डेवलपमेंट के असल दुनिया के टास्क के साथ डिज़ाइन किया गया

Android Bench के पहले नतीजे

डेवलपर और एलएलएम बनाने वालों को पारदर्शिता के साथ जानकारी देना

इसे लिखा है:

वाइस प्रेसिडेंट, प्रॉडक्ट मैनेजमेंट, Android डेवलपर

पढ़ना जारी रखें

Matthew McCullough • दो मिनट में पढ़ें

Matthew McCullough • पांच मिनट में पढ़ें

Matthew McCullough • छह मिनट में पढ़ें

अप-टू-डेट रहें