পণ্যের খবর

অ্যান্ড্রয়েড বেঞ্চের মাধ্যমে এআই-সহায়তাযুক্ত অ্যান্ড্রয়েড ডেভেলপমেন্টকে উন্নত করা এবং এলএলএম-এর মানোন্নয়ন করা।

২ মিনিটের পাঠ
Matthew McCullough
ভাইস প্রেসিডেন্ট, প্রোডাক্ট ম্যানেজমেন্ট, অ্যান্ড্রয়েড ডেভেলপার

আমরা আপনার জন্য উচ্চ-মানের অ্যান্ড্রয়েড অ্যাপ তৈরি করা আরও দ্রুত এবং সহজ করতে চাই, এবং আপনাকে আরও কর্মক্ষম হতে সাহায্য করার একটি উপায় হলো আপনার হাতের মুঠোয় এআই (AI) পৌঁছে দেওয়া। আমরা জানি আপনি এমন এআই চান যা অ্যান্ড্রয়েড প্ল্যাটফর্মের সূক্ষ্ম বিষয়গুলো সত্যিই বোঝে, আর একারণেই আমরা পরিমাপ করে আসছি যে এলএলএম (LLM) অ্যান্ড্রয়েড ডেভেলপমেন্টের কাজগুলো কীভাবে সম্পাদন করে। আজ আমরা অ্যান্ড্রয়েড বেঞ্চ (Android Bench) -এর প্রথম সংস্করণ প্রকাশ করেছি, যা অ্যান্ড্রয়েড ডেভেলপমেন্টের জন্য এলএলএম-দের আমাদের আনুষ্ঠানিক লিডারবোর্ড।

আমাদের লক্ষ্য হলো মডেল নির্মাতাদের অ্যান্ড্রয়েড ডেভেলপমেন্টের জন্য এলএলএম (LLM)-এর সক্ষমতা মূল্যায়নের একটি মানদণ্ড প্রদান করা। উচ্চ মানের অ্যান্ড্রয়েড ডেভেলপমেন্ট কেমন হওয়া উচিত, তার একটি সুস্পষ্ট ও নির্ভরযোগ্য ভিত্তি স্থাপন করার মাধ্যমে আমরা মডেল নির্মাতাদের ঘাটতিগুলো চিহ্নিত করতে এবং উন্নতির গতি বাড়াতে সাহায্য করছি—যা ডেভেলপারদের এআই সহায়তার জন্য বেছে নেওয়ার মতো আরও বিস্তৃত পরিসরের সহায়ক মডেল নিয়ে আরও দক্ষতার সাথে কাজ করতে সক্ষম করে—এবং যা শেষ পর্যন্ত সমগ্র অ্যান্ড্রয়েড ইকোসিস্টেমে আরও উন্নত মানের অ্যাপ তৈরিতে নেতৃত্ব দেবে।

বাস্তব অ্যান্ড্রয়েড ডেভেলপমেন্ট টাস্ক মাথায় রেখে ডিজাইন করা হয়েছে

আমরা অ্যান্ড্রয়েড ডেভেলপমেন্টের বিভিন্ন প্রচলিত ক্ষেত্রের উপর ভিত্তি করে একটি টাস্ক সেট তৈরি করে এই বেঞ্চমার্কটি নির্মাণ করেছি। এটি পাবলিক গিটহাব অ্যান্ড্রয়েড রিপোজিটরি থেকে সংগৃহীত, বিভিন্ন কাঠিন্যের বাস্তব চ্যালেঞ্জ নিয়ে গঠিত। এর সিনারিওগুলোর মধ্যে রয়েছে অ্যান্ড্রয়েড রিলিজ জুড়ে আসা বড় ধরনের পরিবর্তনগুলো সমাধান করা, পরিধানযোগ্য ডিভাইসে নেটওয়ার্কিংয়ের মতো ডোমেইন-নির্দিষ্ট কাজ এবং জেটপ্যাক কম্পোজের সর্বশেষ সংস্করণে মাইগ্রেট করা ইত্যাদি।

প্রতিটি মূল্যায়নে, একটি LLM-কে দিয়ে টাস্কে রিপোর্ট করা সমস্যাটি সমাধান করানোর চেষ্টা করা হয়, যা আমরা পরবর্তীতে ইউনিট বা ইন্সট্রুমেন্টেশন টেস্ট ব্যবহার করে যাচাই করি। এই মডেল-নিরপেক্ষ পদ্ধতিটি আমাদেরকে একটি মডেলের জটিল কোডবেস পরিচালনা করার, নির্ভরতা বোঝার এবং দৈনন্দিন জীবনে সম্মুখীন হওয়া সমস্যাগুলো সমাধান করার ক্ষমতা পরিমাপ করতে সাহায্য করে।

আমরা জেটব্রেইনস সহ বেশ কয়েকজন এলএলএম প্রস্তুতকারকের সাথে এই কার্যপ্রণালীটি যাচাই করেছি।

অ্যান্ড্রয়েডে এআই-এর প্রভাব পরিমাপ করা একটি বিশাল চ্যালেঞ্জ, তাই এতটা নির্ভরযোগ্য এবং বাস্তবসম্মত একটি ফ্রেমওয়ার্ক দেখে খুব ভালো লাগছে। যদিও আমরা নিজেরাও সক্রিয়ভাবে বেঞ্চমার্কিং করি, অ্যান্ড্রয়েড বেঞ্চ একটি অনন্য এবং স্বাগত সংযোজন। এই পদ্ধতিটি ঠিক সেই ধরনের কঠোর মূল্যায়ন, যা এই মুহূর্তে অ্যান্ড্রয়েড ডেভেলপারদের প্রয়োজন।
- কিরিল স্মেলভ, হেড অফ এআই ইন্টিগ্রেশনস, জেটব্রেইনস।

প্রথম অ্যান্ড্রয়েড বেঞ্চের ফলাফল

এই প্রাথমিক রিলিজের জন্য, আমরা শুধুমাত্র মডেলের পারফরম্যান্স পরিমাপ করতে চেয়েছিলাম এবং এজেন্টিক বা টুল ব্যবহারের উপর মনোযোগ দিতে চাইনি। মডেলগুলো ১৬-৭২% পর্যন্ত কাজ সফলভাবে সম্পন্ন করতে সক্ষম হয়েছিল। এটি একটি বিস্তৃত পরিসর যা প্রমাণ করে যে কিছু এলএলএম-এর অ্যান্ড্রয়েড জ্ঞানের একটি শক্তিশালী ভিত্তি রয়েছে, যেখানে অন্যদের উন্নতির আরও সুযোগ আছে। মডেলগুলো এখন যে পর্যায়েই থাকুক না কেন, আমরা ক্রমাগত উন্নতির প্রত্যাশা করছি এবং একই সাথে এলএলএম নির্মাতাদের অ্যান্ড্রয়েড ডেভেলপমেন্টের জন্য তাদের মডেলগুলোকে উন্নত করতে উৎসাহিত করছি।

এই প্রথম রিলিজের জন্য সর্বোচ্চ গড় স্কোর পাওয়া এলএলএম হলো জেমিনি ৩.১ প্রো, এবং এর পরেই রয়েছে ক্লদ ওপাস ৪.৬। অ্যান্ড্রয়েড স্টুডিও- র সর্বশেষ স্থিতিশীল সংস্করণে এপিআই কী ব্যবহার করে আপনি আপনার অ্যান্ড্রয়েড প্রোজেক্টের জন্য এআই সহায়তার উদ্দেশ্যে আমাদের মূল্যায়ন করা সমস্ত মডেল চেষ্টা করে দেখতে পারেন।

androidBench2.png

ডেভেলপার এবং এলএলএম প্রস্তুতকারকদের স্বচ্ছতা প্রদান করা

আমরা একটি উন্মুক্ত এবং স্বচ্ছ দৃষ্টিভঙ্গিকে গুরুত্ব দিই, তাই আমরা আমাদের কার্যপদ্ধতি , ডেটাসেট এবং টেস্ট হারনেস গিটহাবে সর্বজনীনভাবে উপলব্ধ করেছি।

যেকোনো পাবলিক বেঞ্চমার্কের জন্য একটি চ্যালেঞ্জ হলো ডেটা দূষণের ঝুঁকি, যেখানে মডেলগুলো তাদের প্রশিক্ষণ প্রক্রিয়ার সময় মূল্যায়নমূলক কাজ দেখে থাকতে পারে। আমাদের ফলাফলগুলো যেন মুখস্থ বা অনুমানের পরিবর্তে প্রকৃত যুক্তির প্রতিফলন ঘটায়, তা নিশ্চিত করার জন্য আমরা বিভিন্ন পদক্ষেপ নিয়েছি। এর মধ্যে রয়েছে এজেন্টের গতিপথের পুঙ্খানুপুঙ্খ ম্যানুয়াল পর্যালোচনা, অথবা প্রশিক্ষণকে নিরুৎসাহিত করার জন্য একটি ক্যানারি স্ট্রিং যুক্ত করা।

ভবিষ্যতে, আমরা ডেটাসেটের অখণ্ডতা বজায় রাখার জন্য আমাদের কার্যপদ্ধতিকে উন্নত করতে থাকব এবং একই সাথে বেঞ্চমার্কের ভবিষ্যৎ সংস্করণগুলোর জন্য উন্নতি সাধন করব—উদাহরণস্বরূপ, টাস্কের পরিমাণ ও জটিলতা বৃদ্ধি করা।

অ্যান্ড্রয়েড বেঞ্চ দীর্ঘমেয়াদে এআই সহায়তাকে কীভাবে উন্নত করতে পারে, তা দেখার জন্য আমরা উন্মুখ হয়ে আছি। আমাদের লক্ষ্য হলো ধারণা এবং মানসম্মত কোডের মধ্যেকার ব্যবধান কমিয়ে আনা। আমরা এমন এক ভবিষ্যতের ভিত্তি স্থাপন করছি, যেখানে আপনি যা-ই কল্পনা করুন না কেন, অ্যান্ড্রয়েডের ওপর তা বাস্তবায়ন করতে পারবেন।

    লিখেছেন:

    পড়তে থাকুন