Nowości o produktach

Jak automatyczna optymalizacja promptów zwiększa jakość interfejsu ML Kit GenAI Prompt API

3 minuty czytania

Automatyczna optymalizacja promptów (APO)

Aby jeszcze bardziej ułatwić Ci wdrażanie w środowisku produkcyjnym przypadków użycia interfejsu ML Kit Prompt API, z przyjemnością ogłaszamy automatyczną optymalizację promptów (APO) kierowaną na modele na urządzeniu w Vertex AI. Automatyczna optymalizacja promptów to narzędzie, które pomaga automatycznie znajdować optymalne prompty w Twoich przypadkach użycia.

Era AI na urządzeniu nie jest już obietnicą – to rzeczywistość produkcyjna. Wraz z wprowadzeniem Gemini Nano w wersji 3 udostępniamy użytkownikom bezprecedensowe możliwości rozumienia języka i multimodalne. Dzięki rodzinie modeli Gemini Nano mamy szeroki zasięg obsługiwanych urządzeń w ekosystemie Androida. Jednak dla deweloperów tworzących inteligentne aplikacje nowej generacji dostęp do zaawansowanego modelu to dopiero pierwszy krok. Prawdziwym wyzwaniem jest dostosowanie: jak dostosować model podstawowy do wydajności na poziomie eksperta w konkretnym przypadku użycia bez naruszania ograniczeń sprzętu mobilnego?

W świecie po stronie serwera większe modele LLM są zwykle bardzo wydajne i wymagają mniejszego dostosowania do domeny. Nawet w razie potrzeby można stosować bardziej zaawansowane opcje, takie jak dostrajanie LoRA (adaptacja o niskim rzędzie). Jednak unikalna architektura Androida AICore traktuje priorytetowo wspólny, wydajny pod względem pamięci model systemu. Oznacza to, że wdrażanie niestandardowych adapterów LoRA w każdej aplikacji wiąże się z wyzwaniami w przypadku tych wspólnych usług systemowych.

Istnieje jednak alternatywna ścieżka, która może być równie skuteczna. Dzięki wykorzystaniu automatycznej optymalizacji promptów (APO) w Vertex AI deweloperzy mogą osiągnąć jakość zbliżoną do dostrajania, a jednocześnie płynnie pracować w natywnym środowisku wykonawczym Androida. Dzięki skupieniu się na lepszych instrukcjach systemowych APO umożliwia deweloperom dostosowywanie zachowania modelu z większą niezawodnością i skalowalnością niż tradycyjne rozwiązania do dostrajania.

Uwaga: Gemini Nano w wersji 3 to zoptymalizowana pod kątem jakości wersja wysoko ocenianego modelu Gemma 3N. Wszystkie optymalizacje podpowiedzi wprowadzone w modelu Gemma 3N o otwartym kodzie źródłowym będą też stosowane w Gemini Nano w wersji 3. Na obsługiwanych urządzeniach interfejsy ML Kit GenAI API wykorzystują model nano-v3, aby zmaksymalizować jakość dla deweloperów Androida.

APO block diagram.jpg

APO traktuje podpowiedź nie jako statyczny tekst, ale jako programowalną powierzchnię, którą można zoptymalizować. Wykorzystuje modele po stronie serwera (takie jak Gemini Pro i Flash) do proponowania podpowiedzi, oceniania wariantów i znajdowania optymalnego rozwiązania dla konkretnego zadania. Ten proces wykorzystuje 3 konkretne mechanizmy techniczne, aby zmaksymalizować wydajność:

  1. Automatyczna analiza błędów: APO analizuje wzorce błędów z danych treningowych, aby automatycznie identyfikować konkretne słabe punkty w początkowej podpowiedzi.
  2. Destylacja instrukcji semantycznych: analizuje ogromne przykłady treningowe, aby wydestylować „prawdziwy cel” zadania, tworząc instrukcje, które dokładniej odzwierciedlają rzeczywisty rozkład danych.
  3. Równoległe testowanie kandydatów: zamiast testować po jednym pomyśle, APO generuje i testuje równolegle wiele kandydatów na podpowiedzi, aby zidentyfikować globalne maksimum jakości.

Dlaczego APO może zbliżyć się do jakości dostrajania

Powszechnie uważa się, że dostrajanie zawsze daje lepszą jakość niż podpowiedzi. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano w wersji 3, inżynieria podpowiedzi może być sama w sobie skuteczna:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na modelu nadmierne indeksowanie wagi w określonym rozkładzie danych. Często prowadzi to do „katastrofalnego zapominania”, w którym model staje się lepszy w konkretnej składni, ale gorszy w logice ogólnej i bezpieczeństwie. APO nie zmienia wagi, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: Gemini Nano w wersji 3 zostało dokładnie wytrenowane pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu, często odkrywając strategie, które mogą być trudne do znalezienia dla inżynierów. 

Aby potwierdzić to podejście, oceniliśmy APO w różnych zbiorach zadań produkcyjnych. Nasza weryfikacja wykazała stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczny wzrost jakości.

Przypadek użyciaTyp zadaniaOpis zadaniaWskaźnikUlepszenie APO
Klasyfikacja tematuKlasyfikacja tekstuKlasyfikowanie artykułu informacyjnego według tematów, takich jak finanse, sport itp.Dokładność+5%
Klasyfikacja intencjiKlasyfikacja tekstuKlasyfikowanie zapytania obsługi klienta według intencjiDokładność+8,0%
Tłumaczenie strony internetowejTłumaczenie tekstuTłumaczenie strony internetowej z angielskiego na język lokalnyBLEU+8,57%

Płynny przepływ pracy dewelopera

Powszechnie uważa się, że dostrajanie zawsze daje lepszą jakość niż podpowiedzi. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano w wersji 3, inżynieria podpowiedzi może być sama w sobie skuteczna:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na modelu nadmierne indeksowanie wagi w określonym rozkładzie danych. Często prowadzi to do „katastrofalnego zapominania”, w którym model staje się lepszy w konkretnej składni, ale gorszy w logice ogólnej i bezpieczeństwie. APO nie zmienia wagi, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: Gemini Nano w wersji 3 zostało dokładnie wytrenowane pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu, często odkrywając strategie, które mogą być trudne do znalezienia dla inżynierów. 

Aby potwierdzić to podejście, oceniliśmy APO w różnych zbiorach zadań produkcyjnych. Nasza weryfikacja wykazała stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczny wzrost jakości.

Podsumowanie

Wprowadzenie automatycznej optymalizacji promptów (APO) to punkt zwrotny w rozwoju generatywnej AI na urządzeniu. Dzięki zmniejszeniu różnicy między modelami podstawowymi a wydajnością na poziomie eksperta dajemy deweloperom narzędzia do tworzenia bardziej niezawodnych aplikacji mobilnych. Niezależnie od tego, czy dopiero zaczynasz korzystać z optymalizacji bez przykładów , czy też skalujesz się do środowiska produkcyjnego za pomocą dostrajania opartego na danych , ścieżka do wysokiej jakości inteligencji na urządzeniu jest teraz jaśniejsza.Już dziś możesz wdrożyć w środowisku produkcyjnym przypadki użycia na urządzeniu za pomocą interfejsu ML Kit Prompt API i automatycznej optymalizacji promptów w Vertex AI. 

Przydatne linki: 

Czytaj dalej