Wiadomości o usługach

Jak automatyczna optymalizacja promptów zwiększa jakość interfejsu GenAI Prompt API w ML Kit

Czas czytania: 3 minuty

Automatyczna optymalizacja promptów (APO)

Aby jeszcze bardziej ułatwić wdrażanie w środowisku produkcyjnym przypadków użycia interfejsu ML Kit Prompt API, wprowadzamy automatyczną optymalizację promptów (APO) kierowaną na modele na urządzeniu w Vertex AI. Automatyczna optymalizacja promptów to narzędzie, które pomaga automatycznie znajdować optymalne prompty do Twoich przypadków użycia.

Era AI na urządzeniu nie jest już melodią przyszłości, ale rzeczywistością. Wraz z wprowadzeniem Gemini Nano w wersji 3 oddajemy w ręce użytkowników niespotykane dotąd możliwości rozumienia języka i rozpoznawania multimodalnego. Dzięki rodzinie modeli Gemini Nano mamy szeroki zakres obsługiwanych urządzeń w ekosystemie Androida. Dla deweloperów tworzących aplikacje nowej generacji dostęp do zaawansowanego modelu to dopiero pierwszy krok. Prawdziwym wyzwaniem jest dostosowanie: jak dopasować model podstawowy do poziomu eksperckiego w konkretnym przypadku użycia, nie naruszając ograniczeń sprzętu mobilnego?

W przypadku serwerów większe LLM są zwykle bardzo wydajne i wymagają mniejszego dostosowania do domeny. Nawet w takich przypadkach bardziej zaawansowane opcje, takie jak dostrajanie LoRA (adaptacja o niskim rzędzie), mogą być odpowiednie. Jednak unikalna architektura Androida AICore traktuje priorytetowo wspólny, oszczędny model systemowy. Oznacza to, że wdrażanie niestandardowych adapterów LoRA dla każdej aplikacji wiąże się z wyzwaniami w przypadku tych współdzielonych usług systemowych.

Istnieje jednak alternatywna ścieżka, która może być równie skuteczna. Dzięki wykorzystaniu automatycznej optymalizacji promptów (APO) w Vertex AI deweloperzy mogą osiągnąć jakość zbliżoną do dostrajania, a jednocześnie bezproblemowo pracować w natywnym środowisku wykonawczym Androida. Dzięki skupieniu się na lepszych instrukcjach systemowych APO umożliwia programistom dostosowywanie zachowania modelu z większą niezawodnością i skalowalnością niż tradycyjne rozwiązania do dostrajania.

Uwaga:  Gemini Nano V3 to zoptymalizowana pod kątem jakości wersja cenionego modelu Gemma 3N. Wszelkie optymalizacje promptów wprowadzone w modelu open source Gemma 3N będą miały zastosowanie również w przypadku Gemini Nano V3. Na obsługiwanych urządzeniach interfejsy API ML Kit GenAI korzystają z modelu nano-v3, aby zmaksymalizować jakość dla deweloperów aplikacji na Androida.

APO block diagram.jpg

APO traktuje prompt nie jako statyczny tekst, ale jako programowalną platformę, którą można optymalizować. Wykorzystuje modele po stronie serwera (takie jak Gemini Pro i Flash), aby proponować prompty, oceniać ich warianty i znajdować optymalny prompt do konkretnego zadania. Aby zmaksymalizować skuteczność, ten proces wykorzystuje 3 mechanizmy techniczne:

  1. Automatyczna analiza błędów: APO analizuje wzorce błędów z danych treningowych, aby automatycznie identyfikować konkretne słabe punkty początkowego prompta.
  2. Semantic Instruction Distillation: analizuje ogromne zbiory przykładów szkoleniowych, aby wydobyć „prawdziwe intencje” zadania, tworząc instrukcje, które dokładniej odzwierciedlają rzeczywisty rozkład danych.
  3. Równoległe testowanie kandydatów: zamiast testować po jednym pomyśle naraz, APO generuje i testuje równolegle wiele kandydatów na prompty, aby znaleźć globalne maksimum jakości.

Dlaczego APO może dostrajać jakość

Często błędnie zakłada się, że dostrajanie zawsze daje lepszą jakość niż promptowanie. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano v3, inżynieria promptów może być skuteczna sama w sobie:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na wagach modelu nadmierne indeksowanie określonego rozkładu danych. Prowadzi to często do „katastrofalnego zapominania”, czyli sytuacji, w której model lepiej radzi sobie z określoną składnią, ale gorzej z ogólną logiką i bezpieczeństwem. APO nie zmienia wag, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: model Gemini Nano v3 został starannie wytrenowany pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu. Często odkrywa strategie, które mogą być trudne do znalezienia dla inżynierów. 

Aby potwierdzić skuteczność tego podejścia, przeprowadziliśmy ocenę APO w różnych zadaniach produkcyjnych. Nasze testy wykazały stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczną poprawę jakości.

Use CaseTyp zadaniaOpis zadaniaWskaźnikUlepszenie APO
Klasyfikacja tematycznaKlasyfikacja tekstuKlasyfikowanie artykułów informacyjnych według tematów, takich jak finanse, sport itp.Dokładność+5%
Klasyfikacja intencjiKlasyfikacja tekstuKlasyfikowanie zapytań do obsługi klienta według intencjiDokładność+8,0%
Tłumaczenie stron internetowychTłumaczenie tekstuTłumaczenie strony internetowej z języka angielskiego na język lokalnyBLEU+8,57%

Bezproblemowy, kompleksowy przepływ pracy programisty

Często błędnie zakłada się, że dostrajanie zawsze daje lepszą jakość niż promptowanie. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano v3, inżynieria promptów może być skuteczna sama w sobie:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na wagach modelu nadmierne indeksowanie określonego rozkładu danych. Prowadzi to często do „katastrofalnego zapominania”, czyli sytuacji, w której model lepiej radzi sobie z określoną składnią, ale gorzej z ogólną logiką i bezpieczeństwem. APO nie zmienia wag, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: model Gemini Nano v3 został starannie wytrenowany pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu. Często odkrywa strategie, które mogą być trudne do znalezienia dla inżynierów. 

Aby potwierdzić skuteczność tego podejścia, przeprowadziliśmy ocenę APO w różnych zadaniach produkcyjnych. Nasze testy wykazały stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczną poprawę jakości.

Podsumowanie

Wprowadzenie automatycznej optymalizacji promptów (APO) to punkt zwrotny w rozwoju generatywnej AI na urządzeniach. Wypełniając lukę między modelami podstawowymi a wydajnością na poziomie eksperckim, dajemy deweloperom narzędzia do tworzenia bardziej niezawodnych aplikacji mobilnych. Niezależnie od tego, czy dopiero zaczynasz korzystać z optymalizacji bez uczenia, czy wdrażasz w wersji produkcyjnej ulepszenia oparte na danych, ścieżka do wysokiej jakości inteligencji na urządzeniu jest teraz bardziej przejrzysta. Wprowadź dziś do środowiska produkcyjnego przypadki użycia na urządzeniu za pomocą interfejsu Prompt API w pakiecie ML Kit i automatycznej optymalizacji promptów w Vertex AI. 

Przydatne linki: 

Autor:

Czytaj dalej