Wiadomości o usługach

Jak automatyczna optymalizacja promptów zwiększa jakość interfejsu GenAI Prompt API w ML Kit

Czas czytania: 3 minuty

Automatyczna optymalizacja promptów (APO)

Aby jeszcze bardziej ułatwić wdrażanie w środowisku produkcyjnym przypadków użycia interfejsu ML Kit Prompt API, wprowadzamy automatyczną optymalizację promptów (APO) kierowaną na modele na urządzeniu w Vertex AI. Automatyczna optymalizacja promptów to narzędzie, które pomaga automatycznie znajdować optymalne prompty do Twoich przypadków użycia.

Era AI na urządzeniu nie jest już melodią przyszłości, ale rzeczywistością. Wraz z wprowadzeniem Gemini Nano w wersji 3 oddajemy w ręce użytkowników niespotykane dotąd możliwości rozumienia języka i rozpoznawania multimodalnego. Dzięki rodzinie modeli Gemini Nano mamy szeroki zakres obsługiwanych urządzeń w ekosystemie Androida. Dla deweloperów tworzących aplikacje nowej generacji dostęp do zaawansowanego modelu to dopiero pierwszy krok. Prawdziwym wyzwaniem jest dostosowanie: jak dopasować model podstawowy do poziomu eksperckiego w konkretnym przypadku użycia, nie naruszając ograniczeń sprzętu mobilnego?

W przypadku po stronie serwera większe LLM-y są zwykle bardzo wydajne i wymagają mniejszego dostosowania do domeny. Nawet w takich przypadkach można zastosować bardziej zaawansowane opcje, takie jak dostrajanie LoRA (adaptacja o niskim rzędzie). Jednak unikalna architektura Androida AICore traktuje priorytetowo wspólny, oszczędny model systemowy. Oznacza to, że wdrażanie niestandardowych adapterów LoRA w przypadku każdej aplikacji wiąże się z wyzwaniami związanymi z tymi współdzielonymi usługami systemowymi.

Istnieje jednak alternatywna ścieżka, która może być równie skuteczna. Dzięki wykorzystaniu automatycznej optymalizacji promptów (APO) w Vertex AI deweloperzy mogą osiągnąć jakość zbliżoną do dostrajania, a jednocześnie bezproblemowo pracować w natywnym środowisku wykonawczym Androida. Dzięki skupieniu się na lepszych instrukcjach systemowych APO umożliwia programistom dostosowywanie zachowania modelu z większą niezawodnością i skalowalnością niż tradycyjne rozwiązania do dostrajania.

Uwaga:  Gemini Nano V3 to zoptymalizowana pod kątem jakości wersja cenionego modelu Gemma 3N. Wszelkie optymalizacje promptów wprowadzone w modelu open source Gemma 3N będą miały zastosowanie również w przypadku Gemini Nano V3. Na obsługiwanych urządzeniach interfejsy API generatywnej AI ML Kit wykorzystują model nano-v3, aby zmaksymalizować jakość dla deweloperów aplikacji na Androida.

APO block diagram.jpg

APO traktuje prompt nie jako statyczny tekst, ale jako programowalną platformę, którą można optymalizować. Wykorzystuje modele po stronie serwera (takie jak Gemini Pro i Flash), aby proponować prompty, oceniać warianty i znajdować optymalny prompt do konkretnego zadania. Aby zmaksymalizować skuteczność, ten proces wykorzystuje 3 mechanizmy techniczne:

  1. Automatyczna analiza błędów: APO analizuje wzorce błędów z danych treningowych, aby automatycznie identyfikować konkretne słabe punkty początkowego prompta.
  2. Semantic Instruction Distillation: analizuje ogromne zbiory przykładów szkoleniowych, aby wydobyć „prawdziwe intencje” zadania, tworząc instrukcje, które dokładniej odzwierciedlają rzeczywisty rozkład danych.
  3. Równoległe testowanie kandydatów: zamiast testować po jednym pomyśle naraz, APO generuje i testuje równolegle wiele kandydatów na prompty, aby znaleźć globalne maksimum jakości.

Dlaczego APO może wpływać na jakość dostrajania

Często błędnie uważa się, że dostrajanie zawsze daje lepszą jakość niż promptowanie. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano v3, inżynieria promptów może być skuteczna sama w sobie:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na modelu nadmierne indeksowanie wag w określonym rozkładzie danych. Często prowadzi to do „katastrofalnego zapominania”, w którym model lepiej radzi sobie z określoną składnią, ale gorzej z ogólną logiką i bezpieczeństwem. APO nie zmienia wag, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: model Gemini Nano 3 został starannie wytrenowany pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu. Często odkrywa strategie, które mogą być trudne do znalezienia dla inżynierów.

Aby potwierdzić skuteczność tego podejścia, przeprowadziliśmy ocenę APO w różnych zadaniach produkcyjnych. Nasze testy wykazały stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczną poprawę jakości.

Use CaseTyp zadaniaOpis zadaniaWskaźnikUlepszenie APO
Klasyfikacja tematycznaKlasyfikacja tekstuKlasyfikowanie artykułów informacyjnych według tematów, takich jak finanse, sport itp.Dokładność+5%
Klasyfikacja intencjiKlasyfikacja tekstuKlasyfikowanie zapytań do obsługi klienta według intencjiDokładność+8,0%
Tłumaczenie stron internetowychTłumaczenie tekstuTłumaczenie strony internetowej z języka angielskiego na język lokalnyBLEU+8,57%

Bezproblemowy, kompleksowy przepływ pracy programisty

Często błędnie uważa się, że dostrajanie zawsze daje lepszą jakość niż promptowanie. W przypadku nowoczesnych modeli podstawowych, takich jak Gemini Nano v3, inżynieria promptów może być skuteczna sama w sobie:

  • Zachowanie ogólnych możliwości: dostrajanie ( PEFT/LoRA) wymusza na modelu nadmierne indeksowanie wag w określonym rozkładzie danych. Często prowadzi to do „katastrofalnego zapominania”, w którym model lepiej radzi sobie z określoną składnią, ale gorzej z ogólną logiką i bezpieczeństwem. APO nie zmienia wag, zachowując możliwości modelu podstawowego.
  • Wykonywanie instrukcji i odkrywanie strategii: model Gemini Nano 3 został starannie wytrenowany pod kątem wykonywania złożonych instrukcji systemowych. APO wykorzystuje to, znajdując dokładną strukturę instrukcji, która odblokowuje ukryte możliwości modelu. Często odkrywa strategie, które mogą być trudne do znalezienia dla inżynierów.

Aby potwierdzić skuteczność tego podejścia, przeprowadziliśmy ocenę APO w różnych zadaniach produkcyjnych. Nasze testy wykazały stały wzrost dokładności o 5–8% w różnych przypadkach użycia.W przypadku wielu wdrożonych funkcji na urządzeniu APO zapewniło znaczną poprawę jakości.

Podsumowanie

Wprowadzenie automatycznej optymalizacji promptów (APO) to punkt zwrotny w rozwoju generatywnej AI na urządzeniach. Wypełniając lukę między modelami podstawowymi a wydajnością na poziomie eksperckim, dajemy deweloperom narzędzia do tworzenia bardziej niezawodnych aplikacji mobilnych. Niezależnie od tego, czy dopiero zaczynasz korzystać z optymalizacji bez przykładów, czy wdrażasz w wersji produkcyjnej ulepszenia oparte na danych, ścieżka do wysokiej jakości inteligencji na urządzeniu jest teraz bardziej przejrzysta. Wdrażaj już dziś w środowisku produkcyjnym przypadki użycia na urządzeniu za pomocą interfejsu Prompt API w pakiecie ML Kit i automatycznej optymalizacji promptów w Vertex AI. 

Przydatne linki: 

Autor:

Czytaj dalej