Produktneuheiten

Wie die automatische Prompt-Optimierung die Qualität der GenAI Prompt API von ML Kit verbessert

Lesezeit: 3 Minuten

Automatisierte Prompt-Optimierung (Automated Prompt Optimization, APO)

Um Ihnen die Umstellung Ihrer ML Kit Prompt API-Anwendungsfälle auf die Produktion zu erleichtern, freuen wir uns, Automated Prompt Optimization (APO) für On-Device-Modelle in Vertex AI anzukündigen. Die automatische Prompt-Optimierung ist ein Tool, mit dem Sie automatisch den optimalen Prompt für Ihre Anwendungsfälle finden können.

Die Ära der On-Device-KI ist keine Zukunftsmusik mehr, sondern Realität. Mit der Veröffentlichung von Gemini Nano v3 stellen wir Nutzern eine beispiellose Sprachverständnis- und multimodale Funktion direkt auf ihrem Gerät zur Verfügung. Mit der Gemini Nano-Modellreihe decken wir eine Vielzahl von unterstützten Geräten im gesamten Android-Ökosystem ab. Für Entwickler, die die nächste Generation intelligenter Apps entwickeln, ist der Zugriff auf ein leistungsstarkes Modell jedoch nur der erste Schritt. Die eigentliche Herausforderung liegt in der Anpassung: Wie passen Sie ein Foundation Model an, um für Ihren spezifischen Anwendungsfall eine Leistung auf Expertenniveau zu erzielen, ohne die Einschränkungen der mobilen Hardware zu überschreiten?

Auf der Serverseite sind die größeren LLMs in der Regel sehr leistungsfähig und erfordern weniger Anpassung an die jeweilige Domain. Auch wenn sie erforderlich sind, können anspruchsvollere Optionen wie das LoRA-Feinabstimmung (Low-Rank Adaptation) infrage kommen. Die einzigartige Architektur von Android AICore priorisiert jedoch ein gemeinsames, speichereffizientes Systemmodell. Das Bereitstellen benutzerdefinierter LoRA-Adapter für jede einzelne App stellt daher eine Herausforderung für diese gemeinsam genutzten Systemdienste dar.

Es gibt aber einen alternativen Weg, der ebenso wirkungsvoll sein kann. Durch die Nutzung der automatischen Prompt-Optimierung (Automated Prompt Optimization, APO) in Vertex AI können Entwickler eine Qualität erreichen, die dem Fine-Tuning nahekommt, und gleichzeitig nahtlos in der nativen Android-Ausführungsumgebung arbeiten. Durch die Konzentration auf eine überlegene Systemanweisung ermöglicht APO Entwicklern, das Modellverhalten robuster und skalierbarer als mit herkömmlichen Lösungen zum Feinabstimmen anzupassen.

Hinweis : Gemini Nano V3 ist eine qualitätsoptimierte Version des hochgelobten Modells Gemma 3N. Alle Optimierungen, die am Open-Source-Modell Gemma 3N vorgenommen werden, gelten auch für Gemini Nano V3. Auf unterstützten Geräten nutzen die GenAI-APIs von ML Kit das Nano-v3-Modell, um die Qualität für Android-Entwickler zu maximieren.

APO block diagram.jpg

Bei APO wird der Prompt nicht als statischer Text, sondern als programmierbare Oberfläche behandelt, die optimiert werden kann. Dabei werden serverseitige Modelle wie Gemini Pro und Flash verwendet, um Prompts vorzuschlagen, Varianten zu bewerten und die optimale Variante für Ihre spezifische Aufgabe zu finden. Bei diesem Prozess werden drei spezifische technische Mechanismen eingesetzt, um die Leistung zu maximieren:

  1. Automatisierte Fehleranalyse:APO analysiert Fehlermuster aus Trainingsdaten, um automatisch bestimmte Schwachstellen im ursprünglichen Prompt zu identifizieren.
  2. Semantische Anweisungsdestillation:Dabei werden umfangreiche Trainingsbeispiele analysiert, um die „wahre Absicht“ einer Aufgabe zu ermitteln. So werden Anweisungen erstellt, die die tatsächliche Datenverteilung genauer widerspiegeln.
  3. Paralleles Testen von Kandidaten:Anstatt jeweils nur eine Idee zu testen, werden mit APO zahlreiche Prompt-Kandidaten parallel generiert und getestet, um das globale Maximum für die Qualität zu ermitteln.

Warum APO die Qualität der Feinabstimmung verbessern kann

Es ist ein weitverbreiteter Irrtum, dass das Fine-Tuning immer eine bessere Qualität als das Prompting liefert. Bei modernen Foundation Models wie Gemini Nano v3 kann Prompt Engineering allein schon sehr wirkungsvoll sein:

  • Allgemeine Funktionen beibehalten:Beim Fine-Tuning ( PEFT/LoRA) werden die Gewichte eines Modells auf eine bestimmte Datenverteilung ausgerichtet. Das führt oft zu „katastrophalem Vergessen“, bei dem das Modell besser in Ihrer spezifischen Syntax wird, aber schlechter in allgemeiner Logik und Sicherheit. Bei APO bleiben die Gewichte unverändert, sodass die Funktionen des Basismodells erhalten bleiben.
  • Befolgen von Anweisungen und Strategieerkennung:Gemini Nano v3 wurde intensiv darauf trainiert, komplexe Systemanweisungen zu befolgen. APO nutzt dies, indem es die genaue Anweisungsstruktur findet, die die latenten Fähigkeiten des Modells freischaltet. Dabei werden oft Strategien entdeckt, die für menschliche Entwickler schwer zu finden wären. 

Um diesen Ansatz zu validieren, haben wir APO für verschiedene Produktionsarbeitslasten getestet. Unsere Validierung hat in verschiedenen Anwendungsfällen konsistente Genauigkeitssteigerungen von 5–8% ergeben.Bei mehreren bereitgestellten On-Device-Funktionen hat APO die Qualität deutlich verbessert.

AnwendungsfallAufgabentypAufgabenbeschreibungMesswertAPO Improvement
ThemenklassifizierungTextklassifizierungNachrichtenartikel in Themen wie Finanzen oder Sport einordnenGenauigkeit+5%
Intent-KlassifizierungTextklassifizierungKundenserviceanfrage in Intentionen klassifizierenGenauigkeit+8,0%
WebseitenübersetzungTextübersetzungWebseite vom Englischen in eine Landessprache übersetzenBLEU+ 8,57%

Nahtloser End-to-End-Entwickler-Workflow

Es ist ein weitverbreiteter Irrtum, dass das Fine-Tuning immer eine bessere Qualität als das Prompting liefert. Bei modernen Foundation Models wie Gemini Nano v3 kann Prompt Engineering allein schon sehr wirkungsvoll sein:

  • Allgemeine Funktionen beibehalten:Beim Fine-Tuning ( PEFT/LoRA) werden die Gewichte eines Modells auf eine bestimmte Datenverteilung ausgerichtet. Das führt oft zu „katastrophalem Vergessen“, bei dem das Modell besser in Ihrer spezifischen Syntax wird, aber schlechter in allgemeiner Logik und Sicherheit. Bei APO bleiben die Gewichte unverändert, sodass die Funktionen des Basismodells erhalten bleiben.
  • Befolgen von Anweisungen und Strategieerkennung:Gemini Nano v3 wurde intensiv darauf trainiert, komplexe Systemanweisungen zu befolgen. APO nutzt dies, indem es die genaue Anweisungsstruktur findet, die die latenten Fähigkeiten des Modells freischaltet. Dabei werden oft Strategien entdeckt, die für menschliche Entwickler schwer zu finden wären. 

Um diesen Ansatz zu validieren, haben wir APO für verschiedene Produktionsarbeitslasten getestet. Unsere Validierung hat in verschiedenen Anwendungsfällen konsistente Genauigkeitssteigerungen von 5–8% ergeben.Bei mehreren bereitgestellten On-Device-Funktionen hat APO die Qualität deutlich verbessert.

Fazit

Die Veröffentlichung von Automated Prompt Optimization (APO) ist ein Wendepunkt für generative KI auf Geräten. Wir schließen die Lücke zwischen Foundation Models und Leistung auf Expertenniveau und geben Entwicklern so die Tools an die Hand, mit denen sie leistungsfähigere mobile Anwendungen entwickeln können. Ganz gleich, ob Sie gerade erst mit der Zero-Shot-Optimierung beginnen oder mit der datengesteuerten Optimierung in die Produktion gehen – der Weg zu hochwertiger On-Device-KI ist jetzt klarer. Mit der Prompt API von ML Kit und der automatischen Prompt-Optimierung von Vertex AI können Sie Ihre On-Device-Anwendungsfälle noch heute in der Produktion einsetzen. 

Relevante Links: 

Weiterlesen