Novità sul prodotto

In che modo l'ottimizzazione automatica dei prompt migliora la qualità dell'API GenAI Prompt di ML Kit

Lettura di 3 minuti

Ottimizzazione automatica dei prompt (APO)

Per contribuire ulteriormente a portare in produzione i tuoi casi d'uso dell'API ML Kit Prompt, siamo felici di annunciare l'ottimizzazione automatica dei prompt (APO) che ha come target i modelli on-device su Vertex AI. L'ottimizzazione automatica dei prompt è uno strumento che ti aiuta a trovare automaticamente il prompt ottimale per i tuoi casi d'uso.

L'era dell'AI on-device non è più una promessa, ma una realtà produttiva. Con il rilascio di Gemini Nano v3, mettiamo nelle mani degli utenti funzionalità multimodali e di comprensione del linguaggio senza precedenti. Grazie alla famiglia di modelli Gemini Nano, abbiamo un'ampia copertura di dispositivi supportati nell'ecosistema Android. Tuttavia, per gli sviluppatori che creano la prossima generazione di app intelligenti, l'accesso a un modello potente è solo il primo passo. La vera sfida sta nella personalizzazione: come si adatta un foundation model a prestazioni di livello esperto per il tuo caso d'uso specifico senza violare i vincoli dell'hardware mobile?

Nel mondo lato server, gli LLM più grandi tendono a essere altamente capaci e richiedono meno adattamento al dominio. Anche quando sono necessarie, opzioni più avanzate come l'ottimizzazione LoRA (Low-Rank Adaptation) possono essere opzioni fattibili. Tuttavia, l'architettura unica di Android AI Core dà la priorità a un modello di sistema condiviso ed efficiente in termini di memoria. Ciò significa che il deployment di adattatori LoRA personalizzati per ogni singola app comporta sfide per questi servizi di sistema condivisi.

Tuttavia, esiste un percorso alternativo che può avere lo stesso impatto. Sfruttando l'ottimizzazione automatica dei prompt (APO) su Vertex AI, gli sviluppatori possono ottenere una qualità simile al fine tuning, il tutto lavorando senza problemi nell'ambiente di esecuzione Android nativo. Concentrandosi su istruzioni di sistema superiori, APO consente agli sviluppatori di personalizzare il comportamento del modello con maggiore robustezza e scalabilità rispetto alle tradizionali soluzioni di messa a punto.

Nota: Gemini Nano V3 è una versione ottimizzata per la qualità del modello Gemma 3N, molto apprezzato. Qualsiasi ottimizzazione dei prompt apportata al modello open source Gemma 3N verrà applicata anche a Gemini Nano V3. Sui dispositivi supportati, le API ML Kit GenAI sfruttano il modello nano-v3 per massimizzare la qualità per gli sviluppatori Android

APO block diagram.jpg

APO considera il prompt non come un testo statico, ma come una superficie programmabile che può essere ottimizzata. Sfrutta modelli lato server (come Gemini Pro e Flash) per proporre prompt, valutare le varianti e trovare quella ottimale per la tua attività specifica. Questo processo utilizza tre meccanismi tecnici specifici per massimizzare il rendimento:

  1. Analisi automatica degli errori:APO analizza i pattern di errore dei dati di addestramento per identificare automaticamente punti deboli specifici nel prompt iniziale.
  2. Distillazione semantica delle istruzioni:analizza enormi esempi di addestramento per estrarre la "vera intenzione" di un'attività, creando istruzioni che riflettono in modo più accurato la distribuzione reale dei dati.
  3. Test parallelo dei candidati: anziché testare un'idea alla volta, APO genera e testa numerosi candidati per i prompt in parallelo per identificare il massimo globale per la qualità.

Perché APO può avvicinarsi alla qualità di ottimizzazione precisa

È un errore comune pensare che il fine-tuning produca sempre una qualità migliore rispetto al prompting. Per i moderni modelli di base come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:

  • Preservare le funzionalità generali:l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica di dati. Questo spesso porta a un "oblio catastrofico", in cui il modello migliora nella sintassi specifica, ma peggiora nella logica generale e nella sicurezza. APO lascia invariati i pesi, preservando le funzionalità del modello di base.
  • Aderenza alle istruzioni e scoperta di strategie:Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. APO sfrutta questo aspetto trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani. 

Per convalidare questo approccio, abbiamo valutato APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti costanti dell'accuratezza del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, APO ha fornito miglioramenti significativi della qualità.

Use CaseTipo di attivitàDescrizione dell'attivitàMetricaMiglioramento dell'APO
Classificazione degli argomentiClassificazione del testoClassificare un articolo di notizie in argomenti come finanza, sport e così viaAccuratezza+5%
Classificazione dell'intentoClassificazione del testoClassificare una query di assistenza clienti in intentAccuratezza+8,0%
Traduzione di pagine webTraduzione del testoTradurre una pagina web dall'inglese a una lingua localeBLEU+8,57%

Un flusso di lavoro per sviluppatori end-to-end senza interruzioni

È un malinteso comune che il perfezionamento produca sempre una qualità migliore rispetto ai prompt. Per i moderni modelli di base come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:

  • Preservare le funzionalità generali:l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica di dati. Questo spesso porta a un "oblio catastrofico", in cui il modello migliora nella sintassi specifica, ma peggiora nella logica generale e nella sicurezza. APO lascia invariati i pesi, preservando le funzionalità del modello di base.
  • Aderenza alle istruzioni e scoperta di strategie:Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. APO sfrutta questo aspetto trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani. 

Per convalidare questo approccio, abbiamo valutato APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti costanti dell'accuratezza del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, APO ha fornito miglioramenti significativi della qualità.

Conclusione

Il lancio dell'ottimizzazione automatica dei prompt (APO) segna un punto di svolta per l'AI generativa sul dispositivo. Colmando il divario tra i modelli di base e le prestazioni a livello di esperti, forniamo agli sviluppatori gli strumenti per creare applicazioni mobile più solide. Che tu stia iniziando a utilizzare l'ottimizzazione zero-shot o che tu stia eseguendo lo scaling per la produzione con il perfezionamento basato sui dati, il percorso verso un'intelligenza on-device di alta qualità è ora più chiaro. Esegui oggi stesso il deployment dei tuoi casi d'uso on-device in produzione con l'API Prompt di ML Kit e l'ottimizzazione automatica dei prompt di Vertex AI. 

Link pertinenti: 

Continua a leggere