Novità sul prodotto
In che modo l'ottimizzazione automatica dei prompt migliora la qualità dell'API GenAI Prompt di ML Kit
Lettura di 3 minuti
Ottimizzazione automatica dei prompt (APO)
Per contribuire ulteriormente a portare in produzione i tuoi casi d'uso dell'API ML Kit Prompt, siamo felici di annunciare l'ottimizzazione automatica dei prompt (APO) che ha come target i modelli on-device su Vertex AI. L'ottimizzazione automatica dei prompt è uno strumento che ti aiuta a trovare automaticamente il prompt ottimale per i tuoi casi d'uso.
L'era dell'AI on-device non è più una promessa, ma una realtà produttiva. Con il rilascio di Gemini Nano v3, mettiamo nelle mani degli utenti funzionalità multimodali e di comprensione del linguaggio senza precedenti. Grazie alla famiglia di modelli Gemini Nano, abbiamo un'ampia copertura di dispositivi supportati nell'ecosistema Android. Tuttavia, per gli sviluppatori che creano la prossima generazione di app intelligenti, l'accesso a un modello potente è solo il primo passo. La vera sfida sta nella personalizzazione: come si adatta un foundation model a prestazioni di livello esperto per il tuo caso d'uso specifico senza violare i vincoli dell'hardware mobile?
Nel mondo lato server, gli LLM più grandi tendono a essere altamente capaci e richiedono meno adattamento al dominio. Anche quando sono necessarie, opzioni più avanzate come l'ottimizzazione LoRA (Low-Rank Adaptation) possono essere opzioni fattibili. Tuttavia, l'architettura unica di Android AI Core dà la priorità a un modello di sistema condiviso ed efficiente in termini di memoria. Ciò significa che il deployment di adattatori LoRA personalizzati per ogni singola app comporta sfide per questi servizi di sistema condivisi.
Tuttavia, esiste un percorso alternativo che può avere lo stesso impatto. Sfruttando l'ottimizzazione automatica dei prompt (APO) su Vertex AI, gli sviluppatori possono ottenere una qualità simile al fine tuning, il tutto lavorando senza problemi nell'ambiente di esecuzione Android nativo. Concentrandosi su istruzioni di sistema superiori, APO consente agli sviluppatori di personalizzare il comportamento del modello con maggiore robustezza e scalabilità rispetto alle tradizionali soluzioni di messa a punto.
Nota: Gemini Nano V3 è una versione ottimizzata per la qualità del modello Gemma 3N, molto apprezzato. Qualsiasi ottimizzazione dei prompt apportata al modello open source Gemma 3N verrà applicata anche a Gemini Nano V3. Sui dispositivi supportati, le API ML Kit GenAI sfruttano il modello nano-v3 per massimizzare la qualità per gli sviluppatori Android
APO considera il prompt non come un testo statico, ma come una superficie programmabile che può essere ottimizzata. Sfrutta modelli lato server (come Gemini Pro e Flash) per proporre prompt, valutare le varianti e trovare quella ottimale per la tua attività specifica. Questo processo utilizza tre meccanismi tecnici specifici per massimizzare il rendimento:
- Analisi automatica degli errori:APO analizza i pattern di errore dei dati di addestramento per identificare automaticamente punti deboli specifici nel prompt iniziale.
- Distillazione semantica delle istruzioni:analizza enormi esempi di addestramento per estrarre la "vera intenzione" di un'attività, creando istruzioni che riflettono in modo più accurato la distribuzione reale dei dati.
- Test parallelo dei candidati: anziché testare un'idea alla volta, APO genera e testa numerosi candidati per i prompt in parallelo per identificare il massimo globale per la qualità.
Perché APO può avvicinarsi alla qualità di ottimizzazione precisa
È un errore comune pensare che il fine-tuning produca sempre una qualità migliore rispetto al prompting. Per i moderni modelli di base come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:
- Preservare le funzionalità generali:l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica di dati. Questo spesso porta a un "oblio catastrofico", in cui il modello migliora nella sintassi specifica, ma peggiora nella logica generale e nella sicurezza. APO lascia invariati i pesi, preservando le funzionalità del modello di base.
- Aderenza alle istruzioni e scoperta di strategie:Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. APO sfrutta questo aspetto trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani.
Per convalidare questo approccio, abbiamo valutato APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti costanti dell'accuratezza del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, APO ha fornito miglioramenti significativi della qualità.
| Use Case | Tipo di attività | Descrizione dell'attività | Metrica | Miglioramento dell'APO |
| Classificazione degli argomenti | Classificazione del testo | Classificare un articolo di notizie in argomenti come finanza, sport e così via | Accuratezza | +5% |
| Classificazione dell'intento | Classificazione del testo | Classificare una query di assistenza clienti in intent | Accuratezza | +8,0% |
| Traduzione di pagine web | Traduzione del testo | Tradurre una pagina web dall'inglese a una lingua locale | BLEU | +8,57% |
Un flusso di lavoro per sviluppatori end-to-end senza interruzioni
È un malinteso comune che il perfezionamento produca sempre una qualità migliore rispetto ai prompt. Per i moderni modelli di base come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:
- Preservare le funzionalità generali:l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica di dati. Questo spesso porta a un "oblio catastrofico", in cui il modello migliora nella sintassi specifica, ma peggiora nella logica generale e nella sicurezza. APO lascia invariati i pesi, preservando le funzionalità del modello di base.
- Aderenza alle istruzioni e scoperta di strategie:Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. APO sfrutta questo aspetto trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani.
Per convalidare questo approccio, abbiamo valutato APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti costanti dell'accuratezza del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, APO ha fornito miglioramenti significativi della qualità.
Conclusione
Il lancio dell'ottimizzazione automatica dei prompt (APO) segna un punto di svolta per l'AI generativa sul dispositivo. Colmando il divario tra i modelli di base e le prestazioni a livello di esperti, forniamo agli sviluppatori gli strumenti per creare applicazioni mobile più solide. Che tu stia iniziando a utilizzare l'ottimizzazione zero-shot o che tu stia eseguendo lo scaling per la produzione con il perfezionamento basato sui dati, il percorso verso un'intelligenza on-device di alta qualità è ora più chiaro. Esegui oggi stesso il deployment dei tuoi casi d'uso on-device in produzione con l'API Prompt di ML Kit e l'ottimizzazione automatica dei prompt di Vertex AI.
Link pertinenti:
Continua a leggere
-
Novità sul prodotto
In Google ci impegniamo a portare i modelli di AI più potenti direttamente sui dispositivi Android che hai in tasca. Oggi siamo felici di annunciare il rilascio del nostro ultimo modello open all'avanguardia: Gemma 4.
Caren Chang, David Chou • Lettura di 3 minuti
-
Novità sul prodotto
L'AI semplifica la creazione di esperienze app personalizzate che trasformano i contenuti nel formato giusto per gli utenti. In precedenza, abbiamo consentito agli sviluppatori di eseguire l'integrazione con Gemini Nano tramite le API ML Kit GenAI personalizzate per casi d'uso specifici come il riepilogo e la descrizione delle immagini.
Caren Chang, Chengji Yan, Penny Li • Lettura di 2 minuti
-
Novità sul prodotto
Siamo felici di annunciare che è stato aggiunto il supporto ufficiale per Unreal Engine e Godot per Android XR. Stiamo anche lanciando nuovi strumenti progettati per aumentare la produttività e abilitare nuove funzionalità XR: l'hub del motore Android XR e il framework di interazione Android XR.
Luke Hopkins • Lettura di 4 minuti
Resta al passo con le novità
Ricevi ogni settimana gli ultimi approfondimenti sullo sviluppo per Android direttamente nella tua casella di posta.