Wiadomości o usługach

Interfejs Prompt API w ML Kit: odblokuj niestandardowe funkcje Gemini Nano na urządzeniu

Czas czytania: 2 min
3 Autorzy
Caren Chang, Chengji Yan, Penny Li

AI ułatwia tworzenie spersonalizowanych aplikacji, które przekształcają treści w odpowiedni format dla użytkowników. Wcześniej umożliwiliśmy deweloperom integrację z Gemini Nano za pomocą interfejsów ML Kit GenAI API dostosowanych do konkretnych zastosowań, takich jak podsumowywanie i opisywanie obrazów.

Dzisiejszy dzień to ważny kamień milowy w rozwoju generatywnej AI na urządzeniach z Androidem. Ogłaszamy wersję alfa interfejsu ML Kit GenAI Prompt API. Ten interfejs API umożliwia wysyłanie do Gemini Nano żądań w języku naturalnym i multimodalnych, co zaspokaja potrzebę większej kontroli i elastyczności podczas tworzenia aplikacji z użyciem modeli generatywnych.

Partnerzy tacy jak Kakao już korzystają z interfejsu Prompt API, tworząc unikalne rozwiązania, które mają realny wpływ na świat. Już dziś możesz wypróbować zaawansowane funkcje interfejsu Prompt API przy użyciu minimalnej ilości kodu.

 

 

Przejście od gotowych do niestandardowych modeli generatywnej AI na urządzeniu

Interfejs Prompt API wykracza poza gotowe funkcje i obsługuje niestandardowe przypadki użycia generatywnej AI w aplikacjach, umożliwiając tworzenie unikalnych funkcji ze złożoną transformacją danych. Interfejs Prompt API korzysta z modelu Gemini Nano na urządzeniu, aby przetwarzać dane lokalnie, co umożliwia działanie offline i zwiększa prywatność użytkowników.

Główne przypadki użycia interfejsu Prompt API:

Interfejs Prompt API umożliwia tworzenie wysoce spersonalizowanych przypadków użycia generatywnej AI. Oto kilka przykładów: 

  • Rozpoznawanie obrazów: analizowanie zdjęć pod kątem klasyfikacji (np. tworzenie wersji roboczej posta w mediach społecznościowych lub identyfikowanie tagów takich jak „zwierzęta”, „jedzenie” czy „podróże”).
  • Inteligentne skanowanie dokumentów: używanie tradycyjnego modelu ML do wyodrębniania tekstu z paragonu, a następnie kategoryzowanie każdego elementu za pomocą interfejsu Prompt API.
  • Przekształcanie danych na potrzeby interfejsu: analizowanie długich treści w celu utworzenia krótkiego, angażującego tytułu powiadomienia.
  • Podpowiadanie treści: sugerowanie tematów nowych wpisów w dzienniku na podstawie preferencji użytkownika dotyczących motywów.
  • Analiza treści: klasyfikowanie opinii klientów jako pozytywnych, neutralnych lub negatywnych.
  • Wyodrębnianie informacji: wyodrębnianie ważnych szczegółów dotyczących nadchodzącego wydarzenia z wątku e-mail.

Implementacja
Interfejs Prompt API umożliwia tworzenie niestandardowych promptów i ustawianie opcjonalnych parametrów generowania za pomocą zaledwie kilku linii kodu:

Generation.getClient().generateContent(
   generateContentRequest(
       ImagePart(bitmapImage),
       TextPart("Categorize this image as one of the following: car, motorcycle, bike, scooter, other. Return only the category as the response."),
   ) {
       // Optional parameters
       temperature = 0.2f
       topK = 10
       candidateCount = 1
       maxOutputTokens = 10
   },
)

Bardziej szczegółowe przykłady implementacji interfejsu Prompt API znajdziesz w oficjalnej dokumentacjiprzykładzie na GitHubie.

Gemini Nano, wydajność i prototypowanie

Interfejs Prompt API działa obecnie najlepiej na urządzeniach z serii Pixel 10, które korzystają z najnowszej wersji Gemini Nano (nano-v3). Ta wersja Gemini Nano jest oparta na tej samej architekturze co Gemma 3n, czyli model, który po raz pierwszy udostępniliśmy społeczności modeli otwartych podczas konferencji I/O.

Wspólna podstawa modeli Gemma 3n i nano-v3 ułatwia programistom tworzenie prototypów funkcji. Jeśli nie masz Pixela 10, możesz już dziś zacząć eksperymentować z promptami, tworząc prototypy lokalnie za pomocą modelu Gemma 3n.

Pełną listę urządzeń obsługujących interfejsy API generatywnej AI znajdziesz w naszej dokumentacji dotyczącej obsługi urządzeń.

Więcej informacji

Zacznij wdrażać interfejs Prompt API w aplikacjach na Androida już dziś, korzystając z oficjalnej dokumentacjiprzykładowego kodu na GitHubie.

Autor:

Czytaj dalej