Roboții de chat cu inteligență artificială sunt deja capabili să „vadă” lumea prin imagini și clipuri video. Dar acum, Google a anunțat funcționalități audio-to-speech ca parte a celei mai recente actualizări a Gemini Pro. În Gemini 1.5 Pro, chatbotul poate acum să „audă” fișierele audio încărcate în sistemul său și apoi să extragă informațiile din text.
Compania a pus la dispoziție această versiune LLM ca o previzualizare publică pe platforma sa de dezvoltare Vertex AI. Acest lucru va permite mai multor utilizatori axați pe întreprinderi să experimenteze funcția și să își extindă baza, după o lansare mai privată în februarie, când modelul a fost anunțat pentru prima dată. Inițial, acesta a fost oferit doar unui grup limitat de dezvoltatori și clienți de întreprindere.
Google a oferit detalii despre actualizare în cadrul conferinței Cloud Next, care are loc în prezent în Las Vegas. După ce a numit Gemini Ultra LLM, care alimentează chatbotul său Gemini Advanced, cel mai puternic model din familia Gemini, Google numește acum Gemini 1.5 Pro modelul său generativ cel mai capabil. Compania a adăugat că această versiune este mai bună la învățare fără o ajustare suplimentară a modelului.
Gemini 1.5 Pro este multimodal, în sensul că poate interpreta diferite tipuri de audio în text, inclusiv emisiuni TV, filme, emisiuni radio și înregistrări de teleconferințe. Este chiar multilingv, în sensul că poate procesa audio în mai multe limbi diferite. LLM ar putea fi capabil, de asemenea, să creeze transcrieri din videoclipuri; cu toate acestea, calitatea sa ar putea fi nesigură, după cum menționează TechCrunch.
Când a fost anunțat pentru prima dată, Google a explicat că Gemini 1.5 Pro folosea un sistem de token-uri pentru a procesa datele brute. Un milion de token-uri echivalează cu aproximativ 700.000 de cuvinte sau 30.000 de linii de cod. În formă media, echivalează cu o oră de video sau aproximativ 11 ore de audio.
Au existat câteva demonstrații private de previzualizare a Gemini 1.5 Pro care demonstrează modul în care LLM este capabil să găsească momente specifice într-o transcriere video. De exemplu, Rowan Cheung, pasionat de inteligență artificială, a obținut acces anticipat și a detaliat modul în care demonstrația sa a găsit o secvență de acțiune exactă într-o competiție sportivă și a rezumat evenimentul, după cum se vede în tweetul încorporat mai sus.
Cu toate acestea, Google a remarcat că alți utilizatori timpurii, inclusiv United Wholesale Mortgage, TBS și Replit, optează pentru cazuri de utilizare mai orientate către întreprinderi, cum ar fi subscrierea ipotecilor, automatizarea etichetării metadatelor și generarea, explicarea și actualizarea codului.