Gemini AI Pro primește conversații audio

Roboții de chat cu inteligență artificială sunt deja capabili să „vadă” lumea prin imagini și clipuri video. Dar acum, Google a anunțat funcționalități audio-to-speech ca parte a celei mai recente actualizări a Gemini Pro. În Gemini 1.5 Pro, chatbotul poate acum să „audă” fișierele audio încărcate în sistemul său și apoi să extragă informațiile din text.

Compania a pus la dispoziție această versiune LLM ca o previzualizare publică pe platforma sa de dezvoltare Vertex AI. Acest lucru va permite mai multor utilizatori axați pe întreprinderi să experimenteze funcția și să își extindă baza, după o lansare mai privată în februarie, când modelul a fost anunțat pentru prima dată. Inițial, acesta a fost oferit doar unui grup limitat de dezvoltatori și clienți de întreprindere.

1. Breaking down + understanding a long video

I uploaded the entire NBA dunk contest from last night and asked which dunk had the highest score.

Gemini 1.5 was incredibly able to find the specific perfect 50 dunk and details from just its long context video understanding! pic.twitter.com/01iUfqfiAO
— Rowan Cheung (@rowancheung) February 18, 2024

Google a oferit detalii despre actualizare în cadrul conferinței Cloud Next, care are loc în prezent în Las Vegas. După ce a numit Gemini Ultra LLM, care alimentează chatbotul său Gemini Advanced, cel mai puternic model din familia Gemini, Google numește acum Gemini 1.5 Pro modelul său generativ cel mai capabil. Compania a adăugat că această versiune este mai bună la învățare fără o ajustare suplimentară a modelului.

Gemini 1.5 Pro este multimodal, în sensul că poate interpreta diferite tipuri de audio în text, inclusiv emisiuni TV, filme, emisiuni radio și înregistrări de teleconferințe. Este chiar multilingv, în sensul că poate procesa audio în mai multe limbi diferite. LLM ar putea fi capabil, de asemenea, să creeze transcrieri din videoclipuri; cu toate acestea, calitatea sa ar putea fi nesigură, după cum menționează TechCrunch.

PUBLICITATE

Când a fost anunțat pentru prima dată, Google a explicat că Gemini 1.5 Pro folosea un sistem de token-uri pentru a procesa datele brute. Un milion de token-uri echivalează cu aproximativ 700.000 de cuvinte sau 30.000 de linii de cod. În formă media, echivalează cu o oră de video sau aproximativ 11 ore de audio.

Articolul continua duparecomandari

Microsoft lansează în premieră PC-urile „Copilot+” cu funcții de inteligență artificială

Parteneriat HP-Google pentru Project Starline

Giganții tech în topul celor mai doriți angajatori din 2024

Photoshop creează imagini generate de inteligența artificială pornind de la simple indicații de text

Au existat câteva demonstrații private de previzualizare a Gemini 1.5 Pro care demonstrează modul în care LLM este capabil să găsească momente specifice într-o transcriere video. De exemplu, Rowan Cheung, pasionat de inteligență artificială, a obținut acces anticipat și a detaliat modul în care demonstrația sa a găsit o secvență de acțiune exactă într-o competiție sportivă și a rezumat evenimentul, după cum se vede în tweetul încorporat mai sus.

Cu toate acestea, Google a remarcat că alți utilizatori timpurii, inclusiv United Wholesale Mortgage, TBS și Replit, optează pentru cazuri de utilizare mai orientate către întreprinderi, cum ar fi subscrierea ipotecilor, automatizarea etichetării metadatelor și generarea, explicarea și actualizarea codului.

Etichete: ai gemini google

IT MANIA

Tehnologia la zi

IT MANIA este website-ul emisiunii cu acelasi nume ce a fost lansata in anul 2012. Misiunea sa este de a oferi pasionatilor cele mai importante noutati din lumea IT, de a prezenta cele mai interesante gadgeturi si aplicatii lansate pe piata, de a recomanda cele mai tari jocuri pentru PC si Console.

Va invitam sa urmariti cele mai recente clipuri video IT MANIA si TechBuzz.

Cititi mai multe aici.

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Trending Tags

Gemini AI Pro primește conversații audio

Articolul continua duparecomandari

Articole recomandate parteneri

Automattic are planuri mari cu privire la viitorul mesageriei

Instagram va lua măsuri împotriva sextorționismului adolescenților

Relaționat

Abonare.Newsletter

Social

Articole recente

Articole populare

Microsoft lansează în premieră PC-urile „Copilot+” cu funcții de inteligență artificială

Microsoft lansează în premieră PC-urile „Copilot+” cu funcții de inteligență artificială