OpenAI lansează acum Advanced Voice Mode pentru unii abonați Plus, după un debut controversat și o întârziere de o lună.
Un număr necunoscut de utilizatori „alpha” vor avea acces la această funcție de astăzi. OpenAI va „extinde treptat accesul la mai mulți utilizatori Plus în următoarele săptămâni” și intenționează să o aducă tuturor utilizatorilor Plus în toamnă, spune un purtător de cuvânt al companiei pentru PCMag.
Când funcția a debutat la evenimentul de lansare GPT-4o din mai, a părut să ofere un salt înainte în tehnologia de recunoaștere vocală. A înțeles cu ușurință ce i-au cerut angajații OpenAI și a răspuns în timp real cu informații precise și utile. De asemenea, poate „vedea” orice utilizatorul indică cu camera telefonului său și oferă informații despre acel obiect.
„Advanced Voice Mode oferă conversații mai naturale, în timp real, permite întreruperea în orice moment și detectează și răspunde la emoțiile tale,” spune OpenAI.
Utilizatorii ChatGPT au așteptat cu nerăbdare să încerce tehnologia ei înșiși, dar OpenAI a întâmpinat câteva obstacole în drumul său către lansare.
„De la prezentarea vocii GPT-4o în mai, prioritatea noastră principală a fost asigurarea calității și siguranței conversațiilor vocale GPT-4o, astfel încât să putem aduce această experiență tuturor celor care folosesc ChatGPT,” spune OpenAI.
Însă tehnologia vocală a OpenAI a întâmpinat un obstacol la scurt timp după demonstrație, când Scarlett Johansson a afirmat că OpenAI i-a folosit vocea pentru funcția vocală Sky fără permisiune. Johansson a interpretat vocea unui computer în filmul din 2013 „Her”, pe care CEO-ul OpenAI, Sam Altman, l-a menționat de mai multe ori ca inspirație pentru tehnologia vocală ChatGPT.
Într-o postare pe X în ziua debutului GPT-4o, Altman a scris „Her” pentru a face comparația. (Vizionați demonstrația aici pentru a vedea cu ochii voștri.)
Deși funcția Sky a fost dezactivată, OpenAI a negat acuzația și a spus că a angajat un actor vocal separat. Sky a fost una dintre cele cinci opțiuni de voce; celelalte patru vor fi disponibile ca parte a Advanced Voice Mode.
„Am făcut astfel încât ChatGPT să nu poată imita vocile altor persoane, atât ale indivizilor, cât și ale persoanelor publice, și va bloca rezultatele care diferă de una dintre aceste voci presetate,” spune OpenAI. „Am adăugat noi filtre care vor recunoaște și bloca anumite cereri de a genera muzică sau alt conținut audio protejat de drepturi de autor.”
După controversa cu Scarlett Johansson, OpenAI a amânat lansarea din iunie până în iulie pentru a „atinge standardul său”. Acest lucru a inclus „îmbunătățirea capacității modelului de a detecta și refuza anumite conținuturi,” precum și pregătirea „infrastructurii pentru a scala la milioane de utilizatori menținând răspunsurile în timp real.” OpenAI spune că a testat funcțiile cu peste 100 de evaluatori externi în 45 de limbi.
Acum funcția este în sfârșit disponibilă, dar încă ar putea exista câteva probleme de rezolvat. „Această versiune alpha este despre testare, învățare și rafinare pentru a oferi cea mai bună experiență posibilă,” spune OpenAI. „Prin lansarea treptată, putem monitoriza îndeaproape utilizarea și îmbunătăți continuu capacitățile și siguranța modelului pe baza feedback-ului din lumea reală.”
Amazon și Apple au anunțat, de asemenea, planuri de a-și actualiza tehnologia vocală pentru a ține pasul cu concurența. Cu toate acestea, Amazon ar putea percepe un abonament pentru o versiune avansată a Alexa, iar Siri îmbunătățită cu Apple Intelligence nu este așteptată până în 2025.
OpenAI urmărește, de asemenea, Google cu un nou motor de căutare, numit SearchGPT.