După ChatGPT și DALL·E, VALL-E – este AI-ul text-to-speech care poate imita vocea oricui.
Anul trecut a apărut instrumentele de inteligență artificială (AI) care pot crea imagini, lucrări de artă sau chiar videoclipuri cu un mesaj text.
Au existat, de asemenea, pași majori înainte în scrierea AI, ChatGPT de la OpenAI provocând entuziasm – și teamă – cu privire la viitorul scrisului.
Acum, la doar câteva zile din 2023, un alt caz de utilizare puternic pentru AI a intrat în lumina reflectoarelor – un instrument text-to-voice care poate imita impecabil vocea unei persoane numit VALL-E.
Dezvoltat de Microsoft, VALL-E poate lua o înregistrare de trei secunde a vocii cuiva și poate reproduce acea voce transformând cuvintele scrise în vorbire, cu intonație și emoție realistă, în funcție de contextul textului.
Antrenat cu 60.000 de ore de înregistrări de vorbire în limba engleză, poate susține un discurs în „situație zero-shot”, ceea ce înseamnă fără exemple sau instruire anterioară într-un anumit context sau situație.
Prezentând VALL-E într-o lucrare publicată de Universitatea Cornell, dezvoltatorii au explicat că datele de înregistrare constau din peste 7.000 de difuzoare unice.
Echipa spune că sistemul lor Text To Speech (TTS) a folosit de sute de ori mai multe date decât sistemele TTS existente, ajutându-i să depășească problema zero-shot.
Instrumentul nu este disponibil în prezent pentru uz public – dar ridică întrebări despre siguranță, având în vedere că ar putea fi fezabil utilizat pentru a genera orice text provenind din vocea oricui.

Cu toate acestea, creatorii săi au oferit o demonstrație, prezentând un număr de solicitări de trei secunde ale difuzorului și o demonstrație a textului în vorbire în acțiune, cu vocea corect imitată.
Alături de promptul difuzorului și de ieșirea lui VALL-E, puteți compara rezultatele cu „adevărul de bază” – vorbitorul real care citește textul promptului – și rezultatul „de referință” din tehnologia actuală TTS.
Rezultatele sunt amestecate, unele sună asemănătoare unei mașini, iar altele fiind surprinzător de realiste. Faptul că păstrează tonul emoțional al mostrelor originale este ceea ce le vinde pe cele care funcționează. De asemenea, se potrivește fidel mediului acustic, așa că, dacă vorbitorul și-a înregistrat vocea într-o sală de ecou, ieșirea VALL-E sună și ca și cum ar fi venit din același loc.
Pentru a îmbunătăți modelul, Microsoft intenționează să-și extindă datele de antrenament „pentru a îmbunătăți performanța modelului din perspectiva prozodiei, stilului de vorbire și asemănării vorbitorului”. De asemenea, explorează modalități de a reduce cuvintele neclare sau ratate.
Microsoft a investit foarte mult în AI și este unul dintre susținătorii OpenAI, compania din spatele ChatGPT și DALL-E, un instrument text-to-image sau artă.
Gigantul de software a investit 1 miliard de dolari în OpenAI în 2019, iar un raport din această săptămână a declarat că urmărește să investească încă 10 miliarde de dolari (9,3 miliarde de euro) în companie.