Clonarea vocii este unul dintre domeniile care se dezvoltă rapid datorită inteligenței artificiale generative. Termenul se referă la replicarea stilurilor vocale ale unei persoane – înălțimea, timbrul, ritmurile, manierele și pronunțiile unice – prin tehnologie.
În timp ce startup-urile, inclusiv ElevenLabs, au primit zeci de milioane de dolari finanțare pentru a se dedica acestei activități, Meta Platforms, compania-mamă a Facebook, Instagram, WhatsApp și Oculus VR și-a lansat propriul program gratuit de clonare a vocii, Audiobox.
Dezvăluit astăzi pe site-ul Meta de către cercetătorii care lucrează la laboratorul Facebook AI Research (FAIR), Audiobox este descris ca un „nou model de cercetare fundamentală pentru generarea audio” construit pe baza muncii sale anterioare în acest domeniu, Voicebox.
„Poate genera voci și efecte sonore utilizând o combinație de intrări vocale și instrucțiuni de text în limbaj natural – facilitând crearea de audio personalizat pentru o gamă largă de cazuri de utilizare”, potrivit paginii web Audiobox.
Pur și simplu introduceți o propoziție pe care doriți să o spună o voce clonată sau o descriere a unui sunet pe care doriți să-l generați, iar Audiobox se va ocupa de restul. De asemenea, utilizatorii își pot înregistra vocea și o pot clona cu Audiobox.
Meta a mai remarcat că a creat o „familie de modele”, unul pentru mimica vorbirii, iar celălalt pentru a genera mai multe sunete ambientale și efecte sonore, cum ar fi lătratul câinilor sau sirenele sau copiii care se joacă și că toate sunt „construite pe baza sentimentului de sine comun a modelului auto-supravegheat Audiobox SSL.”

Învățarea auto-supravegheată (SSL) este o tehnică de învățare profundă a învățării automate (ML) în care algoritmii de inteligență artificială sunt alocați pentru a-și genera propriile etichete pentru datele care nu sunt etichetate, spre deosebire de învățarea supravegheată, unde datele pot fi deja etichetate.
Pentru a prezenta capabilitățile Audiobox, Meta a lansat, de asemenea, o serie de demonstrații interactive, inclusiv una care vă permite înregistrarea sunetului utilizatorului care vorbește despre valoarea unei propoziții de text și să le reproducă vocea.
Apoi, utilizatorul poate introduce textul pe care dorește să îl spună vocea sa clonată și să-l audă citindu-i înapoi în vocea sa clonată.