OpenAI și Google și-au antrenat modelele de inteligență artificială pe texte transcrise din videoclipuri de pe YouTube, încălcând potențial drepturile de autor ale creatorilor, potrivit The New York Times.
Raportul, care descrie eforturile pe care OpenAI, Google și Meta le-au făcut pentru a maximiza cantitatea de date pe care le pot furniza AI-urilor lor, citează numeroase persoane care cunosc practicile acestor companii.
Raportul vine la doar câteva zile după ce Neal Mohan, directorul general al YouTube, a declarat într-un interviu acordat Bloomberg Originals că presupusa utilizare de către OpenAI a videoclipurilor de pe YouTube pentru a antrena noul său generator de transformare a textului în video, Sora, ar contraveni politicilor platformei.
Potrivit NYT, OpenAI a folosit instrumentul său de recunoaștere vocală Whisper pentru a transcrie peste un milion de ore de videoclipuri YouTube, care au fost apoi folosite pentru a antrena GPT-4.
The Information a relatat anterior că OpenAI a folosit videoclipuri YouTube și podcasturi pentru a antrena cele două sisteme de inteligență artificială. Președintele OpenAI, Greg Brockman, s-ar fi aflat printre persoanele din această echipă.
Conform regulilor Google, „răzuirea sau descărcarea neautorizată a conținutului YouTube” nu este permisă, a declarat pentru NYT Matt Bryant, un purtător de cuvânt al Google, precizând totodată că firma nu avea cunoștință de o astfel de utilizare din partea OpenAI.
Totuși, raportul susține că au existat persoane de la Google care știau, dar nu au luat măsuri împotriva OpenAI, deoarece Google folosea videoclipuri de pe YouTube pentru a-și antrena propriile modele de inteligență artificială. Google a declarat pentru NYT că face acest lucru doar cu videoclipuri de la creatori care au fost de acord cu acest lucru.
Raportul NYT susține, de asemenea, că Google a cerut unei echipe să își modifice politica de confidențialitate în iunie 2023 pentru a acoperi mai larg utilizarea conținutului disponibil public, inclusiv Google Docs și Google Sheets, pentru a-și antrena modelele și produsele de inteligență artificială. Modificările, despre care Google spune că au fost făcute de dragul clarității, au fost publicate în iulie.
Bryant a declarat pentru NYT că acest tip de date este utilizat doar cu permisiunea utilizatorilor care optează pentru testele de caracteristici experimentale ale Google și că firma „nu a început să se antreneze pe tipuri suplimentare de date pe baza acestei modificări lingvistice”. Modificarea a adăugat Bard ca exemplu de utilizare a acestor date.