Mai multe companii de tehnologie, inclusiv Apple, Nvidia și Anthropic, au folosit mii de videoclipuri de pe YouTube pentru a-și antrena modelele de inteligență artificială (AI), potrivit unei investigații realizate de Proof News.
Aceste companii au utilizat subtitrările a 173.536 de videoclipuri de pe YouTube, provenind de la peste 48.000 de canale, fără a avea permisiunea necesară de la creatorii de conținut.
Printre canalele afectate se numără și cele ale unor creatori populari, precum MrBeast, Marques Brownlee, Jacksepticeye și PewDiePie. De asemenea, au fost utilizate și materiale de la canale educaționale renumite, cum ar fi Khan Academy, MIT și Harvard, precum și conținut de la BBC, NPR și „The Late Show With Stephen Colbert.”
David Pakman, gazda unui canal politic de pe YouTube cu peste două milioane de abonați, a descoperit că aproape 160 de videoclipuri de-ale sale au fost folosite pentru antrenarea AI fără consimțământul său. El susține că creatorii de conținut ar trebui să fie compensați dacă materialele lor sunt folosite pentru astfel de scopuri.
EleutherAI, organizația care a creat dataset-ul YouTube Subtitles, nu a răspuns la solicitările de comentarii. Setul de date nu include imagini video, ci doar textul subtitrărilor, și face parte dintr-o colecție mai mare numită The Pile, care include și materiale din Parlamentul European, Wikipedia și emailuri de la Enron Corporation.
Apple, Nvidia, Salesforce și alte companii mari au folosit The Pile pentru a-și antrena modelele AI, conform documentelor de cercetare. Unele companii, precum Salesforce, au declarat că au folosit aceste date în scopuri academice și de cercetare și că setul de date era „disponibil public.”
Aceste descoperiri au ridicat probleme legate de utilizarea neautorizată a conținutului creativ și de necesitatea compensării creatorilor. Mulți dintre cei afectați nu erau conștienți că materialele lor au fost folosite în acest mod.
Într-un alt caz similar, un dataset numit Books3 a inclus peste 180.000 de cărți, iar autorii au dat în judecată companiile de AI pentru utilizarea neautorizată a lucrărilor lor.
Aceste situații subliniază problemele legate de drepturile de autor și necesitatea reglementărilor clare în ceea ce privește utilizarea conținutului pentru antrenarea AI.