Într-un nou exemplu al unui tipar îngrijorător din industrie, NVIDIA pare să fi descărcat cantități mari de conținut protejat de drepturi de autor pentru a antrena inteligența artificială.
Samantha Cole de la 404 Media a raportat că compania evaluată la 2,4 trilioane de dolari a cerut angajaților să descarce videoclipuri de pe YouTube, Netflix și alte baze de date pentru a dezvolta proiecte comerciale de AI.
Producătorul de plăci grafice se numără printre companiile de tehnologie care par să fi adoptat ethosul „move fast and break things” în cursa lor de a stabili dominanța în această febrilă, prea des rușinoasă, goană după aur AI.
Antrenamentul ar fi avut ca scop dezvoltarea de modele pentru produse precum generatorul 3D Omniverse, sistemele de mașini autonome și eforturile de creare a „oamenilor digitali”.
NVIDIA și-a apărat practica într-un e-mail trimis către Engadget. Un purtător de cuvânt al companiei a spus că cercetările sale sunt „în deplină conformitate cu litera și spiritul legii drepturilor de autor”, susținând că legile privind proprietatea intelectuală protejează expresiile specifice, „dar nu și faptele, ideile, datele sau informațiile”. Compania a comparat practica cu dreptul unei persoane de a „învăța fapte, idei, date sau informații dintr-o altă sursă și de a le folosi pentru a crea propria expresie”. Oamenii, computerele… care e diferența?
YouTube nu pare să fie de acord. Purtătorul de cuvânt Jack Malon s-a îndreptat către o poveste de la Bloomberg din aprilie, citându-l pe CEO-ul Neal Mohan care spunea că utilizarea YouTube pentru a antrena modele de AI ar fi o „încălcare clară” a termenilor săi. „Comentariul nostru anterior rămâne valabil”, a scris managerul de comunicare a politicilor YouTube către Engadget.
Acest citat din Mohan din aprilie a fost un răspuns la rapoartele conform cărora OpenAI și-ar fi antrenat generatorul text-video Sora pe videoclipuri YouTube fără permisiune. Luna trecută, un raport a arătat că startup-ul Runway AI a urmat același model.
Angajații NVIDIA care au ridicat preocupări etice și legale cu privire la această practică ar fi fost informați de către managerii lor că aceasta a fost deja aprobată la cel mai înalt nivel al companiei. „Aceasta este o decizie executivă”, a răspuns Ming-Yu Liu, vicepreședintele departamentului de cercetare al NVIDIA. „Avem o aprobare generală pentru toate datele.” Alții din companie ar fi descris descărcarea de conținut ca o „problemă legală deschisă” pe care o vor aborda ulterior.
Totul sună similar cu vechiul motto al Facebook (Meta) „move fast and break things”, care a reușit admirabil să strice destul de multe lucruri, inclusiv confidențialitatea a milioane de oameni.
Pe lângă videoclipurile de pe YouTube și Netflix, NVIDIA ar fi instruit angajații să antreneze AI-ul pe baza de date de trailere de filme MovieNet, biblioteci interne de înregistrări de jocuri video și seturi de date video de pe Github precum WebVid (eliminat acum după un ordin de încetare și renunțare) și InternVid-10M. Acesta din urmă este un set de date care conține 10 milioane de ID-uri de videoclipuri YouTube.
Unele dintre datele pe care NVIDIA le-ar fi folosit pentru antrenament erau destinate doar utilizării academice (sau în alte scopuri necomerciale). HD-VG-130M, o bibliotecă de 130 de milioane de videoclipuri YouTube, include o licență de utilizare care specifică că este destinată doar cercetării academice. NVIDIA ar fi ignorat preocupările legate de termenii academici, insistând că loturile lor sunt disponibile pentru produsele comerciale AI.
Pentru a evita detectarea de către YouTube, NVIDIA ar fi descărcat conținut folosind mașini virtuale (VM-uri) cu adrese IP rotative pentru a evita interdicțiile. Ca răspuns la sugestia unui angajat de a folosi un instrument terț pentru rotirea adreselor IP, un alt angajat NVIDIA ar fi scris: „Suntem pe Amazon Web Services și repornirea unei instanțe de mașină virtuală oferă o nouă adresă IP publică. Așadar, asta nu este o problemă până acum.”