Actorii răi folosesc din ce în ce mai multe metode avansate pentru a genera stiri false și a păcăli cititorii să creadă că sunt legitimi. Generatoarele de text bazate pe AI, inclusiv modelul GPT-2 al OpenAI, care încearcă să imite scriitorii umani joacă un rol important în acest sens.
Pentru a atenua acest lucru, cercetătorii au dezvoltat instrumente pentru detectarea textului generat artificial. Cu toate acestea, noile cercetări ale MIT sugerează că ar putea exista un defect fundamental în modul în care funcționează acești detectori.
În mod tradițional, aceste instrumente urmăresc stilul de scriere al unui text pentru a determina dacă este scris de oameni sau de un bot. Ei presupun că textul scris de oameni este întotdeauna legitim și textul generat de bot este întotdeauna fals. Asta înseamnă că, chiar dacă o mașină poate genera text legitim pentru unele cazuri de utilizare, acesta este considerat stire falsă de aceste modele.
În plus, cercetarea evidențiază că atacatorii pot folosi instrumente pentru a manipula textul generat de om. Cercetătorii au instruit AI să utilizeze un model GPT-2 care să corupa textul generat de om pentru a-i modifica sensul.
Tal Schuster, un student la MIT și autorul principal al cercetării, a spus că este important să detectăm falsitatea faptică a unui text, în loc să stabilim dacă a fost generat de o mașină sau un om:
Trebuie să ne gândim că cea mai intrinsecă caracteristică „fake news” este falsitatea faptică, nu dacă textul a fost sau nu generat de mașini. Generatorii de text nu au o agendă specifică – este de datoria utilizatorului să decidă cum să folosească această tehnologie.
Tal Schuster
Profesoara MIT, Regina Barzilay, a declarat că această cercetare a evidențiat lipsa de credibilitate a clasificatorilor actuali pentru dezinformare.
Pentru a depăși aceste defecte, aceeasi echipa cercetători a folosit cea mai mare bază de date de verificare a faptelor, extragerea de fapte și verificare (FEVER) din lume, pentru a dezvolta noi sisteme de detectare.
Cu toate acestea, echipa de cercetare a descoperit că modelul dezvoltat prin FEVER era predispus la erori din cauza prejudecății seturilor de date.

Frazele negate sunt adesea considerate false drept model:
Multe dintre afirmațiile create de adnotatoarele umane conțin fraze capcana. De exemplu, frazele de genul „nu au fost” și „încă” apar mai ales în declarații false.
Cu toate acestea, atunci când echipa a creat un set de date prin dezactivarea FEVER, acuratețea modelului de detectare a scăzut de la 86 la 58 la sută, arătând că există mai multe lucruri de făcut pentru a instrui AI asupra datelor nepărtinitoare.
Tal Schuster a spus că modelul a luat în considerare limba cererii fără nicio dovadă externă. Așadar, există o șansă ca un detector să poată considera un eveniment viitor fals deoarece nu a utilizat surse externe ca parte a procesului de verificare.
Echipa speră să îmbunătățească modelul pentru a detecta noi tipuri de dezinformare prin combinarea verificării faptelor cu mecanismele de apărare existente.