Un grup de editori de pe Wikipedia a format un proiect intitulat WikiProject AI Cleanup, o colaborare menită să combată problema tot mai frecventă a conținutului generat de AI pe Wikipedia, care este prost scris și lipsit de surse.
Scopul acestui proiect este să protejeze una dintre cele mai mari surse de informații din lume de informațiile false generate de inteligența artificială, care au afectat deja rezultatele căutărilor pe Google, cărțile vândute pe Amazon și revistele academice.
„Câțiva dintre noi am observat prezența unui limbaj nenatural care indica clar că era generat de AI și am reușit să replicăm stiluri similare folosind ChatGPT,” a explicat Ilyas Lebleu, membru fondator al WikiProject AI Cleanup, într-un e-mail trimis către 404 Media.
„Descoperirea unor fraze tipice generate de AI ne-a permis să detectăm rapid exemplele cele mai flagrante de articole generate, motiv pentru care am dorit să formalizăm acest efort într-un proiect organizat.”
Metodele prin care grupul detectează conținutul generat de AI pe Wikipedia sunt similare cu cele folosite pentru identificarea conținutului AI în revistele științifice și cărțile disponibile pe Google Books. Un exemplu grav este un articol despre Chester Mental Health Center, care în noiembrie 2023 includea fraza „As of my last knowledge update in January 2022,” referindu-se la ultima actualizare a unui model AI.
Unele cazuri sunt mai greu de detectat. Lebleu și un alt membru fondator al proiectului, cunoscut sub numele de Queen of Hearts, au identificat un articol despre o cetate otomană, Amberlisihar, ca fiind unul dintre cele mai „impresionante” exemple de conținut generat de AI.
„Cetatea Amberlihisar a fost construită în 1466 de Mehmed Cuceritorul în Trabzon, Turcia. Construcția a fost finalizată în același an, cu ajutorul meșterilor aduși din regiunea Rumelia,” spunea articolul. „Totul, de la construcția cetății până la asedii și restaurări, era fals,” a declarat Lebleu. „Cetatea nu a existat niciodată.”
O problemă mai profundă: citările false
Un aspect și mai îngrijorător, conform lui Lebleu, sunt citările false. Acestea pot rămâne nedetectate luni întregi. Chiar dacă AI-ul folosește date reale pentru a genera text, nu va putea asocia corect citările cu afirmațiile din text. De exemplu, un articol despre o specie obscură de gândac cita un articol real dintr-o revistă în limba franceză – doar că articolul respectiv era despre o specie de crab, fără nicio mențiune despre gândac.
Detectarea și eliminarea conținutului generat de AI
WikiProject AI Cleanup a eliminat mai multe exemple de conținut generat de AI, inclusiv imagini create de inteligența artificială. Unele dintre acestea, precum o imagine folosită într-un articol despre Darul Uloom Deoband, au fost identificate ca fiind create de AI datorită detaliilor anatomice greșite, precum persoane cu mâini deformate sau picioare cu șapte degete.
Totuși, proiectul nu elimină toate imaginile generate de AI de pe Wikipedia, ci doar pe cele care induc în eroare. Dacă imaginea este relevantă, precum o creație AI virală, atunci poate rămâne pe platformă.
Diferențe față de alte platforme
Wikipedia pare să fie mai eficientă decât alte platforme mari, cum ar fi Facebook, Google sau Amazon, în detectarea și filtrarea conținutului generat de AI, datorită implicării voluntarilor care revizuiesc și verifică articolele. Spre deosebire de aceste platforme mari, care au moderatori umani dar adesea eșuează în a detecta conținutul fals generat de AI, Wikipedia se bazează pe oameni pentru a verifica veridicitatea informațiilor.
„Articolele Wikipedia au un format mai specific decât rezultatele Google, iar un AI care nu este familiarizat cu acest format va genera ceva mult mai ușor de detectat,” a explicat Lebleu.
Totuși, editorii recunosc că, în ciuda eforturilor lor, există mult conținut care scapă nedetectat. „Suntem toți voluntari,” a adăugat Queen of Hearts.
Folosirea AI-ului pentru a detecta AI-ul
Lebleu a menționat că au discutat despre utilizarea unor instrumente de detectare a AI-ului, precum GPTZero, dar rezultatele au fost variabile.
„Nu există un ‘oracol’ care să poată distinge perfect textul generat de AI de cel scris de oameni,” a spus Lebleu. În acest context, oamenii care cunosc bine regulile de scriere de pe Wikipedia și cuvintele-cheie utilizate de LLM (Large Language Models) sunt mai eficienți în identificarea conținutului generat de AI.
Concluzie
Într-o eră în care inteligența artificială devine din ce în ce mai răspândită, Wikipedia se confruntă cu provocarea de a menține standardele sale ridicate de acuratețe. Proiectul WikiProject AI Cleanup joacă un rol crucial în protejarea integrității platformei, oferind un exemplu de colaborare umană pentru a contracara informațiile înșelătoare generate de AI.