Pentru unii, asistenții de inteligență artificială sunt ca niște prieteni buni la care putem apela pentru orice întrebare delicată sau jenantă. La urma urmei, pare sigur, deoarece comunicarea noastră cu ei este criptată. Cu toate acestea, cercetătorii din Israel au descoperit o modalitate prin care hackerii pot ocoli această protecție.
Ca orice asistent bun, AI-ul tău știe multe despre tine. Știe unde locuiți și unde lucrați. Probabil că știe ce alimente vă plac și ce plănuiți să faceți în acest weekend. Dacă sunteți deosebit de vorbăreț, este posibil să știe chiar dacă vă gândiți la divorț sau la faliment.
De aceea, un atac conceput de cercetători care poate citi răspunsurile criptate de la asistenții de inteligență artificială pe internet este alarmant. Cercetătorii sunt de la Offensive AI Research Lab din Israel și au identificat un canal secundar exploatabil prezent în majoritatea asistenților AI importanți care folosesc streamingul pentru a interacționa cu modele lingvistice mari, cu excepția Google Gemini. Ei demonstrează apoi cum funcționează pe traficul de rețea criptat de la ChatGPT-4 de la OpenAI și Copilot de la Microsoft.
„Am reușit să reconstruim cu acuratețe 29% din răspunsurile unui asistent AI și să deducem cu succes subiectul din 55% dintre ele”, au scris cercetătorii în lucrarea lor.
Punctul inițial al atacului este canalul secundar de lungime de token. În procesarea limbajului natural, token-ul este cea mai mică unitate de text care poartă un înțeles, explică cercetătorii. De exemplu, propoziția „Am o erupție cutanată care mă mănâncă” ar putea fi redată în token-uri după cum urmează: S = (k1, k2, k3, k4, k5), unde simbolurile sunt k1 = eu, k2 = am, k3 = o, k4 = mâncărime și k5 = iritație.
Cu toate acestea, token-urile reprezintă o vulnerabilitate semnificativă în modul în care serviciile de modele lingvistice mari gestionează transmiterea datelor. Și anume, deoarece LLM-urile generează și trimit răspunsuri sub forma unei serii de token-uri, fiecare token este transmis de la server la utilizator pe măsură ce este generat. În timp ce acest proces este criptat, dimensiunea pachetelor poate dezvălui lungimea token-urilor, permițând potențial atacatorilor din rețea să citească conversațiile.
Deducerea conținutului unui răspuns dintr-o secvență de lungime a unui token este o provocare, deoarece răspunsurile pot avea mai multe propoziții, ceea ce duce la milioane de propoziții corecte din punct de vedere gramatical, au declarat cercetătorii. Pentru a ocoli această problemă, ei (1) au folosit un model lingvistic mare pentru a traduce aceste secvențe, (2) au furnizat LLM-ului contextul inter-sentințe pentru a restrânge spațiul de căutare și (3) au efectuat un atac de tip „known-plaintext” prin reglarea fină a modelului pe stilul de scriere al modelului țintă.
„Din câte știm, aceasta este prima lucrare care utilizează IA generativă pentru a efectua un atac de tip side-channel”, au scris ei.
Cercetătorii au contactat cel puțin un furnizor de securitate, Cloudflare, în legătură cu munca lor. De când a fost notificat, Cloudflare spune că a implementat o măsură de atenuare pentru a-și securiza propriul produs de inferență numit Workers AI, precum și că l-a adăugat la AI Gateway pentru a proteja LLM-urile clienților, indiferent de locul în care le rulează.
În lucrarea lor, cercetătorii au oferit, de asemenea, o sugestie de atenuare: includerea de umplutură aleatorie la fiecare mesaj pentru a ascunde lungimea reală a jetoanelor din flux, complicând astfel încercările de a deduce informații doar pe baza dimensiunii pachetelor de rețea.