Pe măsură ce războaiele chatbot AI se întețesc, compania-mamă Meta, Facebook, introduce LLaMA, propriul model de limbaj major alimentat de AI, despre care spune că poate depăși programele rivale, inclusiv modelul mai vechi GPT-3 de la OpenAI.
Modelul de limbaj major al lui Meta se numește LLaMA și poate genera conversații asemănătoare oamenilor prin completarea automată a șirurilor de text, la fel ca și alți chatboți alimentați de AI. Cu toate acestea, compania spune că poate rula mai eficient decât alte modele de limbaj major și necesită mai puține cerințe hardware.
„LLaMA-13B depășește GPT-3 la majoritatea benchmark-urilor, în ciuda faptului că este de 10 ori mai mic”, au scris cercetătorii companiei într-o lucrare. (Pentru perspectivă, GPT-3 a debutat inițial în 2020 înainte ca o versiune mai nouă să fie utilizată pentru a alimenta programul ChatGPT al OpenAI.)
În ciuda îmbunătățirilor prezentate, Meta oferă spre folosire LLaMA doar comunității de cercetare. Scopul este de a aduna mai multe informații de la experți atunci când este clar că chatbot-urile bazate pe inteligență artificială, cum ar fi ChatGPT, pot genera erori concrete și pot prezenta părtiniri în răspunsurile lor.
„Credem că acest model va ajuta la democratizarea accesului și studiului LLM-urilor (modele majore de limbă), deoarece poate fi rulat pe un singur GPU”, au adăugat cercetătorii companiei într-o lucrare.
În trecut, Meta și-a lansat propriile modele de chatbot, dar acestea nu au reușit să atragă entuziasm, cum a reușit să o facă ChatGPT de la OpenAI, care a ajuns recent până la 100 de milioane de oameni care îl folosesc. Deci, este posibil ca gigantul să dorească să-și ia timp înainte de a lansa LLaMA pentru public.
Meta subliniază, de asemenea, că accesul la modelele mari de limbaj poate fi limitat, deoarece acestea necesită adesea servere pentru a rula.
„Acest acces restricționat are capacitatea limitată a cercetătorilor de a înțelege cum și de ce funcționează aceste modele mari de limbaj, împiedicând progresul în eforturile de îmbunătățire a robusteței lor și atenuarea problemelor cunoscute, cum ar fi părtinirea, toxicitatea și potențialul de a genera dezinformare”, a scris compania într-o postare pe blog.
Modelul LLaMA de la Meta vine în patru versiuni care operează peste 7 miliarde, 13 miliarde, 33 miliarde sau 65 de miliarde de parametri. Este semnificativ mai mic decât GPT-3 de la OpenAI, care rulează pe 175 de miliarde de parametri. Cu toate acestea, Meta spune că LLaMA a reușit să depășească modelele lingvistice mari existente, antrenându-l pe mai multe fragmente de date, cunoscute sub numele de token-uri.
„Am antrenat LLaMA 65B și LLaMA 33B pe 1,4 trilioane de token-uri. Cel mai mic model al nostru, LLaMA 7B, este antrenat pe un trilion de token-uri”, a adăugat compania. Aceasta a inclus instruirea modelelor pe text de pe internet, împreună cu cărți și articole Wikipedia.
Cercetătorii pot aplica pentru acces la modelul LLaMA al Meta prin intermediul site-ului web al companiei.