Meta, una dintre primele companii care au adoptat arhitectura RISC-V pentru cipurile sale destinate inferenței AI, a făcut un pas important în dezvoltarea propriilor soluții hardware. Conform unui raport Reuters, compania a proiectat, cu ajutorul Broadcom, un accelerator dedicat pentru antrenarea modelelor de inteligență artificială. Acest cip ar putea reduce semnificativ dependența Meta de unitățile de procesare grafică (GPU) Nvidia de ultimă generație, precum H100/H200 și B100/B200, esențiale pentru antrenarea modelelor avansate de limbaj.
Un cip proprietar, proiectat cu TSMC și Broadcom
Meta și Broadcom au finalizat proiectarea cipului, iar TSMC a produs primele mostre funcționale. Conform raportului, unitatea a fost deja testată cu succes și este implementată la scară limitată pentru a evalua performanța înaintea unei posibile producții în masă.
Deși specificațiile exacte ale cipului nu sunt cunoscute, acceleratoarele de antrenare AI utilizează, de regulă, arhitectura matricei sistolice. Aceasta constă într-o rețea de elemente de procesare identice (PE – Processing Elements), dispuse în rânduri și coloane, fiecare manipulând operațiuni matematice complexe, în special pe matrici și vectori.
Cipul Meta este probabil echipat cu memorie HBM3 sau HBM3E, având în vedere cantitățile masive de date necesare antrenării modelelor AI. De asemenea, este optimizat pentru a echilibra dimensiunea matriței, consumul de energie și performanța, obiective esențiale pentru a concura cu GPU-urile Nvidia.
Parte a inițiativei MTIA, după eșecurile anterioare
Noul cip se înscrie în programul Meta Training and Inference Accelerator (MTIA), însă nu este prima încercare a companiei de a-și dezvolta propriile soluții hardware pentru AI. În trecut, Meta a întrerupt dezvoltarea unui procesor intern de inferență după ce acesta nu a atins obiectivele de performanță și eficiență energetică. Această problemă a determinat Meta să plaseze comenzi masive pentru GPU-uri Nvidia în 2022, devenind unul dintre cei mai mari clienți ai companiei.
În ciuda acestor provocări, Meta a continuat să-și consolideze programul de cipuri personalizate, iar în 2023 a început să utilizeze un accelerator MTIA pentru inferență. Obiectivul Meta este de a implementa propriile cipuri pentru antrenarea modelelor AI până în 2026, reducând astfel dependența de Nvidia și creând o infrastructură hardware mai adaptată cerințelor interne.
Meta și independența hardware în AI
În prezent, Meta utilizează zeci de mii de GPU-uri Nvidia pentru a antrena modelele AI care stau la baza recomandărilor, publicității și modelelor Llama Foundation, precum și pentru procesele de inferență folosite de peste trei miliarde de utilizatori zilnic pe platformele sale.
Un aspect esențial al acestei tranziții către hardware personalizat este utilizarea arhitecturii RISC-V, care permite Meta să își definească propriile seturi de instrucțiuni și să evite plata de redevențe către terți. Dacă acceleratorul pentru antrenare AI al MTIA folosește aceeași arhitectură, Meta ar putea deveni un pionier în dezvoltarea celor mai performante cipuri RISC-V din industrie.
În următorii ani, succesul acestei inițiative va depinde de capacitatea Meta de a optimiza performanța și consumul de energie al cipului, astfel încât acesta să poată concura direct cu GPU-urile Nvidia. Dacă reușește, Meta nu doar că își va reduce costurile operaționale, dar va câștiga și o mai mare autonomie tehnologică, consolidându-și poziția în domeniul AI.