Cipul de inteligență artificială H100 a făcut din Nvidia o companie de mai multe trilioane de dolari, care ar putea valora mai mult decât Alphabet și Amazon, iar concurenții s-au luptat pentru a o ajunge din urmă. Dar poate că Nvidia este pe cale să își extindă avansul – cu noul GPU Blackwell B200 și cu „supercipul” GB200.
Nvidia spune că noul GPU B200 oferă până la 20 de petaflopi de putere FP4 de la cele 208 miliarde de tranzistori ai săi. De asemenea, spune Nvidia, un GB200 care combină două dintre aceste GPU-uri cu un singur procesor Grace poate oferi o performanță de 30 de ori mai mare pentru sarcinile de lucru de inferență LLM, fiind în același timp mult mai eficient.
Acesta „reduce costurile și consumul de energie de până la 25 de ori” față de un H100, spune Nvidia, deși există un semn de întrebare în ceea ce privește costul – directorul general al Nvidia a sugerat că fiecare GPU ar putea costa între 30.000 și 40.000 de dolari.
Nvidia susține că antrenarea unui model cu 1,8 trilioane de parametri ar fi necesitat anterior 8.000 de GPU Hopper și 15 megawați de energie. În prezent, CEO-ul Nvidia spune că 2.000 de GPU Blackwell pot face acest lucru consumând doar patru megawați.
La un benchmark GPT-3 LLM cu 175 de miliarde de parametri, Nvidia spune că GB200 are o performanță ceva mai modestă, de șapte ori mai mare decât cea a unui H100, iar Nvidia spune că oferă o viteză de formare de patru ori mai mare.
Nvidia le-a spus jurnaliștilor că una dintre îmbunătățirile cheie este un motor de transformare de a doua generație care dublează calculul, lățimea de bandă și dimensiunea modelului prin utilizarea a patru biți pentru fiecare neuron în loc de opt (astfel, cei 20 de petaflopi de FP4 pe care i-am menționat mai devreme). O a doua diferență cheie apare doar atunci când conectați un număr uriaș de aceste GPU-uri: un comutator NVLink de ultimă generație care permite ca 576 de GPU-uri să vorbească între ele, cu o lățime de bandă bidirecțională de 1,8 terabytes pe secundă.
Acest lucru a necesitat ca Nvidia să construiască un întreg cip nou de comutator de rețea, unul cu 50 de miliarde de tranzistori și cu o parte din propriul său calculator integrat: 3,6 teraflopi de FP8, spune Nvidia.
Anterior, spune Nvidia, un cluster de doar 16 GPU-uri își petrecea 60% din timp comunicând între ele și doar 40% din timp calculând efectiv.
Desigur, Nvidia se bazează pe faptul că firmele vor cumpăra cantități mari din aceste GPU și le împachetează în modele mai mari, cum ar fi GB200 NVL72, care combină 36 de procesoare și 72 de GPU într-un singur rack răcit cu lichid, pentru un total de 720 petaflops de performanță de instruire AI sau 1.440 petaflops (adică 1,4 exaflops) de inferență. Are aproape trei kilometri de cabluri în interior, cu 5.000 de cabluri individuale.
Fiecare tavă din rack conține fie două cipuri GB200, fie două switch-uri NVLink, cu 18 din primele și nouă din cele din urmă pe rack. În total, Nvidia spune că unul dintre aceste rack-uri poate susține un model cu 27 de trilioane de parametri. Se zvonește că GPT-4 ar fi în jur de un model de 1,7 trilioane de parametri.
Compania spune că Amazon, Google, Microsoft și Oracle plănuiesc deja să ofere rafturile NVL72 în cadrul ofertelor lor de servicii cloud, deși nu este clar câte vor cumpăra.
Și, bineînțeles, Nvidia este fericită să ofere companiilor și restul soluției. Iată modelul DGX Superpod pentru DGX GB200, care combină opt sisteme într-unul singur pentru un total de 288 de procesoare, 576 de GPU-uri, 240 TB de memorie și 11,5 exaflops de calcul FP4.
Nvidia spune că sistemele sale pot ajunge la zeci de mii de supercipuri GB200, conectate împreună cu rețele de 800 Gbps cu noile sale Quantum-X800 InfiniBand (pentru până la 144 de conexiuni) sau Spectrum-X800 ethernet (pentru până la 64 de conexiuni).
Nu ne așteptăm să auzim nimic despre noile GPU pentru jocuri astăzi, deoarece aceste știri provin de la Conferința Nvidia privind tehnologia GPU, care, de obicei, se concentrează aproape în întregime pe calculul pe GPU și inteligența artificială, nu pe jocuri. Dar arhitectura GPU Blackwell va alimenta probabil și o viitoare gamă de plăci grafice desktop din seria RTX 50.