CEO-ul Nvidia, Jensen Huang a dezvăluit o serie de produse proaspete, inclusiv un nou tip de comutator ethernet dedicat transferului de volume mari de date pentru inteligența artificială (AI ) .
„Cum introducem un nou Ethernet, care este compatibil cu totul, pentru a transforma fiecare centru de date într-un centru de date AI generativ?” a denumit Huang discursul său principal. „Pentru prima dată, aducem capabilitățile de calcul de înaltă performanță pe piața Ethernet.”
Spectrum-X, așa cum este cunoscută familia de produse Ethernet, este „primul ethernet de înaltă performanță din lume pentru AI”, potrivit Nvidia. O caracteristică cheie a tehnologiei este că „nu pierde pachete de date”, a declarat Gilad Shainer, vicepreședintele senior al rețelelor, într-un briefing media.
Prima iterație a lui Spectrum-X este Spectrum-4, a spus Nvidia, pe care l-a numit „primul switch Ethernet de 51 Tb/sec din lume construit special pentru rețelele AI”. Comutatorul funcționează împreună cu unitatea de procesare a datelor BlueField de la Nvidia, sau DPU, cipuri care se ocupă de preluarea datelor și de așteptarea la coadă și transceiver-urile Nvidia cu fibră optică. Switch-ul poate direcționa 128 de porturi de 400 de gigabit Ethernet sau 64 de porturi de 800 de giga, de la un capăt la altul, a spus compania.
Huang a prezentat cipul ethernet Spectrum-4 argintiu pe scenă, observând că este „gigantic”, constând din o sută de miliarde de tranzistori pe o matriță de 90 de milimetri pe 90 de milimetri, care este construită cu tehnologia de proces „4N” a Taiwan Semiconductor Manufacturing. Piesa rulează la 500 de wați, a spus Huang.
Cipul Nvidia are potențialul de a schimba piața de rețele ethernet. Marea majoritate a siliciului comutatorului este furnizată de producătorul de cipuri Broadcom. Aceste comutatoare sunt vândute producătorilor de echipamente de rețea Cisco Systems, Arista Networks, Extreme Networks, Juniper Networks și alții. Aceste companii și-au extins echipamentele pentru a gestiona mai bine traficul AI.
Familia Spectrum-X este construită pentru a aborda bifurcarea centrelor de date în două forme. O formă este ceea ce Huang a numit „fabrici AI”, care sunt facilități care costă sute de milioane de dolari pentru cele mai puternice GPU-uri care se bazează pe NVLink și Infiniband de la Nvidia, care sunt utilizate pentru instruirea AI, deservând un număr mic de sarcini de lucru foarte mari.
Celălalt tip de facilitate de centru de date este AI cloud, care este multi-locator, bazat pe ethernet și gestionează sute și sute de sarcini de lucru pentru clienți simultan și care se concentrează pe lucruri precum furnizarea de predicții consumatorilor de AI, care va fi deservit de Spectrum-X.
Spectrum-X, a spus Shainer, este capabil să „împrăștie traficul în rețea în cel mai bun mod”, folosind „un nou mecanism de control al congestiei”, care previne o grămadă de pachete care se pot întâmpla în memoria tampon a rețelei de routere.
„Folosim telemetrie avansată pentru a înțelege latențele din rețea pentru a identifica hotspot-urile înainte ca acestea să provoace ceva, pentru a le menține fără congestionare.”
Nvidia a spus în remarci pregătite că „cei mai buni hyperscalers din lume adoptă NVIDIA Spectrum-X, inclusiv inovatorii de top din industrie în cloud”.
Nvidia construiește un computer de test, a spus, la birourile sale din Israel, numit Israel-1, un „supercomputer AI generativ”, folosind servere Dell PowerEdge XE9680 compuse din GPU-uri H100 care rulează date pe switch-urile Spectrum-4.
Pe lângă anunțarea noii sale tehnologii Ethernet, prezentarea lui Huang a prezentat un nou model din seria de computere „DGX” a companiei pentru AI, DGX GH200, pe care compania îl prezintă drept „o nouă clasă de supercomputer AI cu memorie mare pentru modele AI generative gigant”.
GH200 este primul sistem livrat cu ceea ce compania numește „supercipul său”, placa Grace Hopper, care conține pe o singură placă de circuit un GPU Hopper și CPU Grace, un procesor bazat pe un set de instrucțiuni ARM care este menit să concureze cu procesoarele x86 de la Intel și Advanced Micro Devices.
Prima iterație a Grace Hopper, GH200, este „în plină producție”, a spus Huang. Nvidia a spus într-un comunicat de presă că „hiperscalerele globale și centrele de supercomputing din Europa și SUA se numără printre câțiva clienți care vor avea acces la sistemele alimentate cu GH200”.
DGX GH200 combină 256 dintre supercipuri, a spus Nvidia, pentru a obține un exaflop combinat – zece la puterea de 18 sau, un miliard, miliarde de operațiuni în virgulă mobilă pe secundă – utilizând 144 terabytes de memorie partajată. Computerul este de 500 de ori mai rapid decât mașina originală DGX A100 lansată în 2020, potrivit Nvidia.
De asemenea, prezentarea a dezvăluit MGX, o arhitectură de referință pentru producătorii de sisteme pentru a construi rapid și rentabil peste 100 de variante de server. Primii parteneri care au folosit specificațiile sunt ASRock Rack, ASUS, GIGABYTE, Pegatron, QCT și Supermicro, QCT și Supermicro urmând să fie primii pe piață cu sisteme, în august, a spus Nvidia.