GPT-4 își pierde poziția de "cel mai bun" LLM

Se pare că toți cei care sunt cineva și-au aruncat pălăriile și banii în dezvoltarea unor modele lingvistice mari. Această explozie a inteligenței artificiale a determinat necesitatea de a le compara. Astfel, cercetătorii de la UC Berkley, UC San Diego și Carnegie Mellon University au format Organizația Large Language Systems (LMSYS Org sau doar LMSYS).

Evaluarea modelelor lingvistice de mari dimensiuni și a chatbot-urilor care le utilizează este dificilă. În afară de numărarea cazurilor de greșeli factuale, greșeli gramaticale sau viteza de procesare, nu există parametri obiectivi acceptați la nivel mondial. Deocamdată, suntem blocați cu măsurători subiective.

Atsfel a apărut LMSYS’s Chatbot Arena, un clasament al mulțimii pentru clasificarea LLM-urilor „în sălbăticie”. Acesta folosește sistemul de evaluare Elo, care este utilizat pe scară largă pentru a clasifica jucătorii în jocuri cu sumă zero, cum ar fi șahul. Doi LLM concurează în meciuri aleatorii față în față, iar oamenii judecă în orb ce robot preferă în funcție de performanța acestuia.

De la lansarea de anul trecut, GPT-4 a ocupat poziția numărul unu în Chatbot Arena. A devenit chiar standardul de aur, sistemele cu cel mai înalt grad de clasificare fiind descrise ca modele de „clasa GPT-4”. Cu toate acestea, LLM de la OpenAI a fost scos de pe primul loc ieri, când Claude 3 Opus de la Anthropic a învins GPT-4 cu o diferență mică, 1253 la 1251. Bătaia a fost atât de strânsă, încât marja de eroare plasează Claude 3 și GPT-4 la egalitate în trei pentru primul loc, cu o altă construcție de previzualizare a GPT-4.

- Publicitate -

Poate chiar mai impresionantă este intrarea lui Claude 3 Haiku în top 10. Haiku este modelul de „dimensiune locală” al Anthropic, comparabil cu Gemini Nano de la Google. Este exponențial mai mic decât Opus, care are trilioane de parametri, ceea ce îl face mult mai rapid prin comparație. Potrivit LMSYS, clasarea pe locul șapte în clasament clasează Haiku în clasa GPT-4.

Probabil că Anthropic nu va mai deține locul întâi pentru mult timp. Săptămâna trecută, persoane din interiorul OpenAI au dezvăluit că GPT-5 este aproape gata pentru debutul public și ar trebui să fie lansat „la mijlocul anului”. Noul model LLM este cu mult mai bun decât GPT-4. Sursele spun că acesta folosește mai mulți „agenți AI externi” pentru a îndeplini sarcini specifice, ceea ce înseamnă că ar trebui să fie capabil să rezolve în mod fiabil probleme complexe mult mai rapid.