OpenAI a anunțat marți o nouă funcționalitate majoră: utilizatorii ChatGPT pot acum genera imagini direct în interfața de chat, fără a mai comuta între modele sau platforme diferite. Noua capacitate vine în cadrul extinderii modelului GPT-4o, consolidând direcția companiei de a crea un model „omni”, capabil să gestioneze simultan sarcini textuale, vizuale și audio.
Sfârșitul DALL·E 3: GPT-4o preia complet funcționalitatea de generare a imaginilor
Această integrare marchează eliminarea modelului DALL·E 3 ca entitate separată. Lansat în septembrie 2023, DALL·E 3 a fost inițial apreciat pentru acuratețea sa în interpretarea comenzilor textuale, însă a fost rapid depășit de alternative precum MidJourney v6, Stable Diffusion 3.5 (SD 3.5), Flux sau Recraft.
GPT-4o, însă, aduce o abordare unificată: un singur model gestionează atât generarea de text, cât și crearea de imagini, folosindu-și baza de cunoștințe încorporată și contextul conversației pentru a produce vizualuri mai relevante și precise.
O demonstrație vizuală a capabilităților GPT-4o
Într-un videoclip demonstrativ, Sam Altman, CEO-ul OpenAI, a prezentat exemple variate ale noii funcționalități: pagini de manga explicând teoria relativității în engleză și mandarină, cărți de joc personalizate pe baza unor fotografii reale, monede comemorative combinate din imagini multiple, dar și o ilustrație detaliată bazată pe un prompt lung și complex.
Altman a recunoscut că procesul de generare a imaginilor este mai lent decât în versiunile anterioare, însă a subliniat că acest dezavantaj este compensat de un salt considerabil în calitatea vizuală. „Este mult mai lent, dar incredibil de mai bun. Considerăm că merită din plin așteptarea”, a declarat acesta.
O experiență creativă extinsă: generare de imagini mai inteligentă și mai contextuala
Noua versiune GPT-4o este capabilă să interpreteze corect cereri care includ text inserat în imagine, elemente compoziționale complexe sau transformarea unor imagini încărcate de utilizator. Capacitatea de a adapta rezultatul în funcție de contextul conversațional face din GPT-4o un instrument mai precis și versatil.
O lansare treptată și promisiuni pentru optimizare
Deși integrarea este deja anunțată oficial, distribuția către utilizatori se face gradual. În momentul publicării informației, accesul complet la noul model nu este încă disponibil pentru toți. Totuși, OpenAI promite că viteza de generare va fi îmbunătățită în timp, menținând în același timp standardul ridicat de calitate.
Prin această mișcare, OpenAI își consolidează poziția în competiția tot mai intensă a modelelor AI creative, oferind o experiență integrată și mai ușor de utilizat, fără a sacrifica performanța.