Copilot Vision aduce inteligența artificială într-o nouă dimensiune: înțelege și reacționează la conținut vizual.
Copilot Vision nu doar generează text sau imagini pornind de la prompturi, ci poate „vedea” ce se întâmplă în paginile web și îți oferă explicații sau informații suplimentare. Deocamdată, funcționează în regim de previzualizare limitată în Microsoft Edge, care rulează pe Android, iOS, macOS și Windows.
L-am testat pe propria piele, iar experiența e unică pentru un browser web. Poate că Google Lens din Chrome seamănă la prima vedere, deoarece îți permite să selectezi un obiect din pagină și să cauți informații într-un panou lateral, dar nu are un mod conversațional. Copilot Vision, în schimb, acționează ca un partener de navigare, preluând atât conținutul vizual, cât și pe cel textual de pe site-uri și discutând pe larg despre el. Iată cum poți obține Copilot Vision și cum funcționează.
Cum se instalează Copilot Vision
Deocamdată, Copilot Vision este disponibil exclusiv abonaților Copilot Pro (20 USD pe lună) și necesită activare explicită. Microsoft nu a precizat dacă funcția va ajunge și la utilizatorii versiunii gratuite. La prima folosire, parcurgi un proces simplu de configurare. Pentru că Vision se bazează pe comandă vocală (în pofida numelui „Vision”), trebuie să permiți accesul la microfon. După ce apeși butonul Copilot Vision la finalul configurării, vocea AI, numită Copilot Voice, te va saluta. Poți alege între patru personalități vocale: Canyon, Grove, Meadow sau Wave. Am rămas la opțiunea implicită, Canyon.
Copilot Vision poate descrie și oferi detalii despre elementele vizibile pe site, dar poate și purta o conversație despre orice subiect. Iată o scurtă demonstrație a modului în care arată și sună:
Interfața Copilot Vision e total diferită de panoul lateral Copilot din Edge, care seamănă cu un chatbot obișnuit, tip ChatGPT. Vision apare ca o bară în partea de jos a paginii și se retrage într-un indicator minimalist, plasat central, atunci când nu e folosit.
Primele impresii cu Copilot Vision
Când am dat clic pe butonul de partajare a ecranului în Copilot Vision, marginile ferestrei browserului au căpătat o tentă ușor colorată (mai vizibilă în modul Luminos decât în modul Întunecat). De asemenea, icoana microfonului a devenit roșie, semn că e activă. Vocea prietenoasă Canyon m-a întâmpinat cu: „Salut, Michael, ce faci azi? Despre ce vrei să vorbim? Sau te surprind cu ceva distractiv?”
Microsoft afișează câteva exemple de întrebări sau comenzi. De pildă, pe o pagină cu patru căței simpatici, Copilot Vision sugerează întrebarea „Spune-mi mai multe despre aceste rase de câini.” Apoi demonstrează că poate rezuma articole sau recunoaște și compara fotografii din mai multe orașe, întrebând, de exemplu, „Care dintre aceste orașe are clădirile cele mai vechi?” În cele din urmă, te invită să intri pe site-uri precum Amazon, Target, Tripadvisor sau Wikipedia pentru a începe explorarea.
La un moment dat, mi-a sugerat GeoGuessr, un joc cu un soi de Cupă Mondială dedicată. Am spus că nu mă interesează subiectul fotbalului, iar Copilot m-a asigurat că nu are nicio legătură cu Cupa Mondială de fotbal.
Dacă nu vorbești cu el o vreme, Copilot Vision se dezactivează singur, afișând mesajul „Scuze, am ațipit o clipă! Reîncearcă să te reconectezi.” E util, deoarece nu vrei să rămână activ dacă-l lași din neatenție. Când i-am cerut să trimit feedback dezvoltatorilor, mi-a răspuns: „Feedback-ul tău va fi transmis echipei mele de dezvoltare.” Dacă îl întrerupi în timp ce vorbește, își încheie politicos discursul.
Cum funcționează efectiv Copilot Vision
Interesant este că, inițial, Copilot Vision mi-a spus că „vede” doar ce este afișat pe ecran, nu și zonele ascunse ale paginii. Totuși, pe un site de sănătate, a rezumat și conținutul care era mai jos în pagină, dincolo de ceea ce puteam vedea. Probabil a folosit interfața Copilot standard, care poate accesa întregul text al site-ului.
Când am mers în OneDrive la fotografiile mele personale, mi-a spus că nu le poate vedea. A explicat că „nu pot vizualiza fotografii pe site-uri private.” În schimb, dacă am deschis o imagine publică de pe Flickr, a descris-o perfect, recunoscând detalii despre peisajul și persoanele din fotografie. La fel, a recunoscut o imagine foarte distorsionată cu un păianjen, pe care nici eu nu-mi dădeam seama ce reprezenta. Nu a funcționat însă cu Instagram sau alte rețele de socializare.
Există un buton de dezactivare a microfonului, dar nu și unul pentru a opri instant vorbirea AI atunci când devine prea lungă. Soluția este să-i spui „Quiet!” (Taci!), iar Copilot Vision se oprește din vorbit și din vizualizarea ecranului. Într-un test, a rămas activ o singură dată după ce îi spusesem să nu mai urmărească, însă am rezolvat rapid închizându-l din interfața afișată în partea de jos.
Dacă închizi Copilot Vision, rămâne un mic câmp de text prin care poți interacționa cu Copilot-ul standard, iar răspunsurile sunt afișate în panoul lateral Edge. Poți ascunde și acest câmp, iar în partea de jos a browserului rămâne doar o bară subțire, pe care o poți redeschide oricând. Chiar și în modul ecran complet, bara rămâne acolo. Pentru a reactiva Copilot Vision, trebuie să redeschizi câmpul text și să apeși pe butonul de partajare a ecranului. Câtă vreme bara e minimizată, Vision nu „vede” ce se află pe ecran.
Gaming și Copilot Vision
Nu te aștepta la un partener de joc: Copilot Vision poate rămâne deschis când joci pe web, dar doar ca să-ți dea sfaturi despre ce se întâmplă pe ecran, nu să joace el însuși. Pe un joc precum Mr. Mine de pe CrazyGames.com, Copilot mi-a spus că știe regulile și cum se obține scor în joc, de parcă le-a citit direct din pagină. Când l-am întrebat de unde știe acest joc mai puțin cunoscut, mi-a răspuns: „Da, am un talent pentru jocuri.”
Limite și restricții
Am întrebat ce se întâmplă dacă aș accesa un site pornografic, iar Copilot Vision mi-a spus că „din motive de siguranță și confidențialitate, nu stochez sau partajez date personale.” În documentația Microsoft, se menționează că Vision nu folosește informațiile pentru antrenarea AI și nici nu vede date confidențiale, precum credențiale bancare. Nu funcționează pe site-uri private sau cu plată (cu acces în spatele unui login). Pe site-uri bancare Copilot Vision s-a dezactivat automat și nu s-a putut reconecta până când am revenit la un site public.
Copilot Vision vede doar conținutul din tabul de browser unde este pornit, nu poate deschide pagini noi și nu detectează poziția cursorului pe ecran. De asemenea, nu „citește” conținut video, decât sub formă de fotograme statice, și nu interpretează sunetele de pe paginile web.
Din păcate, Vision nu-ți poate oferi o transcriere scrisă a conversațiilor. Dacă vrei să revezi răspunsurile sale, trebuie să folosești Copilot-ul standard (fie în bara laterală Edge, fie într-o aplicație separată).
Este Copilot Vision util?
Copilot Vision se descurcă excelent să descrie conținutul paginii și să ofere un context suplimentar verbal. Pare un prieten neutru, care nu își exprimă propriile opinii, ceea ce unii utilizatori ar putea aprecia. De asemenea, are multiple filtre și restricții concepute pentru a proteja intimitatea și securitatea.
Totuși, nu e clar de ce Microsoft nu a inclus această funcție direct în Copilot-ul din bara laterală. Discuțiile se desfășoară asemănător, diferența principală fiind că Vision poate „vedea” conținutul paginii. Sperăm că Microsoft va extinde funcțiile Copilot Vision în afara browserului Edge și că vom vedea mai multe îmbunătățiri care să-l facă și mai practic.