Anul 2024 se anunță a fi un an important pentru intersecția dintre inteligența artificială generativă și modelele fundamentale mari și robotică. Există mult entuziasm în jurul potențialului diverselor aplicații, de la învățarea la designul de produse. Cercetătorii în robotică de la DeepMind, divizia Google, sunt una dintre echipele care explorează potențialul acestui domeniu.
Într-o postare pe blog, echipa subliniază cercetările în desfășurare destinate oferirii roboților unei înțelegeri mai bune a ceea ce dorim precis de la ei, oamenii.
Tradițional, roboții s-au concentrat pe realizarea unei singure sarcini repetate pe parcursul vieții lor. Roboții cu o singură destinație sunt de obicei foarte buni la acea singură activitate, dar chiar și ei întâmpină dificultăți atunci când schimbările sau erorile sunt introduse în mod neintenționat în desfășurare.
AutoRT, anunțat recent, este proiectat pentru a exploata modele fundamentale mari, în scopuri variate. Într-un exemplu standard dat de echipa DeepMind, sistemul începe prin a valorifica un Model de Limbaj Vizual (VLM) pentru o mai bună conștientizare a situației. AutoRT este capabil să gestioneze o flotă de roboți care lucrează în tandem și sunt echipați cu camere pentru a obține o imagine a mediului și a obiectelor din el.
Un model de limbaj mare sugerează sarcini care pot fi îndeplinite de hardware, inclusiv efectul său final. Modelele de limbaj mari sunt considerate de mulți drept cheia pentru deblocarea roboților care înțeleg eficient comenzile limbajului natural, reducând necesitatea programării rigide a abilităților.
Sistemul a fost deja testat pe parcursul ultimelor șapte luni sau mai mult. AutoRT este capabil să coordoneze până la 20 de roboți simultan și un total de 52 de dispozitive diferite. În total, DeepMind a colectat aproximativ 77.000 de încercări, inclusiv peste 6.000 de sarcini.
De asemenea, un alt lucru nou de la echipă este RT-Trajectory, care utilizează intrarea video pentru învățarea robotică. Multe echipe explorează utilizarea videoclipurilor de pe YouTube ca metodă pentru a antrena roboții la scară largă, dar RT-Trajectory adaugă un strat interesant, suprapunând un desen bidimensional al brațului în acțiune peste videoclip.
Echipa remarcă că „aceste traiectorii, sub forma imaginilor RGB, oferă indicii vizuale practice la nivel înalt pentru model în timp ce învață politicile sale de control ale roboților.”
DeepMind afirmă că antrenamentul a avut o rată de succes de două ori mai mare decât antrenamentul RT-2, de 63% comparativ cu 29%, testând 41 de sarcini.
„RT-Trajectory utilizează informațiile bogate despre mișcare ale roboților care sunt prezente în toate seturile de date cu roboți, dar sub-utilizate în prezent”, remarcă echipa. „RT-Trajectory reprezintă nu numai un alt pas pe drumul construirii de roboți capabili să se miște cu acuratețe eficientă în situații noi, ci și deblocarea cunoștințelor din seturile de date existente.”