Új szintre ért a Google a robotika és az MI összekapcsolásában

ÚJ SZINTRE ÉRT A GOOGLE A ROBOTIKA ÉS AZ MI ÖSSZEKAPCSOLÁSÁBAN

A vállalat a tréningezést lényegesen leegyszerűsítené olyan módszerekkel, amik az új generatív MI szolgáltatások mögött állnak, és az új rendszere már nagyon jól teljesít.

Szécsi Dániel (DemonDani)

Rengeteg izgalmas projekten dolgozik a Google, és egyebek mellett a robotika terén is aktív kutató és fejlesztő munkát végez már hosszú évek óta. A vállalat most azt jelentette be, hogy elkészült az Robotic Transformer 2 névre hallgató rendszere, ami így egészen biztos, hogy a jövőben nagyon fontos szerephez fog jutni.

A Robotic Transformer 2-re a keresőóriás csak röviden RT-2-ként hivatkozik, és ez lényegében egy olyan nyelvi modell, ami a gépi látást használva képes tanulni, méghozzá nagy számítási kapacitást kihasználva. A kutatók pedig azon dolgoznak, hogy a VLM-ek képességeit ötvözzék a robotok által nyújtott lehetőségekkel, ami nem egyszerű feladat, de az eredmény egészen biztos, hogy áttörést hozhat a robotok programozása terén.

A vizuális nyelvi modellek (VLM) betanítása ugyanúgy megy, mint az egyéb modelleké, csak éppenséggel főleg vizuális adatokat használnak fel ehhez. Így a hatékonysága is annyira kiemelkedő lehet, mint például a generatív MI-t használó képkészítő vagy különböző kérdéseket megválaszoló szolgáltatásoknak. De ez önmagában a robotoknál nem elég, a szakembereknek meg kell oldania, hogy a robotok képességeivel kapcsolatos információkat is bevigyék a rendszerbe, és ezeket kombinálják.

Most még a robotok betanítása borzasztóan hosszadalmas, és szinte minden mozdulatukat pontosan le kell programozni. Ezért szokta kritika érni például a Boston Dynamics bemutatóanyagjait is, mert azok nagyon aprólékosan meg vannak konfigurálva, és a legkisebb környezeti eltérés azonnal képes a gépeket kibillenteni. A jövőben viszont az olyan megoldásoknak, mint például az RT-2, a robotok már képesek lehetnek „ránézésre” eldönteni a kamerákat használva, hogy meg tudják-e fogni az adott tárgyat.

A tervek szerint a robotok az RT-2 által képesek lesznek arra is, hogy megkülönböztessék a tárgyakat egymás mellett. Lehet majd olyan utasítást adni a robotnak, hogy a kanalat adja oda a fiókból, és a fiókban képes lesz a kanalat felismerni, nem fog az embernek villát nyújtani. Sőt mi több, ennél is komplexebb működésre lehet képes a szerkezet. Elég lehet neki mondani, hogy adjon egy eszközt a hús feldarabolásához, és tudja majd, hogy melyik késre van szükség.

Ez pedig még mindig nem minden, a Google elmondása szerint ugyanis a robot képes lehet majd arra, hogy amikor az ember kimerült, akkor ad neki egy energiaitalt. Igazából a lehetőségek itt határtalanok. A Google egy robotkarral mutatta be, mire képes az RT-2, és igazából bármit találtak ki neki, többnyire jól megoldotta – azért volt, mikor hibázott. Zászlókat tettek le az asztalra egy banánnal, és megmondták, melyik ország zászlajára tegye a gyümölcsöt, kiszórtak neki több játékot, és parancsba adták, melyiket vegye fel, és még teljesen egyforma méretű labdák közül is ki tudta választani, hogy melyik milyen sporthoz köthető.

Persze ez most még csak egy teszt volt, de a kialakuló képességértékelések sikerességi mutatója nagyon jó, mikor nem előre lepróbált közegben kell megoldania a dolgokat. A Google elmondta, hogy a korábbi modellekhez képest az RT-2 már szinte minden körülmények között 50% feletti sikerrel jár, szimbólumok felismerésében pedig 80%-os bizonyossággal dolgozik. Az RT-1 még a 20%-ot is csak alulról karcolta legtöbb helyzetben, az azt megelőző VC1 pedig még egy aprólékosan előre tanított megoldás volt, és legjobb esetben is 10% körüli sikerarány koronázta a működését.

A robotikai és vizuális adatokkal párhuzamosan tanítható rendszerek révén a robotok a jövőben sokkal „ösztönösebben” cselekedhetnek majd. És a képességeik tudatában akár egészen rövid idő alatt sok funkcióval lehet majd felruházni a gépeket az RT-2 révén. Hiszen itt egy hatalmas adatcsomag lesz elérhető. Elképzelhető, hogy eljutunk majd oda, hogy a robotok már a hibáikra is képesek lesznek jól reagálni, például amikor egy poharat nem jól fognak meg, és kiborítják a vizet, akkor azonnal reagálhatnak, és törlőrongy után nézhetnek, hogy felitassák a kifolyt nedvességet.

Már többször beszélt arról a Google, hogy a robotika és a mesterséges intelligencia egészen biztos, hogy egységet alkot majd a jövőben, csak az a kérdés, hogy ki tudja majd ezt a legjobban elsőként megoldani. A vállalat mindenképpen szeretne az élen járni ebben is, ezért például a PaLM modellet is alkalmazza az RT-2-nél.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

ÚJ SZINTRE ÉRT A GOOGLE A ROBOTIKA ÉS AZ MI ÖSSZEKAPCSOLÁSÁBAN

TOP 5 AZ IPON-ON