Az MI fejlesztésekben a DeepMind a Google legfontosabb részlege, az ott foglalkoztatott kutatók nagyon sok területet érintően dolgoznak a nyelvi modelleken, mesterséges intelligencián. Jelen esetben azt láthatjuk, hogy már robotoknak hoztak létre új modelleket. Ezeknek köszönhetően a robotika jelentősen gyorsabb fejlődésre kapcsolhat majd.
Az utóbbi időben a Google a Gemini fantázianévvel illeti a legtöbb MI fejlesztését, a legfőbb modellek is erre a névre hallgatnak. Nem meglepő módon a robotoknak készített megoldást is így keresztelte el. Két modell született ezen a területen, az egyik a Gemini Robotics, a másik pedig a Gemini Robotics-ER névre hallgat.
A Gemini Robotics a cég beszámolója szerint a Gemini 2.0 modellre alapoz, pontosabban viszont nem határozta meg a cég, hogy melyik variánsát alkalmazza itt ennek. Carolina Parada a Google DeepMind robotikai részlegének rangidős igazgatója elmondta, hogy a Gemini Robotics egy nagyon összetett, „vision-language-action” modell, és az a legfőbb feladata, hogy felismerje a teljesen új szituációkat is anélkül, hogy előre tréningezték volna.
A fejlesztők megoldották, hogy a Gemini Robotics modell révén a humanoid robotok képesek legyenek megérteni a környezetüket, meghozni döntéseket, majd ezeket a való világba átvinni különböző fizikai műveletekkel. Magas szintű multimodális működésre van szükség a Gemini Robotics esetében, erről tud gondoskodni a színfalak mögött a Gemini 2.0. Ennek köszönhetően Parada szerint a jövőben az eddigi kilátásokhoz képes egyszerűbben lehet majd a robotokat ügyesebbé, interaktívabbá, általánosabban használhatóvá tenni.
Carolina Parada örömmel emelte ki, hogy egy modellel tudják három fontos területen jelentősen segíteni a humanoid robotok fejlődését, ez nagyszerű eredmény a szegmensben.
Új helyzetekben, új környezetekben a Gemini Robotics révén sokkal jobban tudnak majd a robotok kapcsolatot teremteni az emberekkel, a környezetükkel. Azt is elmondta a DeepMind szakembere, hogy a modell segíteni fogja a robotok precíziós mozgásának fejlődését, így a „pepecselős” feladatokhoz is jobb érzékük lehet majd. Olyan dolgokra kell itt gondolni, mint a vizespalack kupakjának letekerése vagy a papírlap összehajtogatása. Persze ezekhez már az is kell, hogy a robotok kézmozgása jobb legyen hardveres szinten.
A DeepMind másik friss modellje, a Gemini Robotics-ER (embodied reasoning) egy rendkívül fejlett vizuális modell, ami a fejlesztő elmondása szerint már „képes megérteni a komplex és dinamikus világunkat”. Ennek köszönhetően a humanoid robot észleli, hogy a környezetében levő tárgyakkal mit, hogyan lehet megoldani. Például az asztalon elé letett ételhordozó dobozon felismeri, miként lehet azt kinyitni, mely részeket kell ehhez a művelethez megfogni, merre kell mozdítani. A modell összekapcsolható az alacsonyszintű vezérlőelemekkel, melyek a mozgások megvalósításáért felelnek.
A Gemini Robotics-ER kapcsán kiemelte Vikas Sindhwani, a DeepMind egy másik kutatója, hogy a biztonságra óriási figyelmet szenteltek a fejlesztés során. Beépítettek egy biztonsági réteget, és a modell működése során minden műveletnél külön átgondolja majd a rendszer azt, hogy az adott mozdulatok biztonságosan elvégezhetők-e. Amennyiben azt érzékeli a rendszer, hogy bármilyen formában kárt okozhat, abban az esetben a folyamat megáll.
Olyannyira komolyan veszi a DeepMind a biztonságot, hogy bejelentettek egy új tesztet és keretrendszert is, ami segíteni fogja a jövőben a biztonságos MI kutatásokat az ágazatban. Az elmúlt évben pedig ugyancsak ennek jegyében a cég megalkotta a „robotika alkotmányát”, ami olyan szabályokat ír le, amikhez hasonlókat Isaac Asimov fogalmazott meg.