A Google és az OpenAI között nagyon éles harc folyik a generatív mesterséges intelligencia területén. Általában a keresőóriás van lépéshátrányban, és most is arról számolhatunk be, hogy a riválisai egy korábbi újítására reagál. De azért elég szépen próbálja tartani a lépést, ennek köszönhetően futott most be a Gemini 2.0 Flash Thinking modell.
Az OpenAI egyik vezetője nemrég beszélt arról, hogy a számítási kapacitás folyamatos növelése már egyre kevésbé megoldás a nagy nyelvi modellek és az MI fejlődésére. El kell kezdeni a merőben új megközelítésekre nagyobb hangsúlyt helyezni, ha jelentősebb áttöréseket akarnak elérni. A szeptemberben bejelentett o1 már ebbe az irányba tett egy fontos lépést, és a Google is erre mozdult el a Gemini 2.0 Flash Thinking modellel.
Az o1 esetében az OpenAI már a tréningezés során egészen máshogy járt el, mint a korábbi GPT modellek fejlesztése során, és a legnagyobb erénye annak a modellnek az lett, hogy másként „gondolkodik”, mint a ChatGPT mögött dolgozó GPT-4o és egyebek. A Gemini 2.0 Flash Thinking kapcsán a Google most hasonló kijelentéseket tett. Ez az újdonság is akkor lesz képes megmutatni, hogy mit tud valójában, ha igazán komplex feladatokat kap. Erre utal a kísérleti modell nevében a „Thinking” vagyis gondolkodás szó.
A DeepMind egyik vezető kutatója, Jeff Dean beszélt az új fejlesztésről. Elmondása alapján a Gemini 2.0 Flash Thinking megalkotása során „arra lett kiképezve, hogy a gondolatait felhasználva legyen képes erőteljesen érvelni”. Ráadásul ez még gyors is, mivel az alapjaiban mégis csak a Gemini 2.0 Flash modellhez kapcsolódik, melyet a tempóra, hatékonyságra optimalizáltak a fejlesztés során. Egészen bonyolult kérdésekben is képes lesz releváns és pontos válaszokat adni a generatív MI az új kísérleti modellel.
Állítólag a Gemini 2.0 Flash Thinking erénye részben abból fakad, hogy mielőtt megoldással szolgál, a háttérben több lépésben „átgondolja” a válaszát a különböző problémák esetén. Elmondta Dean, hogy nem feltétlenül pont úgy tud érvelni az MI, mint ahogy azt egy ember tenné. Részleteire bontva tudja a rendszer a kérdéseket vizsgálni, és minden kisebb részletnél végig megy több kimeneti lehetőségen, majd ezek összegzéséből alkotja meg a legjobbnak vélt választ. És bár ez eléggé összetett feladat, mivel az alapmodell gyors és viszonylag kompakt, így képes a komplexitás ellenére is élhető tempót diktálni.
Azt is megtudhattuk, hogy multimodális működésre képes a Gemini 2.0 Flash Thinking. A kísérleti nyelvi modellnek lehet bevinni vizuális adatokat is a szöveges formátum alkalmazása mellett. Képes feldolgozni a munkája során például grafikonokat, diagramokat. Ezekről tájékozódva több információval szolgálhat, pontosabb válaszokat adhat, és a képi adatokon is „elgondolkodik” a feldolgozás során. Logan Kilpatrick, a Google termékfelelőse azt mondta, hogy a Gemini 2.0 Flash Thinking az első lépés a valóban jól érvelő MI irányába, ez mindenképpen nagy jelentőséggel bír.
A Gemini 2.0 kapcsán a Google több fontos bejelentéssel zárja az idei évet, de jövőre fog inkább kibontakozni ez a modell az alapján, hogy egyelőre még csak kísérleti kiadásokban, és csak a Gemini 2.0 Flash állt munkába. Mindenképpen érdekes lesz majd azt látni, hogy a nagyobb változatok mire lesznek képesek.