Áprilisban jelentette be a Google, hogy arra a döntésre jutott, hogy a DeepMind és a Brain csapatokat egyesíti annak érdekében, hogy a jövőben hatékonyabban menjenek a mesterséges intelligenciával kapcsolatos fejlesztési projektek. Most pedig már arról szólnak a hírek, hogy befutott a Google DeepMind új részleg első megoldása.
Jön a Flamingo, ami a YouTube mögött fog szolgálatot teljesíteni, a Shorts videóknak generál majd részletes és pontos leírásokat.
A YouTube Shorts a TikTok nyomán született meg. Ezeknek a rövid videóknak sokszor nincs leírása, ami alapján keresni lehetne őket, nehezen lehet rájuk akadni a keresési kifejezések révén, mivel a rendszernek nem sok fogódzkodója van. Az algoritmus a népszerű tartalmakat már hatékonyan tudja terjeszteni, de összességében elég problémás ebből a szempontból a Short. Erre jelenthet majd hatékony megoldást a Flamingo.
Egy VLM-ről, vagyis vizuális nyelvi modellről van szó, ami képes lesz szöveges leírást létrehozni pontosan az alapján, amit lát. A generatív MI ebben az esetben arra lesz használható, hogy létrehoz majd egy leírást, amit az emberek nem látnak, a YouTube rendszere azonban igen. Ennek köszönhetően lehet majd könnyebben felfedezni egy-egy adott témával foglalkozó Shorts videót akkor is, ha nem adtak meg hozzá leírást.
A Flamingo névre hallgató fejlesztés a metaadatban fogja tárolni azokat az információkat, amiket létrehoz, ezt tehát nem lehet átírni vagy módosítani. Fontos, hogy a VLM-et nem lehet majd megtéveszteni sem, legalábbis nem olyan módon, hogy direkt nagy népszerűség elérésére legyen alkalmas. Pontosan azt fogja leírni, amit a videóban „lát”. Ha egy labdán egyensúlyozó kutya van a felvételen, akkor a videó színfalak mögött létrehozott leírásában is az lesz, hogy egy kutya egyensúlyozik egy labdán.
A fejlesztés révén a YouTube nemcsak, hogy hatékonyabban kereshetővé teszi majd a Short videókat, hanem a felvételek kategorizálásban is jelentős segítségnek bizonyulhat majd ez. Az algoritmus a Flamingo által létrehozott szöveges is figyelembe véve tudja majd egymás után fűzni a felvételeket. Ezáltal színesebb és gazdagabb felhasználói élményben lehet majd része az embereknek, hiszen több videót láthatnak, és azok szorosabban kapcsolódhatnak majd egymáshoz.
Todd Sherman, a YouTube Shorts termékmenedzsere elmondta, hogy a rossz kereshetőség miatt nem is igazán jellemző az, hogy az emberek keresési eredményekből megnyitott Short videókat néznek. Abban bíznak a platformnál, hogy a generatív MI által létrehozott leírások révén az emberek látni fogják, hogy a keresővel relevánsabb Short videókat találhatnak, és így szép lassan rászoknak majd ezeknek a célirányos keresésére.
„A Flamingo modell – a képesség, hogy megérti ezeket a videókat és leíró szöveget ad hozzájuk – nagyon értékes segítség a rendszereink számára, hiszen így lényegesen több metaadat áll majd rendelkezésre” – mondja Sherman. „Ez a fejlesztés lehetővé teszi a rendszer számára, hogy hatékonyabban megértse a videókat, így a felhasználók számára a keresések alkalmával könnyebben tudja szállítani a megfelelő felvételeket.”
A szakember külön kiemelte, hogy nem is szerepel a tervek között az, hogy ehhez hozzáférést adjanak a felhasználóknak, nem nyúlhatnak majd ahhoz a leíráshoz, amit a Flamingo hoz létre, mivel ezáltal lesz az biztosítható, hogy pontos lesz az extra metaadat. Ettől függetlenül persze továbbra is lehet majd manuálisan létrehozni leírásokat, és ezt is figyelembe fogja venni a rendszer. Arról viszont nem szólt a fáma, hogy ezeket egyformán vagy különböző módokon fogja súlyozni az algoritmus, pedig ez a része a történetnek még mindenképpen érdekes lenne.