Shop menü

MÁR MŰKÖDIK, ÉS FOKOZATOSAN ELÉRHETŐVÉ VÁLIK AZ ELSŐ VIDEÓGENERÁLÓ MI

A szövegből kép előállítása egyre több szolgáltatásnak megy, a Runway azonban növeli a tétet, videógenerálással gurítana nagyot.
Szécsi Dániel
Szécsi Dániel
Már működik, és fokozatosan elérhetővé válik az első videógeneráló MI

Már a Bing is képes arra, hogy képet hozzon létre egyszerű szöveges instrukciók alapján, és tényleg hosszasan lehetne sorolni azokat a generatív mesterséges intelligenciákat, amik képesek erre. De nincs megállás a fejlődésben, és rövidesen széles körben hozzáférhetővé válhat az első „text-to-video” MI is a felhasználók számára.

Nem mostanában fogják az internetet elárasztani a néhány mondatnyi szkriptből mesterséges intelligencia által létrehozott videók, de hatalmas lépés lesz ebbe az irányba, amikor a Runway nevű startup közkincsé teszi a modelljét ezen a fronton. A Runway neve néhányaknak már ismerős lehet erről a dinamikusan fejlődő területről, ugyanis korábban a Stable Diffusion fejlesztésében is szerepet vállalt a csapat. Ez az egyik legismertebb képgeneráló mesterséges intelligencia, és a Runway ott volt az indulásánál.

Az utóbbi időben a startup azon dolgozott, hogy egy webes alapokkal rendelkező videoszerkesztő szoftvert hozzon létre, ami többféle MI eszközt foglal magában. Képes volt megoldani azt, hogy egy feltöltött videóból eltüntette a hátteret, vagy felismert pózokat, és ahhoz igazított módosításokat eszközölt. A videószerkesztője mögött az egyszerűen csak Gen-1 névre hallgató, első generáció modell dolgozott, de már nem a Gen-1 van a fókuszban a Runway-nél, hanem a Gen-2.

A Gen-1-gyel rengeteg tapasztalatra és adatra tett szert a vállalkozás azzal kapcsolatosan, hogy a meglévő videókat hogyan tudja a mesterséges intelligencia manipulálni. 3D animációkat lehetett ezzel létrehozni egy meglévő felvétel átalakításával. Képes arra, hogy kicserélje egy kép teljes felületi, szemmel érzékelhető rétegét, kartondobozból csinálhat toronyházat egy videóban, vagy hordót egy WC papír gurigából, és így tovább. Szóval az átalakításban már nagyon jó volt, de kellett hozzá egy képi alap.

Ezzel szemben a Runway Gen-2 modellje már nem kér semmilyen alapot, lehet neki adni, de anélkül is képes tartalmat előállítani, hogy vizuális iránymutatást kapna. Elég neki szövegesen megírni, hogy milyen videót szeretne az ember, és a generatív MI létrehozza azt a mögötte álló modellre támaszkodva. Fontos, hogy már korlátozottan lehet jelentkezni a tesztelésre. Ahogy az iPonnak, úgy a Runway-nek is ban egy saját Discord csatornája, és azon lehet jelentkezni a szolgáltatás kipróbálására.

Kelsey Rondenet, a vállalkozás szóvivője azt nyilatkozta, hogy azon dolgoznak, hogy szélesebb körben is kipróbálhatóvá tegyék a Gen-2-t. Talán már nem kell sokáig várni arra, hogy videók szövegből generálását milliók próbálhassák ki. A szövegből születő filmek nagyon rövidek, mindössze pár másodperces képsorokat tud generálni jelenleg a szolgáltatás, és nagyon alacsony ezeknek a felbontása, nagyon távol állnak attól, hogy fotorealisztikusnak lehessen őket nevezni, ráadásul a képkockaszám is minimális.

A videókba a Runway minden esetben tesz vízjelet, amiből a felhasználók beazonosíthatják, hogy MI által generált tartalomról van szó. Ez nagyon fontos az esetleges visszaélések elkerülése érdekében. És persze remek reklám a startup számára, hiszen így szélesebb közönség ismerheti meg.

Érdekesség egyébként, hogy a generatív mesteréges intelligenciát használó szolgáltatások a jelek szerint kisebb startupok vállán is magasra tudnak emelkedni. Nem lenne meglepő, ha a jövőben ebből az irányból egy új nagy technológiai szereplő is felnőne. Az pedig borítékolható, hogy a következő időszakban a meglévő Big Tech szereplők több MI-vel foglalkozó startupot is bekebelezhetnek. A Runway-t például mindössze 45 fős csapat alkotja jelenleg.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére