A Stable Diffusion a Stability AI 1,5 éve alkalmazott nagy nyelvi modellje, amit most a tervek szerint felvált a Stable Cascade névre hallgató újdonság. Egyelőre még csak előnézetben fut a Cascade, és amikor elkészül, egy sokkal erőteljesebb képgenerátorként teljesíthet, mint a jelenlegi megoldás.
Gyorsabb, nagyobb teljesítményű és a piac legjobb képeket generáló mesterséges intelligenciája lesz ez, a cég álláspontja szerint.
A Cascade hasonlóan működik majd a felhasználók szempontjából, mint a Stable Diffusion, csak mindent hatékonyabban fog végrehajtani. Ugyanúgy négy különböző képet hoz majd létre, és ugyanúgy képes lesz a felhasználónak legjobban tetsző alkotás felbontását megnövelni. De mindezt sokkal gördülékenyebben fogja megoldani, és pontosabban követi az instrukciókat, ezáltal a végeredmény pontosabb lesz, és hamarabb elérheti a felhasználó a kívánt eredményt.
Teljesen máshogy működik a Cascade, mint ahogy a Diffusion tette a dolgát. Itt három kisebb modell dolgozik össze azon, hogy a végeredmény jobb legyen. 3 állomása van a képgenerálásnak, Stage A, B és C. A Stage C az első, ez 1-3,6 milliárd paraméteres modell, és a beírt szöveges parancsokat tömöríti, átalakítja, a képet pedig a Stage B és A hozza létre. A Stage B csak 0,7-1,5 milliárd paraméteres.
Dinamikusan tud majd skálázódni a hardveres környezethez a Stable Cascade, ennek köszönhetően tudja majd minden helyzetben a legjobb hatékonyságot nyújtani. Szinte minden esetben jobb lesz a konkurenseinél a Stability AI új fejlesztése, és adott esetben az előnye az 5-szörös pontosságot és kétszeres gyorsaságot is meghaladhatja.
Képes lesz már a képet módosítani célirányosan és bővíteni is tudja majd a Stable Cascade. Ez azt jelenti, hogy lehet majd neki mondani, hogy egy-egy elemet távolítson el, és annak a helyék ki fogja tölteni, illetve olyan utasítás is adható neki, hogy legyen nagyobb a „vászon”, és ilyenkor kitölti a képet körbe oda illő grafikával. Ezeken felül nagyon érdekes az képes lesz élérzékeléssel a képek körvonalát felderíteni, és erre egy teljesen új képet felhúzni. Szóval a kép elrendezése marad a régi, csak másként kinéző tartalommal lesz megtöltve.
Fontos fejlesztés lesz a jobban teljesítő felbontás növelés, amit minden MI által létrehozott képen lehetőség lesz bevetni.
Itt a felbontást duplázni fogja a generatív mesterséges intelligencia, így egy 1024 x 1024 pixeles tartalomból 2048 x 2048 képpontost hoz létre. Ráadásul úgy dolgozik majd, hogy a részletesség növelésével párhuzamosan a kép tartalmát figyelembe véve, annak élethűségét is javítani fogja. Ez azt jelenti, hogy egy macskáról készült generatív MI képen a végén nagyon jól mutat majd a szőr. A felskálázás csak a Stage C modellre fog támaszkodni a Stable Cascade keretei között.
Arról nem esett szó, hogy a széles közönség számára mikor lesz kipróbálható a Stable Cascade, de bízunk abban, hogy minél előbb sor kerül erre. A Stability AI már előfizetési lehetőséget is nyújt, és valószínűleg először azok vehetik majd igénybe, akik fizetnek, illetve fejlesztőkkel már most is együtt dolgozik ezen a cég.