A Stable Diffusion az egyik legismertebb képgeneráló megoldás, a Midjourney és a Dall-E mellett ennek van a legnagyobb felhasználói tábora, éppen ezért mindenképpen érdemes odafigyelni arra, ha a fejlesztő újdonsággal rukkol elő. A Stability AI folyamatosan keresi annak a lehetőségét, hogy többet hozzon ki a generatív MI-ből, és ennek eredményeként született meg a Stable Doodle.
Egy olyan megoldásról beszélhetünk ezúttal, melynek keretében a szakemberek már nemcsak egyszerű szöveges leírások megadására nyújtanak lehetőséget, hanem arra is, hogy az emberek egy vázlatot rajzoljanak. A szkeccs egy plusz fogódzkodót biztosít a képgeneráló szolgáltatás számára. A vállalat „sketch-to-image” szolgáltatásként hivatkozik erre a korábbi „text-to-image” megoldások mintájára. Bár abból a szempontból ez megtévesztő, hogy itt is kell a szöveg.
A Stable Doodle nemcsak egy vázlat alapján hozza létre a képeket, hanem meg is kell írni mellé a megfelelő szöveges parancsot, kérést. Enélkül egész egyszerűen nem működik. Lehet a szöveges prompt akár egyetlen szó is, a többit pedig már rá lehet bízni a mesterséges intelligencia kreativitására, de nem érdemes. Tapasztalataink azt mutatják, hogy mindenképpen érdemes rendesen körülírni, hogy mit szeretne látni az ember, mert lehet a rajzolt vázlat akármilyen jó, nem igazán képes jelenleg arra az eszköz, hogy magától felismerje a szkeccsről, hogy mit kellene létrehoznia.
A ClipDrop felületén tette elérhetővé a Stable Doodle MI eszközt a Stability AI. Ez a saját tulajdonát képezi, miután márciusban felvásárolta az Init ML nevű fejlesztőt, amit egyébként korábbi Google alkalmazottak hoztak létre és vittek sikerre rövid idő alatt. A vállalat úgy véli, hogy a Stable Doodle egy olyan szolgáltatás lett, ami képes lesz a hétköznapi közönséget és a professzionális tartalomkészítőket, grafikusokat kiszolgálni.
„A Stable Doodle segítségével bárki, aki rendelkezik alapvető rajzkészségekkel és interneteléréssel, másodpercek alatt kiemelkedően jó, magas minőségű képeket hozhat létre.” – áll a Stability AI TechCrunch-nak kiadott közleményében.
Hozzá kell tenni, hogy ez önmagában már nem lenne nagy újítás, de a Stable Doodle az eddigieknél állítólag lényegesen jobb lesz abból a szempontból, hogy nagyon finoman lehet alakítani a szöveges megjegyzések révén. Sőt mi több, van még egy stílusválasztó része is, ahol ki lehet azt választani, hogy a létrehozni kívánt kép milyen uralkodó grafikai formajegyekkel, színvilággal rendelkezzen.
A felszín alatt a Stable Doodle egy Stable Diffusion modellt használ, a Stable Diffusion XL-t, ami társul ebben az esetben egy feltételekhez kötött vezérlési megoldással, amit egyébként egy partner hozott létre. A Tencent egyik saját kutatási és fejlesztési divíziója, az Applied Research Center (ARC) szállítja a kiegészítő modult. T2I-Adapter névre hallgat ez, és lehetővé teszi azt, hogy a Stable Diffusion XL képes legyen kezelni a kézzel rajzolt vázlatokat bemeneti információként.
Jelenleg mindenki szabadon ki tudja próbálni a Stable Doodle rendszerét, de egyébként ezt is előfizetéses modellben lehet egyébként alkalmazni. A Stability AI szeretné ezt minél több ember számára vonzóvá tenni. A cég a fejlesztései révén nagyon szépen növekedik, és rendszeresen kap komoly befektetési pénzeket, az értékét pedig már 1 milliárd dollár környékére becsülik.