Elképesztő sebességre kapcsoltak a nagy technológiai vállalatok a különböző mesterséges intelligencia fejlesztéseket tekintve. A Google és a Microsoft mellett a Meta számára is nagyon fontos ez a terület, noha a Metától egyelőre inkább csak elképzelések vázolását, terveket léthatunk. Most bejelentett egy új szolgáltatást, ami a cég elmondása alapján olyan jól sikerült, hogy inkább nem adják ki.
A Voicebox egy olyan generatív MI modell lett, ami segíthet hanganyagok manipulálásában, beszédhangok létrehozásában és minták kezelésében egyaránt.
A Meta folyamatosan dolgozik azon, hogy minél érdekesebb megoldásokkal álljon elő a generatív MI frontvonalon. A cég egyebek mellett egy olyan kísérleti projektet is visz, amiben már azon dolgoznak a mérnökök, hogy miként lehetne egy modellt számos különböző változó, így hang, kép, szöveg, de még akár hőmérsékleti vagy éppen mozgási adatok feldolgozásával létrehozni. Ennek a megvalósítása még biztosan messze van, de most itt a Voicebox, ami hangok létrehozásában állítólag kiemelkedően jó.
Úgy látja a vállalat, hogy a Voicebox egész egyszerűen olyan veszélyes jelenleg, hogy nem szeretné kiadni. Ez persze annak fényében nem biztos, hogy hihetőnek tűnik, hogy eddig a nagy IT cégeket igazából nem különösebben izgatta, mire lehet használni az MI technológiáikat, mindent kiadtak, amint valamilyen formában működött a dolog. Már a tesztelés egészen korai fázisába bevonták a cégeket, de a hivatalos álláspont szerint a Meta nem akar a Google és a Microsoft nyomdokába lépni.
„A generatív beszéd modelleknek számos izgalmas felhasználási területük van, de a visszaélések lehetséges kockázatai miatt a Voicebox modellt, valamint ennek a kódját egyelőre nem tesszük nyilvánosan elérhetővé” – emelte ki a Meta a friss fejlesztés kapcsán. A cég persze arra készül, hogy ezt idővel publikálja, de előbb valószínűleg a megfelelő biztonságról akar gondoskodni valamilyen módon.
A Voicebox révén bármilyen szöveget könnyen fel lehet olvastatni egy emberi hanggal. Képes arra is a rendszer, hogy különböző stílusokban, hangnemekben olvassa fel a kívánt szövegeket, megfelelően paraméterezve így nemcsak, hogy emberinek hangozhat, hanem kellően érzelmes is lesz majd a produkciója. Képes lesz arra is Voicebox, hogy egy felvételből eltávolítsanak vele nemkívánatos hanghatásokat. Egy elhaladó autó vagy repülő hangja, esetleg dudálás, mások beszéde vagy bármi egyéb is eltávolítható lesz így.
A látássárült személyek számára hasznos eszközöket is létre lehet majd hozni a Voicebox révén, hiszen megoldható ezzel például az, hogy minden eddiginél pontosabban és jobban olvasson fel egy mobil olyan szövegeket, amikre ráirányítják a kameráját. A bejövő szöveges üzeneteket is élethűen tudná felolvasni a felhasználóknak. A bevitt szöveget is át tudja fordítani más nyelvekre, és a végeredményt emberi hangon továbbítja, ezáltal a tolmács funkcióra is alkalmas lehet.
Hat nyelven beszél jelenlegi formájában a Voicebox, de a cél az, hogy ennél lényegesen szélesebb nyelvtámogatással tudjon szolgálni. Az angol mellett a francia, a spanyol, a német, a portugál és érdekes módon a lengyel a támogatott – magyar opció még nincs, de ami késik, nem múlik. A Meta elvileg nagyon változatos hanganyagokon edzett a szolgáltatását, ennek köszönhetően lesz képes igazán gazdag beszédstílust felvenni.
Elmondta a cég, hogy a Voicebox egy nagyon fontos lépésnek számít a saját berkein belül, akkor is, ha ezt nem fogják százmillióan használni a következő hónapokban. Ez hozzájárulhat az elkövetkezendő fejlesztésekhez, és a vállalat jövőbeli sikereihez.