Shop menü

A META BEJELENTETTE AZ MI BESZÉDGENERÁTORÁT, AMI TÚL JÓ LETT AHHOZ, HOGY KIADHASSA

A generatív MI egyik legérzékenyebb területe a beszédhangok létrehozása, és a Meta olyan fejlesztéssel rukkolt elő, amit inkább nem is publikál egyelőre.
Szécsi Dániel (DemonDani)
Szécsi Dániel (DemonDani)
A Meta bejelentette az MI beszédgenerátorát, ami túl jó lett ahhoz, hogy kiadhassa

Elképesztő sebességre kapcsoltak a nagy technológiai vállalatok a különböző mesterséges intelligencia fejlesztéseket tekintve. A Google és a Microsoft mellett a Meta számára is nagyon fontos ez a terület, noha a Metától egyelőre inkább csak elképzelések vázolását, terveket léthatunk. Most bejelentett egy új szolgáltatást, ami a cég elmondása alapján olyan jól sikerült, hogy inkább nem adják ki.

A Voicebox egy olyan generatív MI modell lett, ami segíthet hanganyagok manipulálásában, beszédhangok létrehozásában és minták kezelésében egyaránt.

A Meta folyamatosan dolgozik azon, hogy minél érdekesebb megoldásokkal álljon elő a generatív MI frontvonalon. A cég egyebek mellett egy olyan kísérleti projektet is visz, amiben már azon dolgoznak a mérnökök, hogy miként lehetne egy modellt számos különböző változó, így hang, kép, szöveg, de még akár hőmérsékleti vagy éppen mozgási adatok feldolgozásával létrehozni. Ennek a megvalósítása még biztosan messze van, de most itt a Voicebox, ami hangok létrehozásában állítólag kiemelkedően jó.

Galéria megnyitása

Úgy látja a vállalat, hogy a Voicebox egész egyszerűen olyan veszélyes jelenleg, hogy nem szeretné kiadni. Ez persze annak fényében nem biztos, hogy hihetőnek tűnik, hogy eddig a nagy IT cégeket igazából nem különösebben izgatta, mire lehet használni az MI technológiáikat, mindent kiadtak, amint valamilyen formában működött a dolog. Már a tesztelés egészen korai fázisába bevonták a cégeket, de a hivatalos álláspont szerint a Meta nem akar a Google és a Microsoft nyomdokába lépni.

„A generatív beszéd modelleknek számos izgalmas felhasználási területük van, de a visszaélések lehetséges kockázatai miatt a Voicebox modellt, valamint ennek a kódját egyelőre nem tesszük nyilvánosan elérhetővé” – emelte ki a Meta a friss fejlesztés kapcsán. A cég persze arra készül, hogy ezt idővel publikálja, de előbb valószínűleg a megfelelő biztonságról akar gondoskodni valamilyen módon.

A Voicebox révén bármilyen szöveget könnyen fel lehet olvastatni egy emberi hanggal. Képes arra is a rendszer, hogy különböző stílusokban, hangnemekben olvassa fel a kívánt szövegeket, megfelelően paraméterezve így nemcsak, hogy emberinek hangozhat, hanem kellően érzelmes is lesz majd a produkciója. Képes lesz arra is Voicebox, hogy egy felvételből eltávolítsanak vele nemkívánatos hanghatásokat. Egy elhaladó autó vagy repülő hangja, esetleg dudálás, mások beszéde vagy bármi egyéb is eltávolítható lesz így.

Galéria megnyitása

A látássárült személyek számára hasznos eszközöket is létre lehet majd hozni a Voicebox révén, hiszen megoldható ezzel például az, hogy minden eddiginél pontosabban és jobban olvasson fel egy mobil olyan szövegeket, amikre ráirányítják a kameráját. A bejövő szöveges üzeneteket is élethűen tudná felolvasni a felhasználóknak. A bevitt szöveget is át tudja fordítani más nyelvekre, és a végeredményt emberi hangon továbbítja, ezáltal a tolmács funkcióra is alkalmas lehet.

Hat nyelven beszél jelenlegi formájában a Voicebox, de a cél az, hogy ennél lényegesen szélesebb nyelvtámogatással tudjon szolgálni. Az angol mellett a francia, a spanyol, a német, a portugál és érdekes módon a lengyel a támogatott – magyar opció még nincs, de ami késik, nem múlik. A Meta elvileg nagyon változatos hanganyagokon edzett a szolgáltatását, ennek köszönhetően lesz képes igazán gazdag beszédstílust felvenni.

Elmondta a cég, hogy a Voicebox egy nagyon fontos lépésnek számít a saját berkein belül, akkor is, ha ezt nem fogják százmillióan használni a következő hónapokban. Ez hozzájárulhat az elkövetkezendő fejlesztésekhez, és a vállalat jövőbeli sikereihez.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére