Az elmúlt hónapokban a mesterséges intelligencia brutális tempóval kezdett terjedni, és a fejlődése is új szintre lépett. Hirtelen elkezdték önteni a pénzt ebbe a szegmensbe, és a lehetőségek felfedezése a felhasználók bevonásával ugyancsak felgyorsult. Azokat, akik az elmúlt években, évtizedekben ezen dolgoztak, most rendre az aggodalmuknak adnak hangot, a techcégek viszont nem lassítanak.
A VidCon keretében a YouTube elhintette, hogy a vállalat már azon dolgozik, hogy a videósoknak egyszerű lehetőséget biztosítson arra, hogy a felvételeiket más nyelvekre szinkronizálva is meg tudják osztani. Ebben pedig a mesterséges intelligencia nyújthat majd óriási segítséget a tartalomgyártók számára.
A Google által üzemeltetett Area 120 inkubátorban létrejött Aloud csapat MI révén adna különböző nyelvű hangokat a videókhoz.
Igazából már olyannyira nem távoli ez a fejlesztés, hogy a tesztelése már folyamatban van, és működik is a dolog. Arról azonban az eddig látottak alapján még azért nincs szó, hogy ez annyira hiteles és profi eredményt biztosítana, mint a filmeknél megszokott szinkronhangok. De a 80-as évekbeli alámondásos szinkronokon már most túlmutat.
Jelenleg a rendszer úgy működik, hogy az eszköz a videóból készít egy leíratot, amit már eleve mesterséges intelligencia készít el, és a rendszer minden elhangzott szöveget lejegyez. Majd ezt a vállalat egy másik szolgáltatása elkészíti lefordított változatban. És ezt felhasználva hozza létre megint egy másik rendszer a hangot, de mindezt teljesen harmóniában oldják majd meg a különböző szolgáltatások.
A szövegleirat és a fordítás helyenként még biztosan lehet hibás, éppen ezért a tesztelés alatt álló szolgáltatás lehetőséget biztosít a felhasználóknak arra, hogy átnézzék és a szükséges dolgokat kijavítsák benne. Mesterségesen létrehozott hangokat jelenleg olyan nyelveken nyújt a fejlesztés, mint az indonéz, hindi, portugál, spanyol és persze az angol. De a nyelvtámogatás már folyamatosan bővüli fog – az Aloud fejlesztése nélkül is, hiszen ezeken külön is dolgozik a YouTube.
Az elhangzottak alapján már több száz készítő bevonásával dolgozik ezen a fejlesztésen a csapat. A Google egyébként a YouTube esetében egy ideje már egyébként is egy új fordítót használ, ami mesterséges intelligenciára támaszkodik. Az univerzális beszéd modell (USM) már hónapokkal ezelőtt terjedni kezdett a YouTube színfalai mögött, és rengeteg pozitív visszajelzésről lehet már hallani ennek kapcsán. Szóval jó irányba mozog a Google a jelek szerint.
Az Amoeba Sisters csatornán már meg lehet hallgatni, hogy a fejlesztés alatt álló szinkronizálási opció jelenleg milyen eredményt produkál. Arról most azért még nincs szó, hogy teljesen természetesnek hangozna a szinkronhang, de igazából még alig néhány hónapja érhetőek el a technológia alapjai a szélesebb közönség számára. Az elkövetkezendő években ez biztosan tovább fog fejlődni, az pedig, hogy a YouTube már most kiemelte ezt a projektet, minden bizonnyal azt is jelenti, hogy megad majd minden szükséges támogatást a készítőknek.
A jövőben akár az is megoldható lehet, hogy a felhasználók eredeti hangját használva szólaljon meg az adott videó egy másik nyelven. Igazából a mostani projekttől ez már nem is áll annyira távol, a következő lépés az, hogy a felhasználó hangját az MI képes legyen klónozni. Ezt pedig a legmodernebb eljárások már akár annyi hanganyagból is képesek lehetnek megoldani, mint ami az eredeti videó alatt elhangzik. De egyébként a youtubereknél a hanganyagok beszerzése nem egy olyan dolog, ami túl nagy fejfájást okozna, hiszen több ezer órányi videóból lehet hangmintákat összeszedni – csak legyen elég számítási kapacitás az ilyen feladatok megoldására.