1. oldal
A gépi tolmácsolás ötlete, mint sok más dolog, először a tudományos-fantasztikus művekben bukkant fel. A Star Trek univerzális fordítója például a közlő agyhullámaiból olvassa ki a jelentést, amit aztán a kívánt nyelven közöl is használójával. Számos olyan fejlesztéssel találkozhattunk az elmúlt évtizedekben, amelynek alapjait valaha egy sci-fi író ötlötte ki, és egyre-másra hallunk is különféle tolmácsprogramokról, amelyek a bábeli zűrzavar felszámolásával kecsegtetnek. Érdekes kérdés tehát, hogy vajon mennyit kell még várni az iskolai nyelvtanulást fölöslegessé tevő, automatizált, szimultán fordítógépek megszületéséig? Feltéve persze, hogy lehetséges egyáltalán ilyet alkotni.
Az elmúlt hónapokban több olyan bejelentés is történt, amely alapján úgy tűnik, hogy ez a cél egyszerre van közel is, meg nem is. Abban biztosak lehetünk, hogy a tökéletes tolmácsgép létrehozására még egy jó darabig várni kell, de az is igen valószínű, hogy pár éven belül a mainál jóval könnyebben boldogulunk majd számunkra ismeretlen nyelvekkel találkozva. Egy londoni feltaláló, Will Powell nyáron mutatta be saját rendszerét, amely angol és spanyol beszélgető felek közt fordít oda-vissza, amennyiben a résztvevők türelmesek és lassan, artikuláltan, lehetőleg felváltva beszélnek. Powell készüléke nem beszéddé, hanem felirattá fordít, amely a felek által viselt, mobilra csatlakoztatott speciális szemüvegen vetítődik ki, tehát olyan, mintha egy feliratos filmet néznének a felhasználók.
Novemberben Japán legnagyobb mobilszolgáltatója, az NTT DoCoMo mutatta be tolmácsszolgáltatását, amely telefonhívásokat fordít japánról angolra, kínaira vagy koreaira és vissza. A felváltva beszélő felek mondandóját a cég számítógépei pár másodperces csúszással képesek átültetni a kívánt nyelvre, és a lefordított verzió a beszélő nemétől függően férfi vagy női hangon kerül lejátszásra.
A Microsoftnál is dolgoznak egy tolmácsprogramon, amelynek eddigi eredményességét úgy demonstrálták, hogy egy októberi, Tiencsinben tartott konferencián Rick Rashid vezető kutató angol felszólalását gyakorlatilag szimultán fordította mandarin nyelvre a rendszer. A Microsoft verziója a korábban említett két változat kombinációjának tekinthető, mivel feliratozásra és tolmácsolásra egyaránt képes. Ez utóbbi szoftver igazi érdekessége azonban az, hogy nagyjából egy órányi „tréning” alatt képes elsajátítani a beszélő hangjának jellegzetes vonásait, így azok az idegen nyelven fennhangzó fordításban is azonosíthatók, vagyis olyan, mintha valóban a felhasználó szólalna meg.
Bár az eddigiekben említett három rendszer megvalósítási módjában jelentősen különbözik egymástól, alapvetően nagyon is hasonló problémákkal küzdenek. Az első feladat egy tolmácsprogram megalkotásánál a beszéd felismerése és digitalizálása. Az első beszédfelismerő szoftverek a szavak építőelemeire, vagyis a fonémákra koncentráltak, majd statisztikai beszédmodellek és valószínűségi módszerek alkalmazása után ezekből igyekeztek újraépíteni a szavakat. A magyarban 38 fonéma van (14 magánhangzó és 24 mássalhangzó), az angolban pedig 40, ami nyelvek között átlag fölöttinek számít. (A piraha nyelvben például csak 11, az Afrika déli részén beszélt !xu nyelvben viszont 141 fonémát találunk.) A módszer viszonylag jól működik korlátozott szókincs esetében, azonban szabadabb beszéd mellett már kevésbé eredményes, és jelenlegi verzióiban átlagosan négy szóból egyet biztosan rosszul értelmez.
A Microsoft tolmácsprogramja számos dologban sokkal jobb elődeinél. Az első előrelépés, hogy nem a fonémák jelentik a felismerés alapegységeit, hanem három fonémás egységekkel, fonémasorozatokkal dolgozik. Ezekből nyilvánvalóan sokkal több van, mint fonémákból, az angolban például 9000 fölött van a számuk, viszont könnyebben megbirkóznak velük a felismerést végző szoftverek, így lecsökken a hibák száma is.
A Microsoft fonémasorozatokat felismerő rendszerének működése mesterséges neurális hálózati formában történik. Az agy sejtjeit modellező kis feldolgozóegységek (virtuális neuronok) kilenc rétegbe rendeződnek. A legalsó réteg neuronjai birkóznak meg a feldolgozandó beszéd alapvető hangtani jellegzetességeivel, a következő réteg egységei pedig már ezek különféle kombinációival operálnak, és így tovább, rétegről rétegre egyre kifinomultabb a felismerés szintje. Végül a legfelső réteg neuronjai közvetítik a végeredményt, vagyis megállapítják, hogy melyik fonémasor hangzott el. A helyes megoldások aztán visszatáplálódnak a rendszerbe, amely így egyre hatékonyabban fog működni.
A Microsoft kutatóinak elmondása szerint ezzel a fajta rendszerrel legalább egyharmadával csökkenthető hibák száma a fonémák felismerésén alapuló szoftverekhez képest, és egyes esetekben már azt is sikerült elérni, hogy nyolc szóból mindössze egyben tévedett a program. A Google is ehhez hasonló, mély neurális hálókat alkalmaz legújabb, androidos okostelefonokra írt beszédfelismerő szoftvereiben (bár ezeket nem tolmácsolásra használják), és a cég szakértői szerint ennek a metódusnak köszönhetően több mint húsz százalékkal sikerült csökkenteniük a hibák számát. Mivel ezen hálózatok használata igencsak megterheli a rendszert, a legtöbb beszédfelismerő, illetve fordító szolgáltatás felhő alapú. 
2. oldal
A beszédfelismerés azonban még csak a fordítás első lépése. A következő, legalább ilyen fontos szakaszban a megfejtett szavakat le kell fordítani egy másik nyelvre, ami önmagában sem egyszerű feladat, hiszen ki kell találni, hogy az adott szót éppen melyik jelentésében kívánta használni a közlő, majd ezekből értelmes, lehetőleg az eredetivel megegyező tartalmú mondatokat kell összefűzni. Ezt persze jelentősen megnehezíti, hogy a különböző nyelvekben eltérnek a nyelvtani szabályok, és másfajta szórend érvényes. Tehát hiába kerül helyesen lefordításra minden egyes szó, ha azok sorrendje és ragozása nem megfelelő, akkor mesterkéltnek tűnő, bár sokszor nagyon szórakoztató, de pontatlan fordítás lesz az eredmény.
A Google megoldása saját fordítószolgáltatása esetében erre az, hogy a fordítandó szöveget összehasonlítja a szoftveren átfutó mondatok millióival, és ezek alapján állítja össze a legmegfelelőbbnek ítélt megoldást. A Carnegie Mellon Egyetem projektjéből továbbfejlesztett Jibbigo nevű fordítóalkalmazás szintén a crowdsourcing módszerét használja, sőt: a fejlődő országokban élő felhasználóknak még fizetnek is azért, hogy kijavítsák az anyanyelvükre történő fordítások hibáit.
Mindent összevetve azonban elmondható, hogy a nyelv bonyolultsága és megfoghatatlansága gyakran a legelszántabb szoftverfejlesztőkön is kifog, legalábbis ami a tökéleteshez közeli eredményességet illeti. Az NTT DoCoMo tolmácsprogramja például nagyon könnyen és jól használható egészen addig, amíg csak formálisabb társalgási fordulatokkal van dolga (köszönések, igen, nem, köszönöm stb.). A szintén neurális hálózattal működtetett rendszer azonban rögvest hibát hibára halmoz, ha hosszabb mondatok vagy ritkább szavak kerülnek bele a társalgásba, és még a rövid, megszokott szókapcsolatoknál is elég gyakran téved.
A Microsoft fejlesztői úgy vélik, hogy a beszélgető felek megbocsátóbbak lesznek a szoftver hibáival szemben, ha a fordítás a közlő saját hangján hangzik el. Mint már említettük, tolmácsprogramjuk a beszélő hangjának jellegzetességeit utánozza a szintetizált mondanivaló megkomponálásakor, amit Rashid beszédekor a kínai közönség az elhangzott hibák ellenére is nagy lelkesedéssel üdvözölt. Elképzelhető tehát, hogy türelmesebben kivárjuk egy adott program tökéletesedését, ha az személyesebb, és kevésbé gépi hangon szólal meg.
A tolmácsprogramok másik nagy problémája, hogy mennyire bizonyulnak „mozdíthatónak”, praktikusnak. Powell kifejezetten utazóknak, turistáknak létrehozott rendszeréhez például jelenleg szükséges, hogy hálózati lefedettséggel és egy bekapcsolt laptoppal is rendelkezzen a felhasználó, a headseten és a szemüvegen kívül. A fejhallgató által felvett beszédet a laptopra telepített beszédfelismerő program írott szöveggé alakítja át, majd a hálózaton keresztül a Microsoft online fordítószolgáltatását használva lefordítja a szöveget, amelyet kivetít aztán a szemüvegre.
A hasonló vállalkozások következő nehézsége, hogy a programnak meg kell állapítania, ki is beszél éppen. Powell rendszere hangfelismeréssel nem is próbálkozik, hanem minden hallott szövegre lefuttatja az angolról spanyolra és spanyolról angolra fordítást is, és abból következteti ki, hogy ki beszélt, hogy melyik verzió hoz értelmes eredményt. Ha pedig megvan a közlő, a másik fél szemüvegén jeleníti meg a fordítást.
Powell szimultán rendszere tehát egyelőre még csak kezdeti stádiumában van, mindenesetre jelenleg ez tűnik a legjobban működő rendszernek, ha két fél természetes körülmények közt lefolyó társalgását kell fordítani. A szigorúan egyszerre egy beszélővel szembesülő rendszerek jóval előrébb járnak, közülük is különösen kifinomult a Jibbigo, amely beszédfelismeréssel és egy tíz nyelvre kiterjedő, 40 ezer szavas szótárokkal operáló fordítóalkalmazása netkapcsolat nélkül is gond nélkül futtatható a legtöbb mai okostelefonon.
A fő oka annak, hogy a Star Trekben látott univerzális fordító még elég távol áll a megvalósulástól az, hogy az emberek hajlamosak nagyon „rendetlenül” viselkedni kötetlen társalgás közben: egymás szavába vágnak, szlenget használnak vagy éppen zajos háttér mellett igyekeznek kommunikálni, ezekkel a kihívásokkal pedig egyelőre a legjobb gépi rendszerek sem képesek megbirkózni. Szóval feltéve, hogy a természet időközben nem rukkol elő a Bábel-hal egyik rokonával, egy darabig még mindenképpen érdemes lesz nyelveket tanulni.