A repülőgép-hordozók legénysége egy sor sztenderd kézjelet használ a gépek irányítására a hajó fedélzetén. Ezeket a jeleket normál esetben a gép pilótája értelmezi, és az utasításnak megfelelően irányítja gépét. Egyre gyakrabban azonban legénység nélküli robotrepülők vesznek részt a különféle küldetéseken, amelyeken nincs ott a pilóta, aki „fordít” a hajó fedélzetének irányítói és a repülőgép között. Az MIT kutatói egy olyan rendszeren dolgoznak, amely lehetővé teszi a robotrepülők tényleges irányítását ezen gesztusokon keresztül, vagyis a jobbra kézjelzésre jobbra fordul a gép, a felszállás jelzésre pedig felszáll – egyéb emberi közbenjárás nélkül.
 
A kézjelek értelmezése két részfeladatból tevődik össze. Az első magát a testtartást értelmezi egy digitális kép alapján: azt nézi, hogy a kezek fenn vagy lenn vannak-e, a könyök kifele mutat-e vagy egyenes. A második a gesztust, tehát a mozdulatot magát igyekszik megfejteni egy képsorozat alapján. A kutatókat leginkább ez utóbbi probléma foglalkoztatja jelenleg, és megoldási javaslatukat az ACM Transactions on Interactive Intelligent Systems oldalain megjelenő tanulmányukban fejtik ki. Egy korábbi kutatás során már foglalkoztak az első feladattal, vagyis a testtartás értelmezésével is, erről az IEEE International Conference on Automatic Face and Gesture Recognition tavalyi ülésén számoltak be.
Yale Song, Randall Davis és David Demirdjian egy sor videót rögzítettek, amelyeken több különböző személy mutatja be azt a 24 kézjelet, amelyet leggyakrabban használnak a hordozók fedélzetén. Testhelyzet-felismerő szoftverük néhány kulcsmomentumra koncentrál: háromdimenziós adatokat rögzít a könyökök és a csuklók helyzetéről, arról hogy a tenyér nyitva vagy csukva van-e, illetve hogy a hüvelykujj felfele vagy lefele mutat-e. A mozdulatok digitalizált sorozatait leíró adatbázis már a tavalyi kutatás során elkészült, most ezt használták a gesztusfelismerő szoftver „betanítására”.
 
A legnagyobb kihívás a jelek osztályozásában az, hogy a bemeneti jel folytonos, mondja Song. Az irányítók folyamatos mozgásban vannak, az algoritmus nem várhat addig, amíg egy pillanatra megállnak, hogy aztán értékelje az addig látottakat. Kezelhető elemekké kell tehát szétdarabolni a mozgássort, az algoritmus ezt meg is teszi, az egyes részek nagyjából három másodpercig vagy 60 képkockáig tartanak. A részek átfedik egymást, mivel előfordulhat, hogy a gesztus az egyik rész közepén kezdődik és a következő részbe is „belelóg”, az átfedésben lévő részek révén így ezek a mozdulatsorok sem vesznek el.
 
Az egyes képkockákra aztán az algoritmus kiszámolja, hogy milyen valószínűséggel tartoznak egy-egy gesztushoz, majd az egyes részekre és az egymást követő részekre együttesen is súlyozott átlagokat számol, ennek eredményei alapján történik a gesztus tényleges azonosítása. 
 
A tesztelésre használt adatbázisban a program 76 százalékos pontossággal ismerte fel a gesztusokat. Ez még nyilvánvalóan nem elég ahhoz, hogy éles körülmények között alkalmazzák, de Song úgy véli, hogy ezen az eredményen lehet javítani. A legnagyobb nehézséget az okozza, hogy minden egyes testtartásnál rengeteg lehetőséget kell megfontolnia a programnak: minden karpozíciónál négy lehetséges kéztartás van, és minden kéztartásra hat különböző karpozíció jut. A következőkben úgy fogják átalakítani a rendszert, hogy külön-külön vizsgálja a kéz és a kar helyzetét, ez nagyban leegyszerűsítené a feladatot.
 
A kutatás érdekes betekintést nyújt abba, hogyan képzelhetjük el a jövőben gép és ember kommunikációját. Egy biztos: ha a rendszer alkalmazásra kerül, az irányítóknak minden eddiginél jobban kell ügyelniük mozdulataikra.