A BME kutatói alkották meg Stephen Hawking különleges géphangjának magyar változatát!

A Mindenség elmélete című, a magyar mozikban most bemutatott film szinkronizálási munkáiban vett részt a BME VIK Távközlési és Médiainformatikai Tanszék csapata.

„Érdekes kihívás volt a Stephen Hawking életéről szóló film munkálataiban közreműködni” – vallotta Németh Géza docens, a tanszék Beszédtechnológia és Intelligens Interakciók Laboratóriumának vezetője. A Mafilm arra kérte a BME gépi beszédkeltéssel foglalkozó specialistáit, hogy segítsenek a filmben elhangzó kb. negyven, a tudós készüléke által előállított angol mondatnak – szintén gépi hangzású – magyarra fordításában.

Németh Géza hozzátette, hogy munkatársaival különösen jól ismerik a világhírű tudós nevét: „nemcsak az általa használt beszédszintetizátor fejlődését kísértük figyelemmel, hanem mindenféle olyan kommunikációs eszközzel foglalkozunk, amely gép és ember közötti együttműködést tesz lehetővé.”

Stephen Hawking a világ egyik legismertebb fizikusa, nemcsak intellektusa, ismeretterjesztő munkássága, hanem ritka, gyógyíthatatlan betegsége miatt is. 21 éves korában diagnosztizálták amiotrófiás laterálszklerózis (ALS) elnevezésű, Lou Gehrig-kórként is ismert betegségét, melynek következtében lassan elsorvadtak a mozgatóidegei. Akkor orvosai két-három évnél hosszabb túlélést nem jósoltak neki. Szinte nem fordul elő, hogy e kórral diagnosztizált beteg 10 évnél tovább éljen a felismeréstől számítva. Hawking e szempontból is kivételes. (A tavaly nyáron, a közösségi oldalakon indult „Ice Bucket Challenge” („jegesvödör-kihívás”) mozgalom is eredetileg az Egyesült Államokban lévő ALS Association alapítvány számára gyűjtött adományokat.)
A tudós életéről készült film volt felesége, Jane Wilde emlékiratai alapján készült és öt Oscar-díjra jelölték.

Németh Géza a nagyközönség számára meglepő részleteket is elárult Hawking professzorról. „Bár 2015-öt írunk, Stephen Hawking olyan beszédszintetizátor-technológiát használ, amely 1988-ban készült a Massachusetts Institute of Technology-n, Denis Klatt és Jonathan Allen által korábban végzett kutatások alapján” – mesélte Németh Géza. „Ennek KlattTalk, majd később DecTalk volt a neve. Kissé félrevezetők azok az ismeretterjesztő cikkek, amelyek a Hawking számára gyártott új fejlesztésekről szólnak, hiszen a készülék működési elve – az ún. formáns szintézis technológia – lényegében ugyanaz maradt. Ma már léteznek az emberi hanghoz sokkal jobban hasonlító megoldások, de Hawking azonosult ezzel a gépi hanggal, amelyet eredeti fejlesztői ’Perfect Paulnak’ neveztek. Az emberek megszokták, hogy ha előadást tart, akkor ezt a sajátos, hallhatóan robotos, de nagyon jól érthető hangot hallják. Nagyon érdekes, hogy a gyorsan változó elektronikai-informatikai világban egy, a nyolcvanas években született rendszert ma is használ még valaki. Hawking e téren nagyon konzervatív.”

Jelenet a Mindenség elmélete című filmből

A formáns szintézis technológiát a szakemberek hosszú évtizedek alatt dolgozták ki rengeteg mérés és a fonetikai szabályszerűségek felismerése alapján. Ez a módszer nem használ emberi hangmintákat a szintetizált beszéd létrehozásához, hanem a spektrális formálást végző szűrősor paraméterei, a jel intenzitása és az alapfrekvencia változtatásával alkotja meg a mesterséges beszéd hullámformáját. Ez a technológia azért előnyös, mert érthetően hozza létre az emberi beszédet, hátránya a nehézkes vezérlés és a gépszerű hang. Ezért a fejlesztések későbbi generációi inkább az emberi beszédből indultak ki: a szintetizátor a korábban rögzített élőbeszéd hosszabb-rövidebb elemeinek összefűzéséből vagy annak származtatott paraméterei alapján készíti a hallható szöveget (a BME kutatócsoportjának ezirányú kutatásairól és az alkalmazásokról ITT olvashatnak – a szerk.)

A VoxAid Android változatának "Félig kötött szöveg" kommunikációs módja

„A filmben harmincéves amerikai technológiát hallhatunk” – mesélte a BME docense. „Az akkori hazai kutatásaink egyébként nem maradtak le ettől: a nyolcvanas években az MTA Nyelvtudományi Intézetében és a BME-n Olaszy Gábor kollégám fonetikai kutatásainak köszönhetően már elkészült a HungaroVox és a MultiVox rendszer, amely magyarul és néhány más nyelven produkált a DecTalk-hoz hasonló minőséget.”

A magyar szinkron követelménye volt a gépszerű hangzás reprodukálása, de a MultiVox és HungaroVox rendszereket hosszú ideje nem használják, ezért bonyolultabb feladat lett volna „életet lehelni” e rendszerekbe, mint korszerűbb technológiával utánozni az elavultabb hangzást. (A MultiVox rendszer 2002 óta ingyenesen letölthető.) A kutatók választása így a ProfiVox-diád technológiára esett, amelyet 2000 óta használhatnak a magyar látássérültek a Jawsfor Windows képernyőolvasó programban. „Megkértük a Mafilmes kollégákat, hogy adják meg a mondatok körülbelüli hosszát és írják le, hogy milyen kiejtést akarnak” – ecsetelte a kutató. „Nem mindegy, hogy például egy olyan nevet, mint 'Elaine' hogyan ejt a gép.”

Jelenet a Mindenség elmélete című filmből

A ProfiVox-diád rendszer a formáns szintézis technológiát követő fejlesztések körébe tartozó ún. diád-triád technológiát alkalmazza, amely lényege, hogy elemekre bontja a felolvasott hangmintákat. A diád két egymás utáni félhang, a triád-elemek pedig jellemzően az adott hangot megelőző hang közepén kezdődnek és a hangot követő hang közepéig tartanak, azaz két fél- és egy egész hangnyi hosszúságúak. E több ezer elemet tartalmazó készletből fűzi össze a rendszer az elhangzó beszédet, bár a szinkronizálási munkában ez kézi optimalizálással egészült ki. A technológia előnye, hogy jó a szöveg érthetősége, és a beszéd sebessége széles határok között állítható. „A látássérültek számára készülő fejlesztéseknél is ezek a legfontosabb kritériumok” – hangsúlyozta a kutató. „A hosszú ideje szintetizátort használó látássérültek például gyakran olyan sebességgel működtetik a berendezést, ami kívülállók számára már érthetetlen. E rendszerben rugalmasan lehet más paramétereket is állítani: például mélyebbre állítottuk az átlagos alapfrekvenciát, hogy az a ’Perfect Paul’ mély hangjára hasonlítson.”

Jelenet a Mindenség elmélete című filmből

Németh Géza és kollégái bíznak abban, hogy a filmgyártók a jövőben más feladatokkal is megkeresik őket. Vannak lehetőségek például a beszédfelismerés területén: a feliratozást megkönnyítheti olyan alkalmazás, amely automatikusan jelzi, hogy egy adott szöveg hol és meddig hangzik. „Ennél fontosabbnak tartjuk azonban, hogy a film ráirányíthatja a figyelmet a fogyatékkal élőket segítő technikákra is” – emelte ki a kutató. „Sajnos sokan nem tudják, hogy itthon is elérhetők hasznos alkalmazások. A film egy kicsit hozzájárul, hogy többet tudjunk meg ezekről a problémákról. Még a vakok és látássérültek rehabilitációs szakemberei sem mindig ismerik a különbséget a képernyőolvasó és a szövegfelolvasó között, pedig ezek pont a mostanában sokat emlegetett esélyegyenlőséget segítő technikák. Egy diplomatervezőm pl. az androidos telefonokon futó beszédszintetizátor minőségének javítási lehetőségeivel foglalkozik. Az általa elvégzett nem reprezentatív felmérés szerint a megkérdezett tizenöt-harminc évesek közel hetven százaléka nem használt ilyet, vagy nem is hallott arról, hogy ez létezik. Ha ez a helyzet a technológiai változások iránt érzékeny diákok között, milyen ismereteik lehetnek a többieknek?”

Pedig Magyarországon évente több ezer ember veszíti el beszédkészségét időlegesen vagy véglegesen, és szorulna rá, hogy hosszabb-rövidebb időre hozzájusson egy automatikus, magyar nyelvű beszédgenerátorhoz stroke és a más betegségek következményeként. Az agysérüléstől a mandulaműtétig sokféle eset hozhatja, hogy az érintett nem tud beszélni, de tudja mozgatni a kezét. A szintetizátorok és hasonló fejlesztések egyrészt a kommunikációt támogatják, másrészt segíthetnek a minél gyorsabb rehabilitációban és a kapcsolódó tréningekben. „A trauma utáni kommunikáció segítésére húsz éve létezik egy hordozható számítógépen alapuló segítő technológiánk, a VoxAid/MonddKi. Sajnos azóta sem kap elég figyelmet a magyar médiában. Az orvosok tudják, hogy minél hamarabb kap kezelést a beteg, annál hatékonyabb lesz a rehabilitáció, és később sajnos már csak kisebb javulás várható. A mi fejlesztéseink ezen a területen is hasznosak: a logopédus és az orvos véges erőforrást jelent, ám naponta lehet beszédfejlesztő gyakorlatokat végezni egy akár telefonra telepíthető szoftverrel. Ez utóbbi azt is tudná rögzíteni, hogy a különböző gyakorlatokat végrehajtotta-e a beteg, így az állapota figyelemmel kísérhető, és motiválni is lehet őt.”

„Fontosnak érezzük, hogy minél többet megismerjék e technikákat. A Stephen Hawking életéről szóló filmnek ez is lehet az egyik – és nem is mellékes – üzenete” – nyomatékosította Németh Géza, a Távközlési és Médiainformatikai Tanszék docense.

- HA -

Fotó: Pintér Erik, Universal