„Big data” – adatvezérelt kultúránk új mozgatórugója

Nagy mennyiségű adatok feldolgozására nyújt megoldásokat egy BME-s oktatók alapította vállalat, amely fontosnak tartja, hogy részt vegyen az egyetemi oktatásban is.

„A magyar adatbányászok szakmai tudása világszínvonalú: számos kiemelkedő eredményt elértünk a nemzetközi versenyeken; többször bizonyítottuk, hogy jól értünk a témához”– fejtette ki az adathalmazokban rejlő információk kutatásával foglalkozó tudományterületről Nagy István adatbányász szakértő, a Dmlab Kft vezetője, a BME Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék tanszéki mérnöke.

„Sok kiváló adatbányász mérnök dolgozik és kutat ma Magyarországon – tudásukat az erős hazai matematikai közoktatás és felsőoktatás alapozta meg. Az adatbányászat témájában a fővárosban az ELTE mellett a Műegyetem jár az élen –  előbbi az akadémiai, elméleti vonalat képviseli, a BME-nek pedig minden esélye megvan arra, hogy üzleti információk adatbányászati vonalán országos, sőt, közép-európai regionális kompetencia-központtá lépjen elő” – fűzte hozzá Gáspár Csaba adatelemző szakértő, a BME VIK Távközlési és Médiainformatikai Tanszék tanársegédje, a Dmlab társalapítója és ügyvezetője.

„Az információ-technológia ’szentháromságában’ a felhő- és a mobil-alkalmazásfejlesztés mellett ma már a ’big data’ és a ’data science’ számít ’szexinek’. Ezek azok a felfelé ívelő, több éves stabil jövő előtt álló IT-tudományágak, amelyek egyre nagyobb teret nyernek, egyre biztosabb lábakon állnak” – fejtette ki az elsősorban gyakorlati példákon keresztül jól megismerhető témáról Nagy István. „Ezen a területen a tudás a megszerzett projekttapasztalatok révén halmozódik fel. Ellentétben a programozással, itt nem egy adott programnyelv minél mélyebb szintű ismerete növeli egy szakember értékét. Sokkal fontosabb az a gyakorlati tudás, amit nem lehet kizárólag a tankönyvekből megtanulni, és amit egy adatbányász mérnök értékes tapasztalatként feladatról feladatra magával vihet” – világított rá a szakma különlegességére a több éves rutinnal rendelkező Gáspár Csaba.

Big data, data science

Korábban az adatbányászattal azonosították e fogalmakat. Az adatbányászat az a folyamat, amelynek eredményeképpen egy terjedelmes adathalmazból valamilyen módon, általában matematikai algoritmusok segítségével üzletileg felhasználható információ nyerhető ki. Az így kapott információkat például automatikus rendszerek tervezésénél vagy döntések meghozatalához használják fel.
Az adatbányászat jelentése mára kissé felhígult: bekebelezték a „big data” vagy a „data science” fogalmak, amelyek az egyre több, a hétköznapokban keletkező strukturálatlan adatra utalnak. A rohamléptékű technológiai fejlődés következményeként egyre több készülék automatikusan közvetít adatokat, egyre több adat keletkezik az interneten, a virtuális térben, a közösségi oldalak használata közben. A McKinsey Global Institute 2011-es jelentése szerint évente mintegy 40 százalékkal nő, azaz kétévente megduplázódik a felhasználókhoz legkülönfélébb formában eljutó adatmennyiség (például log fájl, szöveg, hang, kép vagy videó).
Ezen adatok szisztematikus technológiai feldolgozása, az ok-okozati összefüggések feltérképezése, az adatok üzleti hasznosításra alkalmas formátummá alakítása, majd elemzése, az ún. „data science engineer”, magyarul az adatbányász vagy adatelemző mérnök feladata.

Néhány évvel ezelőtt a nagy mennyiségű adatok tipikus felhasználói a jelentős ügyfélkörrel rendelkező telekommunikációs cégek, a bankok és a biztosító vállalatok voltak. Mára a felhasználók köre megváltozott: a „big data” kifejezés „kiszivárgott,” és beépült a hétköznapi életbe is. „Adatvezérelt kultúránkban nagyobb hangsúlyt kapott a business to customer (B2C) kapcsolat, vagyis azok a cégek kerültek előtérbe, amelyek pillanatok alatt óriási felhasználói bázist képesek elérni – ilyen például a facebook. A közösségi hálózatokon és a virtuális élettérben keletkező óriási mennyiségű automatikus információk rendszerezése és feldolgozása komoly fejtörést okoz az adatelemzőknek” – hívta fel a figyelmet Nagy István az utóbbi néhány évben végbement változások következményeire. „A facebook általános példájánál maradva: a feltöltött képek, adatok alapján egyénre szabott következtetések vonhatók le a felhasználóról és szokásairól, sok esetben akár a mentális állapotáról vagy az anyagi helyzetéről is. Az így nyert információk üzleti felhasználása egyre többször feszeget etikai kérdéseket, ráadásul a jogszabályi keretek egy lépéssel lemaradva követik a fejlődő technológiákat. Természetes, hogy a felhasználó sokszor kétséggel fogadja az újításokat, ám az ilyen félelmek ellenére is azt gondolom, hogy a hétköznapi emberek is profitálhatnak a digitális adatok feldolgozásából.

A „big data” fogalom elterjedésével és az adatok üzleti hasznosításával máris számos olyan alkalmazás és eszköz született, amely a felhasználók hétköznapjait könnyíti meg. Ilyenek például a sportolásnál használt mobilalkalmazások, a forgalomfigyelő programok vagy a vásárlást segítő applikációk” – szemléltette néhány hétköznapi példával az adatelemzésből származó információk hasznosulását Gáspár Csaba. Hozzátette, vállalatuknál nemcsak üzleti küldetés, hanem az alapítók személyes célja is, hogy munkájuk által egyszerűbbé és élhetőbbé váljanak a mindennapok, és történjen mindez etikus keretek között. „Az egyik alapelvünk, hogy nem támogatunk olyan projektet, amelyben nem tudunk azonosulni a társpartner vállalat üzletmenetével vagy céljaival. Volt már olyan egészségügyi biztosítási témánk, amelyben a vizsgált adatok üzleti hasznosulásához ugyan nem fért kétség, azonban olyan morális és etikai kérdések vetődtek fel bennünk, amelyek miatt végül nem vállaltuk el a feladatot.”

BME VIK Dmlab és Dmlab Kft.

A BME VIK Távközlési és Médiainformatikai Tanszékén 2005-ben indult el, és máig aktívan működik a Dmlab (Data Mining Laboratory) elnevezésű oktatói-hallgatói kutatócsoport, amely az akadémiai és az üzleti világ közötti hídként segíti az oktatást, a kutatást és az innovatív projektek megvalósulását az adatelemzés, az adatbányászat és általában a data science területén.

A kutatócsoport kezdetben a BME-hez érkező projektmegbízásokkal és műhelymunkákkal foglalkozott. Néhány év elteltével kinőtte az egyetemi kereteket, tagjai saját gazdasági társaságot hoztak létre Dmlab Kft. néven, amely a VIK ipari partnereként továbbra is szoros kapcsolatot ápol az alma materrel, számos úttörő projektet indított, és spin-off vállalkozást támogatott már. E mellett a gazdasági társaság tagjai óraadókként önálló laborfoglalkozásokat, diplomamunka-konzultációkat tartanak, és szakirányos tárgyakat is oktatnak a karon.
Mindezek mellett a Dmlab, mint tanszéki kutatócsoport mindmáig fennmaradt: segíti a Műegyetemhez közvetlenül érkező ipari megbízások kidolgozását.

„Az üzleti oldal mellett ugyanolyan fontosnak tartjuk az egyetemi ’lábunkat’ is, amellyel hozzájárulunk a magasan kvalifikált mérnökök utánpótlásához. A BME-vel kialakított partneri kapcsolatunk kölcsönösen előnyös mindkét félnek: mi a saját ipari tapasztalatainkra és valós gyakorlati példákra alapozott, naprakész tudásra oktatjuk a hallgatókat, az egyetem pedig saját projektjeibe von be minket tapasztalatszerzési lehetőséget biztosítva számunkra” – összegezte Nagy István.

A több éves tapasztalattal rendelkező szakemberek szerint háromféle végzettséggel lehet valaki adatbányász: a matematikusok és a fizikusok nagyon jó elméleti adatelemző szakemberek modell-vezérelt gondolkodásuknak köszönhetően; a gazdasági végzettségűek az adatbányászat üzleti hasznosulását képviselik; míg az alkalmazott mérnöki tudományban jártasak rendszerben gondolkodnak, azaz, könnyebben átlátják az összefüggéseket. „Óriási a kereslet az adatelemző szakemberek iránt, sokkal többre lenne igény, mint ahányat a felsőoktatás képes kibocsátani” – reflektált a munkaerő-piaci helyzetre Nagy István, aki szerint az adatelemzés hazai jövőjét a most még iskolapadban ülő mérnökgeneráció határozza majd meg. „Partnerként tekintünk a hallgatókra, akiktől mi is tanulunk, és akikkel megosztjuk saját kompetenciáinkat. A diákjainknak egy mérnöki tudományok között is kreatív, folyamatos innovációra késztető szakmát kínálunk, amely ráadásként gyorsan készpénzre váltható, jól jövedelmező terület” – erősítette meg Nagy István. „Szerteágazó témákban kamatoztatható az általunk választott tudományterület. Olyan, mintha egy legóvárat kellene összeraknunk, ami nemcsak abból áll, hogy szépen egymásra pakoljuk az építőelemeket, hanem előre vetítjük azt is, hogy hogyan fog kinézni a kész vár: milyen elemekből fog állni, azok jól passzolnak-e egymáshoz színben, formában, sőt, még azt is meghatározzuk, hogy milyen gyerekeknek fog tetszeni ez a legóvár” – szemléltette egy hétköznapi példával az adatelemzés lényegét a műegyetemi mérnök. „Fejlesztettünk már kamionsofőröknek szóló vezetés közbeni motivációs rendszert, amellyel optimalizálható a járművek üzemanyag-fogyasztása; vizsgáltuk az interneten vásárolók webes egérmozgását és vásárlási szokásait. Előfordult, hogy meghatározott információ- és adathalmazból adott orvostudományi téma legbefolyásosabb, legtöbbet idézett szakértőit azonosítottuk” – mutatták be a valós életből vett projektpéldákkal az adatelemzés „szeleteit” a Dmlab szakértői.

- TZS -

Fotó: Philip János

Kiemelt kép forrása: www.connexica.com