A Big Data jelentése

A Big Data azért “big”, tehát nagy, mert az addig megszokotthoz képest nagyságrendileg nagyobb adatmennyiségről van szó, ami az addig megszokott eszközökkel már feldolgozhatatlannak számít. A “Big Data” nem egy konkrét eszköz vagy technológia, hanem egy fogalom, egy korszak jellemzése. A 2010-es években az addig megszokottnál sokkal több lehetőségünk lett arra, hogy adatokat gyűjtsünk. Ennek egyik oka, hogy az interneten zajló adatforgalom mennyisége és minősége is fejlődött, egyre több és egyre többféle adatot lehet tudni például a weboldalunk látogatóiról, a digitális szolgáltatások. Számtalan cég, a bankoktól az energiaszektoron át az autóiparig, korábban ismeretlen mennyiségű adathoz tudott jutni a saját tevékenységéről. Olyan sok adathoz, ami már minőségi ugrást jelentett a megelőző korszakokhoz képest. Egy bizonyos adatmennyiség felett ugyanis már olyan alaposan meg lehet ismerni egy adott ipari folyamatot, digitális szolgáltatást vagy akár emberi viselkedésmintákat, hogy már jó hatékonysággal lehet jóslatokat, predikciókat megfogalmazni a segítségükkel. Ezért van az, hogy a Big Data teljesen új korszakot nyitott a design, az orvostudomány, a szoftverfejlesztés és akár a marketing előtt is.

Ezzel azonban új problémák ütötték fel fejüket.

Adatelemzés

A szenzorok és szoftverek által folyamatosan gyűjtött, rengeteg adatnak a feldolgozásához nem feltétlenül voltak megfelelő eszközök még néhány évvel ezelőtt. Ha nagyon sok az adat, akkor nagyon sok számítási kapacitás kell, ha az egész adatbázisról szeretnénk megtudni valamit. Egy egyszerű táblázatot képzelünk el, akkor elmondható, hogy minél több “sor” van (minél nagyobb elemszámú a mintánk), annál erősebb statisztikai következtetéseket lehet levonni belőle, és minél több “oszlop” van, annál nagyobb az adatcsomag komplexitása.

Ha nagyon sok az adat, sokkal nehezebb vele dolgozni is, ezeket a problémákat ismerjük a hétköznapi életből is: sok tárhely kell neki, tovább tart kiértékelni, lassan fut le rajta egy keresés, nehézkes megosztani és másolni, komplex feladat bármilyen szerkesztést, általános rendezést vagy módosítást végrehajtani benne, illetve az adatbiztonság fenntartása is komolyabb nehézség.

A “Big Data” nagyon gyakran nem is egy fix adatbázis, hanem egy bizonyos forrásból folyamatosan termelődő adatsor, amiből ezért nem mintát veszünk, hanem folyamatos megfigyeléssel tudunk következtetéseket levonni belőle, ezért sokszor valódi értéket kinyerni belőle, főleg nem-big data eszközökkel próbálkozva.

A Big Data prediktív elemzésben és például viselkedéselemzésben is használatos. Az internetes keresés, pénzügyi trendek, betegségek terjedése, bűnözési statisztika-alapú rendészet, meteorológia, orvostudomány, genetika, komplex fizikai jelenségek szimulációja, marketing és kormányzati funkciók: ilyen jellegű feladatokat ellátására ad példákat a big data technológia.

A mesterséges intelligencia (AI) technológiák gyors fejlődéséhez a bőséges adatmennyiség egy fontos előfeltétel volt. Ha nem is feltétlenül szükséges az AI megoldásokhoz a “Big Data”, mindenképpen olyan, mint egy jó táptalaj egy növénynek, amiben könnyebben és gyorsabban növekszik és bőségesebb termést tud hozni.

Ahogy azonban haszonnövényeknek is kell egy gondos gazda, a Big Data folyamatokban is szükség van és még sokáig szükség lesz emberi felügyeletre. Nem véletlen, hogy szinte minden olyan cégnél, ahol a Big Data releváns, van data scientist, akinek az a feladata, hogy az adatbázisokat termőre fogja és kikerülje azokat a csapdákat, amelyekbe egy algoritmus óhatatlanul belesétálna.

Az adatokat tisztítani és “profilozni” szükséges az optimális működéshez, illetve van egy olyan kreatív ellenőrző funkció, amihez kellenek az emberi intuitív képességek. Ha például egy adatsorban ötmásodpercenként mért felüleleti hőmérsékletek vannak, többnyire 20-25 fok között, akkor az egyszeri 800 fokos mérés biztosan hibás mérés eredménye. Ha az ilyeneket nem távolítaná el a mintából az adatelemző munkatárs, akkor a mérés érvényessége mehet a kukába.

Az is gyakori, hogy nem egy adathalmaz van, hanem halmazok halmazait vizsgáljuk, és itt is fontos, hogy az irreleváns halmazokat eltávolítsuk. Például ha van 100 város, mindegyikről 1000 darab mérési adat (pl. napi csapadék), de van közöttük néhány, amelyikről csak 10 mérésünk van, akkor ez utóbbiakat érdemes eltávolítani, ha az egész adatbázisról akarunk átfogóan releváns következtetéseket levonni. A 10 méréses városok túlzottan torzítanák a mintánkat.

Adatgyűjtés

Minden cég számára kulcskérdés, hogy milyen adatokhoz van hozzáférése, és milyen további lehetőségei vannak az adatgyűjtés kiterjesztésére. Érdemes alaposan átvilágítani, hogy milyen mérések zajlanak a cég offline és online tevékenységében, ezeket az adatokat hogyan archiváljuk és mit teszünk azért, hogy a kiértékelést elősegítsük.

Hány telefonhívást kap egy műszak alatt a recepciós? Hány liter benzint tankolnak a kollégák a céges autókba egyenként, átlagosan, és összesen? Egy adott munkaállomás hogyan teljesít átlagosan, naponta? Melyek a kiugró napok, felfelé és lefelé? Ebből kiderülhetnek olyan turpisságok, hogy ha Ágnes és Erzsi egymás mellé kerülnek, akkor mindkettejük hatékonysága 30 százalékot romlik… vagy éppen javul! Ezt utána fel lehet használni a következő munkaszervezési fázisban.

Adatfeldolgozás

A Big Data és a gépi tanulás találkozásából komoly dolgok sülhetnek ki.

Az egyik lehetséges felhasználási mód a hibaszűrés. A gépi látással kombinált minőségellenőrzés során a legyártott elem bármiben eltér vizuálisan a meghatározott paraméterektől, akkor a rendszer jelez, kiszűri a hibás terméket. A hibás adat generálódását is képes lehet kiszűrni egy Big Data algoritmus - ez az, amikor az anomáliát megvizsgálja az adatelemző munkatárs, és eldönti, hogy valóban hibás mérésről van szó, vagy valami más lehet a háttérben. Így lehet például hibás szenzorokat azonosítani és javítani, esetleg beállítási hibákat elhárítani.

Számos esetben segíthet a predikció egy cég működésében. A Bayes-tétel alkalmazásával meg tudjuk határozni egy esemény bekövetkezésének valószínűségét, előfeltételek alapján. Ez hasznos lehet akkor, amikor egy gép futási tulajdonságai alapján jelezni lehet, ha bizonyos alkatrészek kezdenek megérni cserére, ahelyett, hogy előre meghatározott mérföldkövek, például futási idő alapján automatikusan végrehajtanánk a cserét, holott az adott alkatrész még kiválóan működik. A vásárlói viselkedésekre is működik a predikció, például ha bizonyos adatok kezdenek hasonlítani egy már régebben tapasztalt adatsorra, amikor azután megnövekedett az érdeklődés egy termék iránt, akkor most is lehet készülni a kereslet fokozódására.

A Big Data nem varázslat, és az AI sem egy öntudatra ébredt szellem a gépben, viszont kétségkívül új és hasznos technológiai eszközök, amelyek az élet minden területén segítséget nyújthatnak, ezért mindenkinek érdemes figyelemmel követni ezeket az innovatív területeket.