A modell a motor, de adattal megy. Egy izgalmas tanulmány rámutat, hogy az AI iparágban mindenki zseniális modelleket szeretne építeni, vagyis az algoritmusokkal, a tanítással bűvészkedni, az adatok menedzsmentje pedig egyfajta kellemetlen mellékfeladat, nem csillogó, nem izgalmas - és sokszor nem is kap megfelelő figyelmet. Ennek következtében elég sok AI projekt már felszállás közben beleáll a földbe. Összeszedtünk néhány érdekes problémafelvetést és esettanulmányt az anyagból, és kiegészítettük pár saját tapasztalattal - hogy a Te AI-projekted ne essen kútba azért, mert az adatok használhatósága nem kap kellő prioritást.

Ez a tanulmány egy kutatáson alapszik, amit 53 olyan szakértő bevonásával készítettek, akik ún. “high-stakes”, nagy komplexitású és fajsúlyos, konkrét élethelyzetekre jelentős hatással bíró AI projektekben vettek részt.

Olyan projeketkre kell gondolni, mint például földcsuszamlások előrejelzése, öngyilkosság-megelőzési programok, illetve rákos sejtek beazonosítása.

Összesen 10 kategóriába sorolták ezeket a programokat, a teljes lista így nézett ki:

Egészségügy (19) (anyasági egészségügy, rákdiagnózis, mentális egészség)

Élelmiszerellátás és mezőgazdasági növényegészségügy (10) (regeneratív gazdálkodás, gabonabetegségek)

Környezetvédelem, klímavédelem (7) (napenergia, légszennyezés)

Hitelezés, pénzügyek (7) (hitelprogramok, biztosítás)

Közbiztonság (4) (forgalmi szabálysértések, földcsuszamlás előrejelzése, önvezető járművek)

Fajmegőrzés (2) (orvadászat, ökoszisztémák állapota)

Akvakultúra (2) (tengeri állatvilág)

Oktatás (1)

Robotika (1) (automatikus válogatás)

Machine Learning etika (1)

Mit jelent az “adatkaszkád” (Data Cascade)?

A kutatás az “adatkaszkád” (Data Cascade) problémájára fókuszál. Ezek olyan esetek, amikor az AI projekt kifejezetten az adatkezelésből eredő problémák miatt csúszik félre, nem pedig a modellel kapcsolatban merült fel probléma.

A kaszkád akkor következik be, ha előre nem látható probléma merül fel, ami akár teljesen meg is béníthatja a projektet, de legalábbis elkerülhető hatékonyságcsökkentést eredményez.

A kutatók úgy jellemezték ezeket a projekteket, hogy:

- nagy felelősségel járnak

- interdiszciplináris munkára van szükség hozzájuk

- korlátozott erőforrások állnak rendelkezésre

A szoftvervilág élvonalában, az ipari és az SaaS szektorokban alapvetően nem jellemző, hogy olyan környezeti, társadalmi, oktatási, kulturális nehézségekbe ütközzünk, mint ezeknél a projekteknél, ahol afrikai vadőrökkel és indiai ápolónőkkel, változátos körülmények között kellett (volna) megteremteni a tiszta adatgenerálás feltételeit.

Csakhogy a Lexunit néhány éves pályafutása is elegendő volt arra, hogy  a tanulmány olvasása közben nagyokat bólogassunk: igen, ez a probléma ismerős… Ezekből a komplex AI projektekből sokat lehet tanulni, úgyhogy mi is hozzátesszük ebben a cikkben a saját tapasztalatainkat, amelyek eszünkbe jutottak a tanulmányban feltárt tipikus problémákról.

A megkérdezettek nem kevesebb, mint 92 százaléka válaszolt úgy a kutatásban, hogy legalább egy esetben megtapasztalt egy kaszkádjelenséget.

Tiszta kommunikáció és egyértemű protokollok

Az egyik visszatérő probléma az volt, hogy a folyamatokat megtervező fejlesztők nem voltak kapcsolatban azokkal, akik a terepen alkalmazni fogják az eszközöket. A projektet működtető munkatársak nem voltak minden esetben megfelelően kiképezve arra, hogy egyáltalán fel tudják ismerni az adatkezelés fontosságát.


ADATPROBLÉMÁK A LEXUNIT ARCHÍVUMÁBÓL #01:

HIÁNYZÓ ADATKÉSZLET MIATT KELL KÜLÖN FOLYAMATOT KIDOLGOZNI

A PROJEKT:

Gyártóipari ügyfelünktől a projektelőkészítés során olyan információt kaptunk, hogy hetekre előre kidolgozott gyártási tervek fognak rendelkezésre állni.

ADATPROBLÉMA:

Sajnos menet közben kiderült, hogy mégsem lesz ilyen dokumentum.

Valójában az alábbi folyamatot végezték el a cég szakemberei a gyártástervezés során:

1. Megkapták az eszközök listáját, amihez alkatrészeket gyárt az üzem.

2. Kikeresték, hogy a raktárban melyik eszközökhöz van alkatrész.

3. Megnézték, hogy melyik munkaállomásokra vannak beosztva aznap kollégák

4. Ezeknek az adatoknak megfelelően kidolgozták a napi gyártási tervet

Ez nyilvánvalóan ellehetetlenítette, hogy elkezdjünk dolgozni a tervezőszoftver optimalizálásán, hiszen nem volt meg az indító adatunk: a szükséges alkatrészek listája egy előre meghatározott időtávon.

A MEGOLDÁSUNK:

Mivel hosszútávú gyártási tervre nem számíthattunk, a fenti négylépéses munkafolyamat automatizálására építettünk eszközt. Az indítóadat a végtermékek listája, a szoftverünk ebből elkészíti a napi gyártási tervet, automatikusan.

MIT CSINÁLHATTUNK VOLNA MÁSKÉPP?

Mindig lehet még egyszer ellenőrizni és visszakérdezni: “De biztosan rendelkezésre fog állni ez a kulcsfontosságú adat, igaz?” Ennél még eggyel jobb megoldás lett volna, ha már az elején megkérjük az ügyfelet, hogy részletezze a gyártási terv elkészülésének menetét. Így már korábban megfelelő megoldási tervekkel készülhettünk volna.


Az adatok előkészítését sokszor magától értetődőnek vesszük, nem mindig megfelelő súllyal esik latba az ezzel kapcsolatos munkaigény. A tanulmányban résztvevők az adatelőkészítést úgy jellemezték, mint olyan feladatkört, ami “időigényes, lehetetlen nyomonkövetni és gyakran siettetve történik. Az adatminőség melletti elkötelezettség gyakran sérül határidők és egyéb külső körülmények hatására.

Mivel a témakör nehezen prezentálható, sokszor nehéz megfelelő támogatást kérni az adatmunkához az ügyfelektől.

Pedig ha az adat nem elég jó, akkor az eredmények sem lesznek elég pontosak.

A projekt összes fázisában fontos az elkötelezettség

Veszélyes az, amikor az ügyfelek a látványos esettanulmányok és az AI-körüli felhajtás miatt elvárják a “varázslatot”, a megfelelő minőségbiztosítás nélkül. Ez gyakran vezet “gányoláshoz”. A tanulmány feltárja, hogy sok projektmenedzser kerül olyan dilemma elé, hogy meg akar felelni a vezetői elvárásoknak, de szeretné a megfelelő minőséget garantálni. Ilyenkor sokszor nincs más út, mint levágni a sarkokat és reménykedni…

A tanulmány szerint még az AI-tananyagok nagy része is szinte mindig adottnak veszi a teljesen tiszta indítóadatok meglétét, holott  a valóságban gyakorlatilag nem létezik ilyesmi.

A data scientist szerepkör egyik kulcsfeladata az adattisztítás, de ha az adat fizikai eredetű (például gyárban működő gépek paraméterei), akkor gyakran nem lehet már emberi szakértelemmel segíteni a helyzeten, ha az adatrögzítés folyamata nem sikerült jól. Ez az egyik tipikus oka a sikertelen AI projektek nagy részének.


ADATPROBLÉMÁK A LEXUNIT ARCHÍVUMÁBÓL #02: ELÜTÉSEK MIATT SIKLIK FÉLRE AZ ALGORITMUS

A PROJEKT:

Egy gyártási folyamat optimalizálása során alkatrészek adatsoraiból készítettünk gyártási tervet

AZ ADATPROBLÉMA:

Az egyik termékleírásban volt egy elütés, egy alkatrészből 800 darabot jelzett, holott valójában cak 8 darabra volt szükség belőle. A predikciós algoritmus eleinte szépen alakult, aztán egyszer csak “kitört”...

A MEGOLDÁSUNK:

A kitörés miatt leállítottuk az algoritmust és adatproblémára gyanakodtunk, rövidesen meg is találtuk az elütést. Szerencsére elég nyilvánvaló volt, mert egyetlen más esetben sem kellett többszáz alkatrész egy termékbe.

MIT CSINÁLHATTUNK VOLNA MÁSKÉPP?:

Felmerülhet a kérdés, hogy miért nem ellenőrizzük a termékleírást, mielőtt tanítóadatként rögzítjük? Sajnos 4000 olyan terméket, ami 8000 különböző alkatrészből áll, nem tudtunk átfésülni csak ezzel a céllal. Meg kell tenni az óvintézkedéseket, de egy ponton túl meg kell bíznunk az ügyfél által biztosított adatsor tisztaságában.

Talán többször is érdemes hangsúlyozni az ügyfél számára az adatok pontosságának fontosságát, és megvizsgálni, hogy milyen lépéseket tesz ennek érdekében.


Egy kaszkád okai

Szóval mik is lehetnek az adatkaszkádok okai? Mi az, ami félre tud vinni egy AI projketet, mielőtt még az be tudna indulni? A tanulmány részletesen foglalkozik ezzel, mi az alábbi főbb pontokat emeljük ki:

1. Fizikai hatások

Például gépi látásban a kamerakép kulcsfontosságú. Eső, homok, szél, szennyeződések könnyen ronthatják a képfelismerés hatékonyságát. Mindig fel kell mérni, hogy milyen fizikai hatások befolyásolhatják az adatrögzítést, mert sokszor meglepően jelentéktelennek tűnő behatások is tönkretehetik az adatokat.


ADATPROBLÉMÁK A LEXUNIT ARCHÍVUMÁBÓL #03: GÉPI LÁTÁS ADATSORT SEMMISÍT MEG EGY IDEGEN OBJEKTUM

A PROJEKT:

Egy automatizált fényképezési folyamatnál valaki besétált a képbe és egy darabig ott is maradt.


AZ ADATPROBLÉMA:

Az illető nem takarta a fényképezett objektumot, de ettől még sajnos a képek használhatatlanok lettek tanítóadatként.

A MEGOLDÁSUNK:

Azt gondolhatnánk, hogy elég alapvető dolog nem beállni a fényképezett területre ilyen esetekben, de mégsem az. A fotózást meg kellett ismételni.

MIT CSINÁLHATTUNK VOLNA MÁSKÉPP?:

Hangsúlyozni kell az adatok tisztaságának fontosságát. A célobjektum mellett sem állhat senki a fotózás során, erre is külön fel kellett volna hívni a figyelmet. Mindig a maximumra kell törekedni érthetőség és egyértelműség terén!


2. Nem megfelelő hozzáértéssel rendelkezők beavatkozása

Ha az adatok generálásakor döntési helyzetek merülhetnek fel, akkor olyan embernek kell ott lennie, aki fel van készítve a helyes döntések meghozatalára. Különben azt fogják tenni, amit jónak gondolnak, és ez néha nem megfelelő megoldáshoz vezet.

Aki részt vesz a projektben, annak alapos és korrekt felkészítésben kell részesülnie. Még jobb, ha segítséget is tudnak kérni valósidőben, kérdés esetén.

A tanulmány meglehetősen sok esetet felsorol, ahol az adatgyűjtést kiadták képzetlen munkaerőnek, akik így sokszor hibás adatokat rögzítettek (vadőröktől kezdve a kórházi ápolókig).


ADATPROBLÉMÁK A LEXUNIT ARCHÍVUMÁBÓL #04: NEM MEGFELELŐ KEZELÉS MIATT SZENNYEZŐDIK AZ ADATSOR

A PROJEKT:

Az adatsorokat a projektek többségében módosítjuk, teszteljük és alakítjuk az előkészítés során. Extra óvatosnak kell lenni ilyenkor, és mindig tudni kell, hogy hogyan és miért került be egy bizonyos adat az adatbázisba.

AZ ADATPROBLÉMA:

Az ügyfél manuálisan felvitt néhány adatot tesztelési és megfelelőségi célokból, aztán egyszerűen elfelejtette eltávolítani ezeket a tesztadatokat. Illetve nem is említette, hogy bevitte őket.

A MEGOLDÁSUNK:

Minden adat-interakciót logolunk és az adategységek általában címkézettek, ami alapján szűrni tudjuk őket, így lehet elkerülni az ilyen problémákat egy éles termékben.

MIT CSINÁLHATTUNK VOLNA MÁSKÉPP?:

A fejlesztési fázisaival egyértelműen tisztában kell lennie minden szereplőnek, tudni, hogy mikor mi történik. Azt is, hogy melyik adatsorral milyen típusú interakciók engedélyezettek az adott pillanatban. Nyilvánvalóan nem mindenki van alapesetben tisztában azzal, hogyan működik a gépi tanulás és az automatizáció. Biztosra kell menni, és elkerülni, hogy valaki ne nyúljon az adatokba csak azért, mert azt gondolja, hogy ez nem fog problémát okozni.


3. Konfliktusos jutalmazási rendszer

Egyszerűnek hangzik, de visszatérő projektmenedzsment probléma, hogy az adatokkal való munkát egyszerűen kiadják a nem szakértő kollégáknak, de közben nem allokálnak rá extra kapacitásokat, tehát a megszokott feladataik elvégzése mellett kellene színvonalas adatszolgáltatást is biztosítaniuk. Ezt nyilvánvalóan megsínyli az adatminőség.

4. Gyenge minőségű dokumentáció

A kutatás eredményei arra jutottak, hogy sok esetben a generált adatsorok minősége utólagos munkát vagy éppen becsléseket, találgatásokat igényeltek a feldolgozási szinten, amikor a terepen lezárult az adatgyűjtés. Több esetben többhónapos munka eredménye ment a kukába.

Az egyik fő probléma, hogy a standardok és minősítések szervezetről szervezetre különböznek. Ez minket a “mi így szoktuk”-típusú visszajelzésekre emlékeztet. Az adatgyűjtésnél nem csak a “mit” a lényeges kérdés, hanem a “hogyan” is. Kisebb gyakorlati különbségek, félreértések, nem kellően hangsúlyozott irányelvek is vezethetnek katasztrofális hibákhoz, ezért erre különösen tekintettel kell lenni akkor, amikor több  különböző csapat, szegmens, részleg vagy partner együttműködésére van szükség az adatmunkában.

Konklúziók

A tanulmány megfogalmazásában: “Az eredmények józanítóak. Ott is megtörténhet az átláthatatlan, elhúzódó adatkaszkád, ahol az adatminőség mellett minden résztvevő elkötelezett. Az iparágban a meghatározó hozzáállás reaktív, és kiegészítő feladatkörnek tartják az adatmunkát. Ezen változtatni kell, el kell mozdulni a proaktív és az adatkiválóságot fókuszba helyező hozzáállás felé.

Ehhez tisztázott folyamatokra és szabványokra van szükség. Ennek eléréséhez pedig egy erős infrastruktúrát kell felépíteni minden AI projektben, illetve megfelelő ösztönzőket megállapítani minden résztvevő számára.

“Annak ellenére, hogy az adat az elsődleges, mégis a modellfejlesztés az ünnepelt oldala az AI-munkának, hiszen ez az amit be lehet mutatni konferenciákon, demonstrálni az állásinterjúkon, és ez az amiért a startupokra extra nyomás nehezedik, mert kutatólaborként is kell funkcionálniuk.”

A modellmunka van reflektorfényben, úgyhogy a vezetők számára fontos, hogy nézzenek be az árnyékos oldalra is. Megfelelő körültekintéssel kell az egész folyamatot vizsgálni, és a valós szükségleteknek megfelelően allokállni az erőforrásokat!

A probléma már az oktatás szintjén megjelenik. Az “AI-képzettség” szinte egyet jelent a modellfejlesztéssel, ezért arányosan kevesebben vannak az igazán jó adattudósok egy 2016-os kutatás szerint - mondjuk ha a friss állástrendeket nézzük, ez a helyzet változóban van. Az adattudománynak már javulóban a presztízse, de fontos, hogy ez a projektek gyakorlati tervezése és menedzsmentje során is megjelenjen.

Van egy régi mém a természetes nyelvfeldolgozással foglalkozók közösségében, ami jól rávilágít az adatmunkát érintő felfogás problémáira: “Mindig, amikor kirúgunk egy nyelvészt, javul a szövegfelismerési hatékonyság”. Természetesen gyorsan lehet értéket generálni ha átvágjuk a kanyarokat, csak hosszabb távon alacsonyabb lesz a fejlődési potenciál.

A kutatásban a jó gyakorlatokról is megkérdezték az AI-projektekben résztvevőket. Igazából semmi forradalmit nem mondtak, csak olyan dolgokat, amik a szoftverfejlesztésben rég bevettnek számítanak, csak éppen az adatkezelési oldalon nem mindig szokás őket alkalmazni:

- általános, mindenkire érvényes irányelvek

- alapos dokumentáció

- egymás ellenőrzése (peer review)

- jól körülhatárolt szerepkörök

Ezekkel a megoldásokkal ki lehet zárni a bizonytalanságokat és nagyságrendekkel csökken az adatszennyezés esélye.

Mi az amit te tehetsz azért, hogy ne sodorja el az AI projektedet az adatkaszkád? Reméljük, adtunk néhány hasznos gondolatot, és egy kicsit sikerült az adatoldalra irányítani a figyelmet, hiszen tényleg többet érdemelne. Nagyon gyakran ezen múlik, hogy siker vagy kudarc lesz -e az értékteremtési folyamatok eredménye!