A projekt
Ügyfelünk adatalapú információ átadással, tanácsadási szolgáltatások nyújtásával foglalkozik. A magyarországi leányvállalat célul tűzte ki a jogszabályok változásairól szóló nyilvános információk (cikkek) folyamatos monitorozását, illetve az ezekben fellelhető információk felhasználható adattá alakítását.
A probléma
A jogszabályok szövegéből természetesen kinyerhető egy csomó technikai adat, amelyeket lehetséges tárolhatóvá és kereshetővé tenni. Csakhogy egy jogszabályváltozás lehetséges hatásait ezekből az adatokból nem lehet kinyerni - ehhez a jogszabályokat értelmező cikkek szövegének elemzése szükséges.
Nyilvánvalóan értékes szolgáltatás lenne a partnercég ügyfelei számára, hogy ha a jogszabályokkal kapcsolatos információkat folyamatosan friss szakmai kommentárokkal látná el.
Az összes ilyen szakcikk napi szintű felkutatása, a releváns információk kinyerése és rögzítése jelentős feladatot jelentene a szakértők számára. Ennek a folyamatnak a teljes vagy részleges automatizálása jelentős üzleti értéket tudna teremteni a cég ügyfelei számára.
A megoldás
Első lépésként egy intelligens hírkeresőre volt szükség.
Ez a rendszer teljesen automatizáltan gyűjti össze az online cikkeket, kinyeri a szükséges adatokat, továbbá Természetes Nyelvfeldolgozás (NLP) segítségével a cikkeket minőségi és a változásokhoz kötődő relevanciájuk szerint rangsorolja.
1. Adatgyűjtés és keresés futtatása
Összegyűjtjük a módosítással érintett jogszabályokat, majd az ezekből meghatározott keresési kifejezések segítségével összegyűjtjük a találatokhoz tartozó linkeket.
2. Web-Crawling
Az általunk fejlesztett ún. scraping eszköz egyesével megnyitja az említett linkeket, kinyeri a weboldalt felépítő elemekhez (DOM-okhoz) tartozó információkat. Általában egy DOM-elem tartalmaz valami szöveget/képet, stílusleírókat (háttérszín, szöveg típusa) valamint az oldalon való elhelyezkedést.
3. Cikk / Nem cikk szerinti osztályozás
A gyűjtött adatokat az általunk létrehozott gépi tanulás modell osztályozza aszerint, hogy azok cikkek vagy sem.
4. Adatkinyerés
A cikkekből egy másik, szintén általunk létrehozott gépi tanulás modell kinyeri a címet, a publikálás időpontját, a tartalmat, valamint a szerzőt, ha az jelölve van.
5. Ranking
Az adatkinyerést követően a rendszer a cikkek tartalmát összeveti a jogszabály megváltozott szövegével. Minél jobban hasonlít, annál magasabb prioritást kap. Az algoritmus figyelembe veszi a cikk dátumát, hosszát, és fehér-, illetve fekete listákkal is összeveti a webcímet.
Módszerek, eszközök és technológiák:
Python, Google Search API, PostgreSQL adatbázis, a modellekhez a Tensorflow és LightGBM keretrendszereket vettük igénybe.
Eredmények:
A szoftver automatikusan összegyűjti és csokorba szedve, fontosság és relevancia szerint osztályozva mellékeli a weben megjelenő írásokat, amelyek az adott jogszabály változásairól szólnak, így kényelmessé téve az információk követését.