A projekt

Ügyfelünk adatalapú információ átadással, tanácsadási szolgáltatások nyújtásával foglalkozik. A magyarországi leányvállalat célul tűzte ki a jogszabályok változásairól szóló nyilvános információk (cikkek) folyamatos monitorozását, illetve az ezekben fellelhető információk felhasználható adattá alakítását.

A probléma

A jogszabályok szövegéből természetesen kinyerhető egy csomó technikai adat, amelyeket lehetséges tárolhatóvá és kereshetővé tenni. Csakhogy egy jogszabályváltozás lehetséges hatásait ezekből az adatokból nem lehet kinyerni - ehhez a jogszabályokat értelmező cikkek szövegének elemzése szükséges.

Nyilvánvalóan értékes szolgáltatás lenne a partnercég ügyfelei számára, hogy ha a jogszabályokkal kapcsolatos információkat folyamatosan friss szakmai kommentárokkal látná el.

Az összes ilyen szakcikk napi szintű felkutatása, a releváns információk kinyerése és rögzítése jelentős feladatot jelentene a szakértők számára. Ennek a folyamatnak a teljes vagy részleges automatizálása jelentős üzleti értéket tudna teremteni a cég ügyfelei számára.

A megoldás

Első lépésként egy intelligens hírkeresőre volt szükség.

Ez a rendszer teljesen automatizáltan gyűjti össze az online cikkeket, kinyeri a szükséges adatokat, továbbá Természetes Nyelvfeldolgozás (NLP) segítségével a cikkeket minőségi és a változásokhoz kötődő relevanciájuk szerint rangsorolja.

1. Adatgyűjtés és keresés futtatása

Összegyűjtjük a módosítással érintett jogszabályokat, majd az ezekből meghatározott keresési kifejezések segítségével összegyűjtjük a találatokhoz tartozó linkeket.

2. Web-Crawling

Az általunk fejlesztett ún. scraping eszköz egyesével megnyitja az említett linkeket, kinyeri a weboldalt felépítő elemekhez (DOM-okhoz) tartozó információkat. Általában egy DOM-elem tartalmaz valami szöveget/képet, stílusleírókat (háttérszín, szöveg típusa) valamint az oldalon való elhelyezkedést.

3. Cikk / Nem cikk szerinti osztályozás

A gyűjtött adatokat az általunk létrehozott gépi tanulás modell osztályozza aszerint, hogy azok cikkek vagy sem.

4. Adatkinyerés

A cikkekből egy másik, szintén általunk létrehozott gépi tanulás modell kinyeri a címet, a publikálás időpontját, a tartalmat, valamint a szerzőt, ha az jelölve van.

5. Ranking

Az adatkinyerést követően a rendszer a cikkek tartalmát összeveti a jogszabály megváltozott szövegével. Minél jobban hasonlít, annál magasabb prioritást kap. Az algoritmus figyelembe veszi a cikk dátumát, hosszát, és fehér-, illetve fekete listákkal is összeveti a webcímet.

Módszerek, eszközök és technológiák:

Python, Google Search API, PostgreSQL adatbázis, a modellekhez a Tensorflow és LightGBM keretrendszereket vettük igénybe.

Eredmények:

A szoftver automatikusan összegyűjti és csokorba szedve, fontosság és relevancia szerint osztályozva mellékeli a weben megjelenő írásokat, amelyek az adott jogszabály változásairól szólnak, így kényelmessé téve az információk követését.