Gépi tanulás zajos címkével rendelkező adathalmazból

Az utóbbi időben egyre szélesebb körben terjedtek el a mesterséges intelligencián alapuló döntéstámogató rendszerek. A rendszerek kielégítő működésének az alapja a megfelelő mennyiségű és minőségű adatok rendelkezésre állása. A feladatokhoz felhasznált gépi tanuló modelleket azonban sok esetben nem készítik fel a valós életből származó pontatlan információinak megfelelő feldolgozására. A dolgozat célja egy olyan osztályozási megoldás kidolgozása volt, mely az adatforrásban hibásan szereplő, úgy nevezett zajos adatok által keltett hibákat minimalizálni tudja még olyan esetekben is, amikor a tanuló halmazban nem kiegyensúlyozott az egyes osztályok aránya. A módszer segítségével kiszűrhetők azok az adatok, melyek negatív irányba befolyásolják a gépi tanuló algoritmus működését. A megoldás során különféle zajszűrési technikákat alkalmaztam, melyek segítségével méréseket készítettem a legmegfelelőbb irány meghatározása érdekében. A munka végén az elkészített modellt teszteltem kiegyensúlyozatlan adathalmazokon végzett teljesítmény szempontjából is. A dolgozatomban felvetett probléma egyre nagyobb jelentőségű lesz, ahogy egyre nagyobb hatáskört biztosítunk a mesterséges intelligenciának, hiszen nem lenne szerencsés, ha kritikus döntéseket meghozó modellek zajos adathalmazon a helyes döntés helyett rosszul tanulnák meg az összefüggéseket.

szerző

Szalóki Kristóf
Gazdaságinformatikus szak, mesterképzés
mesterképzés (MA/MSc)

konzulens

Dr. Szűcs Gábor
egyetemi docens, Távközlési és Médiainformatikai Tanszék

helyezés

Jutalom

letöltés
2 143 kB