Regisztráció és bejelentkezés

Kiskereskedelmi terméknevek hierarchikus osztályozása mélytanulással

Az online pénztárgépek bevezetése lehetővé tette a gazdaság közelebbi megfigyelését a mindennapi tranzakciókon keresztül, azáltal, hogy termékneveket és árakat tartalmazó idősornak tekinthető adatokat szolgáltathat. Az utóbbi tény gazdasági szempontból meglehetősen érzékennyé teszi az adathalmazt, az ilyen adatok kiszivárgása sértheti az egyes üzleti szereplők gazdasági érdekeit. Például olyan módon, hogy a versenytársak lehetőséget kaphatnak arra, hogy megismerjék a cég árazási stratégiáit, készletinformációit, az árusított termékek halmazát vagy akár beszállítóit. Ha a termékneveket a megfelelő termékkategóriákkal helyettesítjük, akkor az adatokat aggregálhatjuk és globális következtetéseket vonhatunk le (pl.: az inflációt becsülhetjük vagy jósolhatjuk). Más megoldás lehet egy zárt kutatószoba, ahol csak a megfelelő személyek férhetnek hozzá az adatokhoz, vagy kriptográfiai eljárások, például homomorf titkosítás használata.

A feladat az a blokkokon található termékneveket besorolása a Vámtarifaszámok (VTSZ) kategóriáiba, amely az EU közös vámtarifája; az adatszolgáltatás sajátságaiból adódóan a kategóriák sok esetben hiányoznak. Közel félezer kategória jelenik meg, amelyek egy többszintű hierarchiába rendeződnek. Ilyen méretű (pár százezres) egyedi terméknevekből álló adathalmazzal ritkán lehet találkozni. Az említett gazdasági érdekek miatt az adatok védettek, ami azt jelenti, hogy a hozzáférés korlátozott, ami megnehezíti a különböző modellek tanítását. Az adatok nagy mennyisége és a termékek kategorizálásának nehézsége automatizált és megbízható megoldást igényel.

Annak érdekében, hogy a valós adatokhoz való hozzáféréssel kapcsolatos akadályokat enyhítsem, egy generatív nyelvi modell segítségével egy terméknevekből álló, szintetikus adathalmazt készítettem. A nagy nyelvi modellek az utóbbi időben a nyilvánosan elérhető chatbotok (pl.: ChatGPT) térnyerése miatt is felkeltették a közvélemény figyelmét. Egy ilyen generatív modell például szöveggenerálásra is használható, megvizsgálom, hogy megvalósítható-e egy szintetikus adathalmaz létrehozása ehhez a feladathoz.

Egy transzformer architektúra alapú nyelvi modellt finomhangolok a feladatra, és megvizsgálok két, a modellre épülő megoldást, ahol a kategóriák hierarchiája is figyelembe vételre kerül, annak érdekében hogy az osztályokra épülő struktúrát is kihasználjuk. Az első egy speciális hibafüggvény, amely a hierarchiában feljebb lévő kategóriákra virtuális predikciókat hoz létre. A másik a modell "fejének" módosítása, amely összekapcsolt rétegeket használ annak érdekében, hogy a hierarchiát beépítse a modell architektúrájába. Ezzel nem feltétlenül érhető el nagyobb pontosság, de a predikció robosztusabbá tehető. A különböző megoldások egyéb lehetséges hatásait értékelem.

szerző

  • Mészáros Péter
    Mérnök informatikus szak, mesterképzés
    mesterképzés (MA/MSc)

konzulens

  • Dr. Gyires-Tóth Bálint
    adjunktus, Távközlési és Médiainformatikai Tanszék

helyezés

II. helyezett