Magyar bajnoki labdarúgó-mérkőzések eredményének előrejelzése valószínűségi és gépi tanulási modellekkel

Labdarúgó-mérkőzések végeredményeinek becslése már a 20. század közepe óta nagy népszerűségnek örvendő kutatási téma. A téma első igazán komoly áttörése Maher angol matematikushoz kötődik, aki 1982-ben Poisson-eloszlással modellezte a csapatok támadó és védekező készségeit, majd ezek segítségével becsülte meg az egyes csapatok által szerzett gólok mennyiségét. A kezdeti modell hibáinak kiküszöbölésére számtalan kísérlet született, ezek közül kiemelkednek Dixon és Coles modelljei. A dolgozatban megvizsgáljuk, hogy hogyan teljesítenek a fenti modellek az OTP Bank Liga mérkőzésein, továbbá saját elgondolásaink alapján igyekszünk a modelleket tovább fejleszteni, hogy még jobb teljesítmény érjenek el a magyar bajnokság adatain.

Újabban gépi tanulási módszerrel is meg lehet közelíteni ezt a problémát köszönhetően a megnövekedett adatmennyiségnek. Rendelkezésünkre állnak az előző három szezon statisztikái, amit az Eredmények.com weboldalról webscraping technikával gyűjtöttünk be Python segítségével. Az adat felderítő elemzése, illetve a szükséges adattisztító lépések elvégzése után a valószínűségi és gépi tanulási modellek illesztését és kiértékelését végeztük el.

A modellek pontosságát az eltalált végkimenetelek (hazai győzelem, döntetlen, vendég győzelem) arányával mérjük. Összehasonlítva a modellek mutatóit, azt találjuk, hogy a valószínűségi modellek jobban teljesítenek, mint a gépi tanulási modellek.

szerzők

Pintér József
Matematikus mesterképzési szak (MSc)
mesterképzés (MA/MSc)
Ragács Attila
Matematikus mesterképzési szak (MSc)
mesterképzés (MA/MSc)

konzulens

Molontay Roland
Egyetemi docens, Sztochasztika Tanszék

helyezés

I. helyezett