Új, dinamikus, önszabályzó megerősítéses tanulási algoritmus kidolgozása és gyártási alkalmazása a statisztikai minőségirányítás területén
A Mesterséges Intelligencia Nemzeti Laboratórium keretein belül, az Opel Szentgotthárd Kft.-vel együttműködve új módon közelítjük meg a gyártási optimalizáció problémáit, Megerősítéses Tanulással statisztikai minőségirányítás alapján. A legfőbb előnye ennek a tanulási folyamatnak, hogy egyszerre képes jó eredményeket hozni és adaptálódni az új helyzetekhez. Az elterjedt és általunk is használt Q-táblás metódust felhasználva egyszerű implementációval meglepően jó színvonalat ad a tanuló ágens. A tanulási folyamat mind a Megerősítéses Tanulásban, mind a gyártási folyamatok optimalizációjában új módszert használ: az ön-szabályzó epszilon, alfa, gamma és lambda értékeket a felfedezés-kihasználás aránya és a jutalom kiértékelése érdekében, a Reusing Window-t és a Measurement Window-t.
Az eddigiekben a környezet pontos szimulációjával tettük lehetővé, hogy a tanuló ágens ezen kísértletezzen és használja fel a fontos reakciókat. Az algoritmus fő célja, hogy a lehető legkevesebb gyártási költséggel a lehető legtöbb sikeres végterméket hozzon létre.