Regisztráció és bejelentkezés

Transzfer tanulás többfeladatos hatóanyag-célpont interakció predikciókban nagyléptékű nyilvános adathalmazon

A gyógyszerkutatás területén egy új hatóanyag kifejlesztése vagy egy régi újrapozícionálása komoly erőforrásokat igényel mind pénzügyi, mind a ráfordított idő szempontjából. Az in silico gyógyszerkutatás ennek segítőjeként jelent meg, és mára egyre nagyobb jelentőséggel bír. A számítógépes modellek és erőforrások mellett ennek egyre fontosabb tényezője a nagy mennyiségű nyilvános adaton és tudás, valamint a gyógyszergyáraknál felgyűlt, korábbi kísérletek során létrejött, adat. Ezen adatok használatakor két fő nehézséggel kell számolni: a heterogenitással és a ritkasággal, azaz a lehetséges gyógyszerjelöltek terének hatalmas volta miatt egy adott problémához csak igen különböző hatóanyagok és célpontok interakciójáról érhető el adat, illetve az elérhető bioaktivitási adatok is heterogének és csak részlegesen állnak rendelkezésre.

A hatóanyag célpont interakció predikció célja a bioaktivitási adatok előrejelzése például, hogy köt-e adott fehérje adott molekulához. Ebben a feladatban is a fent említett nehézségek jelennek meg: a molekulák és a célpontok is heterogén adatok formájában állnak rendelkezésre és az adatok ad hoc, töredékes jellegűek, ahol a hiányzás is informatív. A heterogén többfeladatos bioaktivitás adatok nagyléptékű felhasználása máig is egy nyitott kérdés. A manapság egyre jelentősebb elosztott adatok optimális felhasználásánál remélt transzfer hatás felderítése érdekében idealizált többfeladatos tanulási szcenáriókat alakítottam ki és dolgoztam fel, ezen kívül egy protokollt készítettem, hogy maximalizálhassam az elérhető transzfer hatást.

A többfeladatos tanulás célja tipikusan a szélesebb körben használható, jobb általánosító képességű modellek előállítása, a gyógyszerkutatáson belül speciálisan nagy jelentőségű a több támadáspontú hatóanyagok kutatása. A többfeladatos jelleg jelenthet több kimenetet különböző szemantikával vagy különböző skálán, vagy a teljesítmény növelését több metrika szerint komplex veszteségfüggvényekkel. A leírt feladat többfeladatos aspektusa a bioaktivitás adatbeli különbségekből fakad, amely a modellek kimenetén is különbözőségeket eredményeznek.

A többfeladatos tanulásban elosztott adat felhasználásából fakadó transzfer hatás többféleképpen is elérhető: egy lehetséges megközelítés, ha a modellek kimenetére többfeladatos adatot teszünk, hogy általánosabb látens reprezentációkhoz jussunk. A predikciós feladatban ez azt jelenti, hogy a modellek kimenetét bővítjük több különböző és különbözően mért hatóanyag-célpont interakcióval. Az elvárás ekkor az, hogy ezzel a modellnek jobb lesz az általánosító képessége, és a modell egyes paramétereire tekinthetünk a hatóanyag molekula leíróinak és a fehérjék kötőhelyeinek egyfajta általános látens reprezentációjaként. A többfeladatos tanulás egy másik formája lenne, ha a többfeladatos kimeneti adatok egy részét a modell bemenetére tesszük, így maximalizáljuk az elméletben elérhető transzferhatást. Ezen módszerek közül mindkettő hasznos lehet gépi tanulási modellek fejlesztésére.

A dolgozatomban vizsgált feladatot a gyógyszerkutatás két egyre gyakorlatibb szcenáriójában is megvizsgáltam: Az első az elosztott adatok felhasználására alkalmazott federált tanulás többfeladatos kiterjesztésében. Ebben a szcenárióban gyógyszerkutatók egy kisebb csoportja működik együtt egy federált tanulási környezetben. Minden partner rendelkezik saját egyedi célokkal és a tanításhoz hozzájárul a saját adatával. Ennek a szcenáriónak a célja, hogy minden partner adatát a lehető legmegfelelőbben használjuk ki, a partnerek saját modelljeinek fejlesztéséhez. A második szcenárió a nagy mennyiségű nyilvános adat felhasználásával foglalkozik. Ebben a szcenárióban egy specializálódott gyógyszerkutató adatai csak egy kutatási irányból származnak és különösen érdekelt a több támadáspontú hatóanyagokban, másnéven olyan molekulákban, amelyek együttes teljes profilja illeszkedik a célpontok egy megadott halmazára.

A dolgozatban áttekintem a többfeladatos tanulás lehetséges megközelítéseit, ismertetem ezek előnyeit és hátrányait. Az első szcenárióban a federált környezetben elérhető legjobb teljesítményt vizsgálom, eltekintve a federált séma biztonsági aspektusától. A többfeladatos tanulás két formáját összehasonlítva igyekszem megbecsülni a transzferhatás lehetséges maximumát. Bemutatok módszereket a többlet adat olyan jellegű felhasználására, amely a legjobb vagy egyformán jó minden résztvevő számára. A második szcenárióban bemutatom a specializálódott kutató partner esetét, amely a nyilvános adatokat olyan módon használja fel, hogy az más területről vett korábbi mérések eredményeit kiaknázza.

szerző

  • Sándor Dániel
    Villamosmérnöki szak, alapképzés
    alapképzés (BA/BSc)

konzulens

  • Dr. Antal Péter
    egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

E-Group I. helyezett