GPU-ra implementált Multiple Kernel Learning és genomikai alkalmazásai

A genomika rohamos fejlődése és a korszerű biológiai módszerek terjedése, árcsökkenése hatalmas mennyiségű adat és tudás felhalmozódásához vezetett, melyek feldolgozása modern bioinformatikai eszközök nélkül reménytelen vállalkozás. Ezen eszközök egyrészt a kutatási eredmények értelmezését támogatják, másrészt abban próbálják segíteni a kutatókat, hogy a meglévő tudás alapján milyen további kísérleteket érdemes elvégezni. Jelen munka egy mindkét fázisban hasznosítható kutatási vonalat mutat be, nevezetesen hogy hogyan lehet heterogén információforrások (pl. genetikai és proteomikai adatbázisok, szövegbányászat, stb.) fúziójával, ismert gének birtokában további releváns géneket találni.

A különböző információforrások fúziója az utóbbi évtized egyik legfontosabb orvosbiológiai problémája. A klaszterezés területén megfogalmazott általános integrálás után a lekérdezés-specifikus módszerek váltak egyre népszerűbbé. Az intuitív sorszám alapú fúziót a sorszámok statisztikáján alapuló fúzió követte, amit a Multiple Kernel Learning megközelítés követett [1]. Ebben a szupport-vektor gépeknél népszerűvé vált kernel trükköt alkalmazva számolnak optimális döntési hipersíkot a lekérdezést alkotó génhalmazra, majd a további géneket az ettől való távolság alapján prioritizálják. Egy friss eredmény szerint a pontosság növelhető L2-regularzált MKL alkalmazásával [2]. E módszer működéséhez azonban a teljes kernel mátrix memóriában való tárolása, illetve egy általános SOCP solver szükséges, így nagyobb számú minta csak szuperszámítógép segítségével kezelhető.

A jelen kutatómunka központi eleme egy 2010. decemberében publikált algoritmus GPU-ra történő implementációja, amellyel a fent vázolt nehézségek elkerülhetők [3]. Alkalmazásával az MKL memóriaigénye töredékére csökken, lehetővé téve, hogy az eddig szuperszámítógépet igénylő számítások akár egy laptopon lefussanak. A korábbi módszerekkel szemben nagy mintákra is jól skálázódik, valamint a korai mérések alapján a GPU ilyen esetekben önmagában több, mint 15-szörös gyorsulást eredményezett. Az OpenCL keretrendszernek köszönhetően a megoldás cross-platform, GPU-k és CPU-k széles skáláján működik, általános célú és moduláris felépítéséből következően más problémákra is kiterjeszthető. Az implementációt több valós bioinformatikai feladatban is kiértékeljük, pl. betegség-gének predikciója, vagy a rendszerbiológiai alapú gyógyszer-újrapozicionálás területén.

szerző

Bolgár Bence
mérnök informatikus
nappali

konzulens

Dr. Antal Péter
egyetemi docens, Méréstechnika és Információs Rendszerek Tanszék

helyezés

II. helyezett

letöltés
1 422 kB