Az intrinzikus dimenzionalitás átka a génkifejeződés adatok osztályozásában

A génkifejeződés profilok vizsgálata fontos eszköze az orvosi kockázatfelmérési, diagnosztikai és prognosztikai alkalmazásoknak [1, 3]. Az új generációs szekvenálási technológiák elterjedése a közelmúltban növekvő érdeklődéshez vezetett a génkifejeződés adatok prediktív osztályozása iránt.

Egy beteg génkifejeződés profilja több ezer gén kifejeződési értékét tartalmazhatja, ezért a génkifejeződési példányok sokdimenziós euklideszi tér vektoraikén ábrázolhatóak. Az ilyen nagy dimenziószámú terekben az osztályozóknak a „dimenzionalitás átka” néven ismert jelenségekkel kell megküzdeniük.

Az „átok” egyik legjelentősebb eleme a csomósodás (hubness), mely számos kutatás tárgyát képezte az utóbbi időben. A csomósodás a nagy intrinzikus dimenziójú adathalmazokban figyelhető meg csomók megjelenésének formájában [2]. Csomók alatt olyan példányokat értünk, melyek meglepően sok más példányhoz hasonlítanak. Az adott alkalmazási területen a példányok a betegek génkifejeződési profiljait jelentik, hasonlóságuk távolságfüggvények, például az euklideszi távolságuk segítségével mérhető.

A csomósodás gyakran rossz csomók megjelenésével jár, melyek a hozzájuk hasonló példányoktól eltérő osztályba tartoznak. Az ilyen csomók csökkenthetik a tradicionális osztályozó algoritmusok pontosságát [2]. A csomósodás-alapú (hubness-aware) osztályozókat úgy tervezték, hogy kihasználják a csomók jelenlétét, így elkerülhető a rossz csomók káros hatása [4, 5].

Dolgozatomban összehasonlítom a leggyakrabban használt tradicionális és csomósodás-alapú osztályozók viselkedését a génkifejeződés adatokon. A kísérleteket nyilvános adatbázisokon [4, 5], keresztvalidáció és statisztikai szignifikancia tesztek segítségével végzem. Ezen felül megvizsgálom a génkifejeződés adatok projekció-alapú [4] osztályzást, mely egy másik, csomósodás-alapú osztályozók által inspirált technika.

Hivatkozások:

[1] U. Alon, N. Barkai, D. A. Notterman, K. Gish, S. Ybarra, D. Mack, and A. J. Levine. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc. Natl. Acad. Sci. U.S.A., 96(12):6745–6750, 1999. Data set publicly available at http://genomics-pubs.princeton.edu/oncology/.

[2] M. Radovanovic, A. Nanopoulos, and M. Ivanovic. Hubs in space: Popular nearest neighbors in high-dimensional data. Journal of Machine Learning Research, 1:2487–2531, 2010.

[3] C. Sotiriou, S. Y. Neo, L. M. McShane, E. L. Korn, P. M. Long, A. Jazaeri, P. Martiat, S. B. Fox, A. L. Harris, and E. T. Liu. Breast cancer classification and prognosis based on gene expression profiles from a population-based study. Proc. Natl. Acad. Sci. U.S.A., 100(18):10393–10398, 2003. Data set publicly available at http://www.pnas.org/.

[4] N. Tomasev, K. Buza, K. Marussy, and P. B. Kis. Hubness-aware classification, instance selection and feature construction: Survey and extensions to time-series. In U. Stanczyk and L. Jain, editors, Feature selection for data and pattern recognition (tentative title). Springer-Verlag, 2014. To appear.

[5] N. Tomasev and D. Mladenic. Nearest neighbor voting in high dimensional data: Learning from past occurrences. Comput. Sci. Inf. Syst., 9(2):691–712, 2012.

szerző

Marussy Kristóf Dr.
mérnökinformatikus
nappali

konzulens

Dr. Buza Krisztián
docens, Eötvös Loránd Tudományegyetem (külső)

helyezés

Morgan Stanley II. helyezett

letöltés
381 kB