German English

Machine Learning in Biomedicine

Motivation

Die Lebenswissenschaften sind eine Domäne mit immenser Bedeutung für die Erforschung neuer Medikamente, Behandlungen und Krankheiten. Aufgrund dessen existiert eine Vielzahl an Datenquellen wie z.B., Publikationen, Studienergebnisse, Omics-Daten(Analysen bzgl. Gene, Proteine, Metabolite). Aufgrund der hohen Menge und Heterogenität sind umfassende Auswertung oder Suchen mit einem hohen Zeitaufwand verbunden. Mithilfe von computergestützten Integrationstechniken, soll eine einheitliche und maschinenverarbeitbare Datenrepräsentation geschaffen werden.

Diesbezüglich können Daten mithilfe von Ontologie-Konzepten einheiltich beschrieben werden. Dieser Prozess wird als Annotation bezeichnet. Der aktuelle Stand der Forschung setzt dabei auf NLP Modelle wie z.B. neuronale Netze. Jedoch sind Ansätze zu erforschen, die die Menge der Trainingsdaten reduziert. Weiterhin existieren keine Ansätze, um Omics-Daten mit Konzepten zu annotieren, basierend auf ähnlichen Omics-Daten.

Neben der einheitlichen Beschreibung bestimmter Entitätet, wie z.B. einem Studienformular, sollen verschiedene heterogene Datenquellen integriert werden. Hierfür werden z.B. Wissensgraphen verwendet, wobei jeder Knoten eine Entität darstellt, wie z.B. Patient, Krankheit, Medikament, etc. und eine Kante die Beziehung zwischen zwei Entitäten. Es existieren bereits Wissensgraphen für Covid-19 oder Publikationen in der Biomedizin

Mithilfe der Graphrepräsentation können zum Einen Graph-Analysen durchgeführt werden, wie z.B. Frequent Subgraph Mining, als auch Graph Machine Learning Ansätze verwendet werden. Anwendungen von Graph-ML sind die Link Prediction, wo Verbindung zwischen zwei Entitäten vorhergesagt werden oder die Knotenklassifikation, dass z.B. ein Patient erkrankt. Für die Anwendung von Graph-ML, wird für jeden Knoten ein Embedding erstellt, wobei ein Embedding eine vektorielle Repräsentation darstellt, die sowohl die lokalen Features des Knoten darstell als auch strukturelle Informationen des Graphen. Bibliotheken, die Graph-ML bereits implementiert haben sind: Stellar und DGL