Mit Hilfe moderner Untersuchungs-Methoden lassen sich heute aus Blutproben riesige Mengen von Informationen gewinnen. Entsprechend komplex ist es, diesen Datenschatz auszuwerten und treffsichere Schlüsse zu ziehen, etwa für die Diagnose von Krankheiten. Forschende der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) wollen zu diesem Zweck zusammen mit dem Biotech-Unternehmen Biovariance neue Verfahren aus der künstlichen Intelligenz (KI) entwickeln. Diese wollen sie sowohl mit tatsächlichen Messdaten als auch mit künstlich generierten synthetischen Datensätzen trainieren, so dass die KI danach Auffälligkeiten findet, die bei bestimmten Erkrankungen gehäuft vorkommen.
KI: Nach Training kommen aus einem Tropfen Blut Zehntausende Messdaten
Bislang können sich Ärzte bei ihren Diagnosen oft gerade einmal auf ein paar Dutzend Kriterien stützen. Die so genannten Omics-Analysen haben das Zeug dazu, das zu ändern. Mit ihrer Hilfe lassen sich aus weniger als einem Tropfen Blut Zehntausende von Messdaten gewinnen. Zum Beispiel, welche Proteine die Probe in welchen Mengen enthält und welche fettähnlichen Verbindungen und Stoffwechsel-Produkte. Es ist auch möglich, festzustellen, welche Gene in der Person, aus der das Blut stammt, gerade abgelesen werden.
„Im Prinzip können wir damit alles messen, was im Blut so vorkommt“, erklärt Daniel Tenbrinck, Professor für Data Science an der FAU. „Diese riesige Datenmenge hat das Potenzial, uns eine ganze Menge über den Gesundheitszustand von Patientinnen und Patienten zu verraten – nicht nur, an welcher Krankheit sie leiden, sondern möglicherweise sogar, von welcher Variante sie betroffen sind. Oder ob sie zwar ein erhöhtes Risiko für einen Herzinfarkt oder Diabetes haben, aber noch völlig gesund sind, so dass sich die Störung durch prophylaktische Maßnahmen verhindern lässt.“
Suche nach medizinischen Auffälligkeiten im Datensatz mittels KI
Forschende rund um den Globus fahnden deshalb in Omics-Daten nach Auffälligkeiten, die mit bestimmten Krankheiten in Verbindung stehen. Aufgrund der Datenfülle ähnelt diese Aufgabe der sprichwörtlichen Suche nach einer Nadel im Heuhaufen. Daher kommen immer öfter Machine-Learning-Verfahren zum Einsatz, die dabei helfen sollen. „Die künstliche Intelligenz wird mit einer großen Anzahl von Omics-Daten aus Patientinnen und Patienten sowie den bei ihnen diagnostizierten Erkrankungen trainiert“, erklärt Tenbrinck. „Dadurch lernt der Algorithmus, verräterische Spuren in neuen Messwerten zu erkennen und entsprechend zu interpretieren.“
Für das Training der KI benötigen die Forschenden eigentlich Omics-Daten aus Tausenden von Betroffenen. Diese zu gewinnen, ist aber ebenso zeitaufwendig wie kostspielig. Tenbrinck möchte daher zusammen mit dem Unternehmen Biovariance eine weitere Strategie nutzen. In der Fachwelt ist sie unter dem Namen „Synthetic Data Generation“, also Erzeugung künstlicher Daten, bekannt. „Wir analysieren dabei mit statistischen Methoden lediglich bis zu 100 Omics-Datensätze und schauen darin nach Mustern und Regelmäßigkeiten“, sagt er. „Diese nutzen wir dann, um neue Datensätze zu produzieren, die sich statistisch nicht von den Daten tatsächlicher Blutanalysen unterscheiden lassen.“
AI Act und Medizinprodukte: Risiko und Chance ausbalancieren
Die KI mit synthetischen medizinischen Informationen trainieren
Mit diesen synthetisch erzeugten Informationen kann man dann die KI trainieren. Was nach einem Taschenspielertrick klingt, hat sich in der Praxis tatsächlich schon vielfach bewährt. „Synthetic Data Generation ist daher in unserem Feld momentan ein sehr aktives Forschungsgebiet“, sagt Tenbrinck. So wird etwa Software für Gesichtserkennung heute oft mit Portraits gefüttert, die zuvor geometrisch etwas verzerrt oder mit Bildrauschen versehen wurden. Der Algorithmus wird auf diese Weise deutlich robuster – er lässt sich nicht mehr so leicht von einem ungünstigen Winkel, unter dem eine Person aufgenommen wurde, oder schlechten Lichtverhältnissen täuschen.
Selbst mit völlig neuen, künstlich erzeugten Bildern lassen sich die Verfahren trainieren. „Dazu muss man aber sicherstellen, dass die synthetischen Gesichter realistisch aussehen“, sagt Tenbrinck. Denn wenn sie etwa alle nur ein Auge haben, wird sich die Erkennungsleistung der damit trainierten Software vermutlich sogar verschlechtern.
„Wir untersuchen, wie wir synthetische Omics-Daten erzeugen können, die so realistisch sind, dass sie die Diagnosen der KI tatsächlich robuster und genauer machen“, betont der Wissenschaftler. „Ein wichtiger Punkt dabei ist, dass sich medizinische Expertinnen und Experten die künstlichen Datensätze ansehen und abschätzen, wie plausibel diese sind.“ Bildlich gesprochen, würden die einäugigen Gesichter so direkt aussortiert.
Im Fokus: Long Covid und Depression
Die Partner im Biosamp-Projekt wollen auf diese Weise zunächst die Diagnostik zweier Erkrankungen voranbringen – der schweren Depression und des chronischen Fatigue-Syndroms, einer häufigen Symptomatik bei Long Covid. „Beides sind Störungen, die einen großen Leidensdruck verursachen“, betont Tenbrinck. „Zu Depressionen laufen bei der Biovariance zudem bereits Untersuchungen, auf die wir aufsetzen können.“ Ziel ist es einerseits, diese Störungen sicherer zu identifizieren und möglicherweise in unterschiedliche Varianten einzuteilen. So sprechen zum Beispiel bei einer Depression manche Betroffene auf bestimmte Behandlungsstrategien und Medikamente besser an als andere.
„Wir wollen aber auch dazu beitragen zu erkennen, was bei diesen Krankheiten im Körper genau anders läuft, wodurch sie also verursacht werden“, erklärt Tenbrinck. Beispielsweise könnte die KI in den Omics-Daten auf ein bestimmtes Gen stoßen, das bei Menschen mit einer Depression besonders aktiv ist. „Dann kann man nachschauen, was zur Funktion dieses Gens in der Forschung bekannt ist, und daraus Schlüsse zur Krankheits-Entstehung ziehen“, sagt der Wissenschaftler. „Unsere Erkenntnisse können also eventuell dazu beitragen, nicht nur die Diagnose von Krankheiten zu verbessern, sondern auch ihre Therapie und Prävention. Das ist es, was ich an dieser Thematik so faszinierend finde.“
Der Freistaat Bayern fördert mit rund 1 Mio. Euro das Projekt Biosamp, ein Drittel davon geht an die FAU.
Kontakt:
FAU
Prof. Dr. Daniel Tenbrinck
Professur im Themenfeld Data Science
Telefon: +49 (0)9131 85 67233
E-Mail: daniel.tenbrinck@fau.de
www.fau.de