Powered by

Karsten Borgwardt, der Spezialist für Data Mining

Mit den modernen Methoden der Genomik, Proteomik und Metabolomik werden in immer kürzerer Zeit immer größere „Datenberge“ produziert. Um durch Mustererkennung daraus relevante Informationen zu gewinnen, sind spezielle mathematische und informatorische Verfahren gefragt. Der Tübinger Data-Mining-Spezialist Karsten Borgwardt entwickelt sie speziell für Anwendungen in den Lebenswissenschaften.

Mit 30 schon Professor: Der Data-Mining-Spezialsit Karsten Borgwardt überzeugt bereits in jungen Jahren mit außerordentlichen Leistungen. © Max-Planck-Institute Tübingen

Die Analogie mit dem Bergbau ist treffend: Es gilt, aus Datenmassen jeweils das "Datengold" zu extrahieren, das zu neuen Erkenntnissen führt. Dabei fallen in den Lebenswissenschaften heute immer größere Datenmengen in immer kürzerer Zeit an. Ein Beispiel: Während die erste Sequenzierung eines menschlichen Genoms bis zum Abschluss des Projektes noch über ein Jahrzehnt gedauert und Unsummen verschlungen hat – Schätzungen gehen von 100 Millionen US-Dollar aus – , spucken heutige Geräte des „Next Generation Sequencing“ innerhalb weniger Wochen die Sequenzen ganzer Genome von Menschen, Tieren und Pflanzen zu moderaten Kosten im vierstelligen Dollar-Bereich aus.

Noch schneller und günstiger sind Genotypisierungen in der medizinischen Diagnostik. Dabei wird im Erbgut des Menschen nach speziellen Varianten im Genom, den Einzelnukleotid-Polymorphismen (SNP, engl. single nucleotide polymorphism), gesucht, die immer wieder bei erkrankten Personen zu finden sind und deshalb mit bestimmten Krankheiten korrelieren. So richtig komplex wird es, wenn nicht, wie im Fall der Sichelzellenanämie, ein einzelner SNP zu einer Krankheit führt, sondern wenn mehrere SNPs in einem bestimmten Muster auftreten müssen, um eine Krankheit auszulösen oder das Erkrankungsrisiko zu erhöhen. Im letzteren Fall stellt sich auch die Frage, inwieweit muss ein Muster vollständig sein, um mit einer bestimmten Wahrscheinlichkeit eine Krankheit auszulösen. Auch die Verträglichkeit von Medikamenten und das Ansprechen auf eine Therapieform versucht man mit SNPs bzw. SNP-Mustern in Verbindung zu setzen.

Kombistudium Biologie und Informatik

Solche Fragestellungen sind das Metier von Prof. Dr. Karsten Borgwardt. Der 32-jährige Informatiker forscht an den Tübinger Max-Planck-Instituten für Entwicklungsbiologie und für Intelligente Systeme. Außerdem ist er Professor für Data Mining in den Lebenswissenschaften an der Universität Tübingen. „Für mich heißt Data Mining, dass ich die speziellen Eigenschaften von Daten ausnutze, um effiziente Algorithmen für statistische Analysen in den Lebenswissenschaften zu entwickeln“, definiert Borgwardt seine Arbeit.

Er hat bereits während des Informatik-Studiums an der Ludwig-Maximilians-Universität (LMU) München im Nebenfach Biologie studiert und zwischendurch, während eines Auslandsjahres an der University of Oxford, einen Master in Biologie erworben. Damit hatte er optimale Voraussetzungen für ein Fachgebiet, das ihn schon lange in den Bann gezogen hatte. „Schon als Jugendlicher haben mich die Möglichkeiten fasziniert, die sich durch die Sequenzierung von Genomen ergeben und mir war bewusst, dass die gewaltigen Datenmengen mathematisch-informatorische Probleme mit sich bringen. Während der Diplomarbeit wurde mir klar, dass es viele algorithmische Probleme gibt mit Anwendungen in der Biologie“, so Borgwardt.

Außergewöhnliche Leistungen ermöglichen Karriere im Laufschritt

Seine Kombi-Karriere ging rasant weiter: Borgwardt promovierte nach nur zweieinhalb Jahren mit Auszeichnung auf dem Gebiet des Data Mining an der LMU München. Danach ging er als wissenschaftlicher Mitarbeiter an die University of Cambridge und befasste sich mit maschinellem Lernen in der Biologie. Borgwardt arbeitete daran, computergestützte Systeme zu entwickeln, die Muster und Gesetzmäßigkeiten in Datenströmen erkennen und "lernen" konnten, daraus Gesetzmäßigkeiten abzuleiten. Zu dieser Zeit hatte Borgwardt über die internationalen wissenschaftlichen Netzwerke bereits Kontakt zu den Max-Planck-Instituten in Tübingen geknüpft. Zwei ihrer Direktoren, Prof. Dr. Bernhard Schölkopf und Prof. Dr. Detlef Weigel, erkannten das Potenzial des jungen Forschers und überzeugten ihn davon, nach Tübingen zu wechseln. Wobei allzu viel Überzeugungskraft wohl nicht vonnöten war, denn Borgwardt kannte den Ruf der Tübinger Bioinformatik: „Tübingen hat im Bereich des Maschinellen Lernens und der Bioinformatik sehr viel zu bieten, es gibt weltweit kaum einen anderen Standort, an dem maschinelles Lernen so gut mit der Molekularbiologie verknüpft ist.“

Kaum in Tübingen angekommen, wurde Borgwardt nach nicht mal einem Jahr schon Forschungsgruppenleiter und rund zwei Jahre später erhielt er 2011 die Professur für Data Mining. Damit steht er für den dritten Weg, auf dem es in Deutschland möglich ist, Professor in den Natur- und Ingenieurwissenschaften zu werden, denn Borgwardt hat weder habilitiert noch war er Juniorprofessor. Vielmehr konnte er durch seine außergewöhnliche wissenschaftliche Leistung überzeugen und dadurch, dass er als Forschungsgruppenleiter schon so erfolgreich war, dass er Doktoranden führender Universitäten aus Europa, Asien und den USA anzog. Seit Januar 2013 koordiniert er zudem das europaweite Marie-Curie-Netzwerk für "Maschinelles Lernen in der personalisierten Medizin". „Ziel des Netzwerkes ist es, neue statistische und algorithmische Verfahren zu entwickeln, um eine maßgeschneiderte Therapie des Einzelnen zu ermöglichen. Bei dieser Forschung stehen wir bei unterschiedlichen Krankheiten an sehr unterschiedlichen Punkten“, sagt Borgwardt.

Alfried Krupp-Preis: eine Million Euro für weitere Forschung

Die Gruppe um Borgwardt will in Zukunft ganze Netzwerke genetischer Veränderungen darauf untersuchen, ob sie mit Krankheiten oder anderen Merkmalen korrelieren. Hier als Beispiel ein hypothetisches Subnetzwerk von SNPs (links rot markiert), das die Fellfarbe von Mäusen beeinflusst. © Dr. C.-A. Azencott

Aktuell werden Borgwardts Forscherqualitäten dadurch unterstrichen, dass er den mit einer Million Euro verbundenen Alfried Krupp-Förderpreis 2013 erhält. Diese Auszeichnung ist einer der höchstdotierten Forschungspreise für junge Professoren in Europa. Die feierliche Preisübergabe wird im November 2013 in der Villa Hügel in Essen, dem Sitz der Alfried Krupp von Bohlen und Halbach-Stiftung, stattfinden. Das Preisgeld will Borgwardt zum größten Teil dazu nutzen, seine Forschergruppe personell zu verstärken. „Ich habe keine großen experimentellen Ausgaben, deshalb kann ich die Gelder primär dafür nutzen, Doktorandenstellen zu schaffen. Ein kleiner Teil des Geldes wird dafür verwendet, unsere Rechner-Ressourcen zu erweitern“, so Borgwardt.

So wird der Alfried Krupp-Preis dazu beitragen, die SNP-Analysen der Borgwardt-Gruppe voranzutreiben. Das Team befasst sich unter anderem mit grundlegenden statistischen Fragen dazu, welche SNPs am häufigsten mit dem Auftreten einer bestimmten Krankheit korrelieren. „Wenn wir zum Beispiel die SNPs von 10.000 Patienten mit denen von 10.000 gesunden Kontrollpersonen vergleichen, dann müssen wir in der Regel Hunderttausende SNPs untersuchen. Mithilfe von Manhattan Plots stellen wir dar, wie stark die SNPs jeweils mit dem Auftreten der Krankheit korrelieren“, erklärt Borgwardt. Bei Manhattan Plots gibt der Ausschlag auf der Y-Achse die Korrelationsstärke der SNPs wieder, die auf der X-Achse entsprechend ihrer Position im Chromosom aufgereiht sind. Da die entstehenden Muster an die Skyline von Manhattan erinnern, wurde das Ganze „Manhattan Plot“ getauft.

Mit neuen Algorithmen große Netzwerke auf kleinen Rechnern analysieren

Manhattan Plots wie dieser sind ein Beispiel für die Auswertung genomweiter Assoziationsstudien (GWAS). Der Plot zeigt, wie häufig bei erkrankten Menschen an bestimmten Positionen im Chromosom genetische Veränderungen (SNPs) auftreten. © Prof. Dr. Karsten Borgwardt

Die Werkzeuge für die Suche nach solchen statistischen Zusammenhängen entwickelt und optimiert die Gruppe um Borgwardt selbst. So hilfreich die Ergebnisse sind, darf jedoch nicht zu viel daraus abgelesen werden, wie Borgwardt betont: „Korrelation ist nicht gleichzusetzen mit Kausalität. Die Manhattan Plots dienen uns dazu, Positionen im Genom zu finden, die man sich im nächsten Schritt näher anschauen sollte, um dort liegende Gene und Veränderungen im Genom zu finden.“ Erst im weiteren Verlauf der Untersuchungen können daraus Kausalitäten abgeleitet werden.

Um mehr Licht in das komplexe Dunkel der Zusammenhänge zu bringen, will Borgwardt neue Algorithmen entwickeln, um nicht nur die Korrelation von einem, sondern von einem Paar SNPs mit einem bestimmten Phänotyp zu finden. Dieser Phänotyp kann grundsätzlich alles mögliche sein, von allen denkbaren körperlichen Merkmalen bis hin zum Auftreten von Unverträglichkeiten oder einer Krankheit. Borgwardts Arbeit ist also nicht nur für die Medizin relevant und auch nicht nur für den Menschen, wie er sagt: „Die Pflanzenforschung kann davon genauso profitieren wie die Veterinärmedizin.“

Wie schnell die Arbeiten zum Erfolg führen können, hängt nicht zuletzt von den eingesetzten Rechenkapazitäten ab. „Schon wenn wir uns Korrelationen von SNP-Paaren mit Phänotypen anschauen, haben wir es mit bis zu 1014 SNPs zu tun. Mit solchen Analysen kann man selbst große Rechencluster tagelang lahmlegen. Theoretisch sind wir heute jedoch schon in der Lage, hocheffizient ganze Netzwerke von SNPs, interagierenden Genen und Proteinen zu identifizieren, die mit Phänotypen korrelieren. Deshalb entwickeln wir zurzeit Algorithmen, um eine intelligente Suche zu ermöglichen und dadurch mit geringer Rechenkapazität auszukommen“, sagt Borgwardt. Statt Supercomputer damit zu beschäftigen, will er die Berechnungen in Zukunft auf einem Laptop durchführen können.

Glossar

  • Chromosomen sind die unter dem Mikroskop sichtbaren Träger der Erbanlagen. Die Anzahl der im Zellkern vorhandenen Chromosomen ist artspezifisch. Beim Menschen sind es zweimal 23. Mit Ausnahme der Geschlechtschromosomen liegen Chromosomen in Körperzellen sowie in befruchteten Eizellen paarweise als sog. homologe Chromosomen vor. In den Keimzellen ist nach Abschluss der Reifungsteilungen nur ein einfacher Chromosomensatz vorhanden.
  • Ein Gen ist ein Teil der Erbinformation, der für die Ausprägung eines Merkmals verantwortlich ist. Es handelt sich hierbei um einen Abschnitt auf der DNA, der die genetische Information zur Synthese eines Proteins oder einer funktionellen RNA (z. B. tRNA) enthält.
  • Das Genom ist die gesamte Erbsubstanz eines Organismus. Jede Zelle eines Organismus verfügt in Ihrem Zellkern über die komplette Erbinformation.
  • Der Phänotyp beinhaltet alle sichtbaren Eigenschaften eines Organismus. Er wird vom Genotyp (der genetischen Ausstattung) und der Umwelt bestimmt.
  • Proteine (oder auch Eiweiße) sind hochmolekulare Verbindung aus Aminosäuren. Sie übernehmen vielfältige Funktionen in der Zelle und stellen mehr als 50 % der organischen Masse.
  • Nukleotidsequenzen sind Abfolgen der Basen Adenin, Thymin, Guanin und Cytosin auf der DNA (bzw. Uracil statt Thymin bei RNA).
  • a) DNA-Sequenzierung ist eine Methode zur Entschlüsselung der Erbinformation durch Ermittlung der Basenabfolge. b) Protein-Sequenzierung ist eine Methode zur Ermittlung der Aminosäurenabfolge.
  • Die Sichelzellanämie ist eine ererbte Blutarmut, die durch die Sichelform der roten Blutkörperchen gekennzeichnet ist. Ursache ist eine Mutation im Gen für den Blutfarbstoff Hämoglobin, die zur Verformung dieses Proteins und damit des ganzen Blutkörperchens führt. Die Sichelzellanämie tritt gehäuft in den Malaria-Gebieten Afrikas auf. Man nimmt daher an, dass Träger des defekten Gens möglicherweise besser vor Malaria geschützt sind.
  • Bioinformatik ist eine Wissenschaft, die sich mit der Verwaltung und Analyse biologischer Daten mit Hilfe modernster Computertechnik, befasst. Dient derzeit hauptsächlich zur Vorhersage der Bedeutung von DNA-Sequenzen, der Proteinstruktur, des molekularen Wirkmechanismus und der Eigenschaften von Wirkstoffen. (2. Satz: mwg-biotech)
  • Das Proteom ist die Gesamtheit aller zu einem bestimmten Zeitpunkt unter definierten Bedingungen vorhandenen Proteine in einem Lebewesen, einem Gewebe oder einer Zelle.
  • Single Nucleotide Polyphormism (SNP), zu deutsch: Einzel-Nucleotid-Polymorphismus, ist die Bezeichnung für Variationen von einzelnen Basen innerhalb eines Genoms. Da sie häufig und sehr variabel auftreten und einfach zu bestimmen sind, wird die Analyse der SNPs zur Identifizierung von Individuen und zur Untersuchung von Verwandtschaftsverhältnissen verwendet. Außerdem geben sie Hinweise auf genetisch bedingte Krankheiten und Medikamentenunverträglichkeiten.
  • Die Molekularbiologie beschäftigt sich mit der Struktur, Biosynthese und Funktion von DNA und RNA und und deren Interaktion miteinander und mit Proteinen. Mit Hilfe von molekularbiologischen Daten ist es zum Beispiel möglich, die Ursache von Krankheiten besser zu verstehen und die Wirkungsweise von Medikamenten zu optimieren.
  • kb ist die Abkürzung für Kilobase. Diese Einheit für die Länge von DNA- oder RNA-Molekülen entspricht 1.000 Basen bzw. Basenpaaren der Nukleinsäure.
  • Molekular bedeutet: auf Ebene der Moleküle.
  • Der Genotyp (Erbbild) repräsentiert die genetische Ausstattung eines Organismus.
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/karsten-borgwardt-der-spezialist-fuer-data-mining/