Powered by

Bioinformatiker bringen Licht in den Daten-Dschungel

Die Universität Tübingen hat in den letzten Jahren eine eng verzahnte Service-Struktur für den computerbasierten Umgang mit Life-Science-Daten aufgebaut. Sie ist die Anlaufstelle für alle, die „Omics“-Daten erzeugen oder damit arbeiten - in Tübingen und darüber hinaus.

Prof. Dr. Oliver Kohlbacher ist seit 2012 Direktor des QBiC. Er hat Chemie und Informatik studiert. © privat

Mit „Genomics“ und „Proteomics“ als Bezeichnung für die Analyse von Genen und Proteinen fing alles vor einigen Jahrzehnten an. Es folgten „Transcriptomics“ und „Metabolomics“, und wahrscheinlich hält die Zukunft noch weitere „Omics“ bereit. Sie alle haben gemein, dass bei der Analyse der jeweiligen Moleküle und/oder zellulären Netzwerke inzwischen ungeheure Datenmengen generiert werden. Dabei ist Quantität jedoch nicht zwangsläufig Qualität. Wie gut die Daten sind, sprich welchen Nutzen sie letztlich haben, hängt von einer ganzen Reihe an Faktoren ab. Viele davon wirken sich schon ab der Frühphase der Projekte aus. Entsprechend wichtig ist ein gutes Management des gesamten Datenumgangs von Anfang an. Immer mehr Universitäten bauen deshalb Bioinformatik-Einrichtungen auf, die quer durch die Institute und Themen Life-Science-Projekte fachkundig begleiten.

Die Universität Tübingen hat in der Bioinformatik eine gewisse Vorreiterrolle. Hier wurde bereits 1998 der erste Studiengang Bioinformatik in Deutschland eingerichtet und hier steht heute eine Service-Struktur zur Verfügung, wie es sie laut Prof. Dr. Oliver Kohlbacher nicht viele gibt. „Deutschlandweit ist das schon einzigartig und auch EU-weit gibt es nur wenige ähnliche Strukturen. In Tübingen wurde frühzeitig verstanden, dass man die Kompetenzen in einer zentralen Bioinformatik-Struktur zusammenfassen muss, um an einem Strang zu ziehen.“ Durch die enge Verzahnung der Struktur-Einheiten ist Kohlbacher zugleich einer der drei Vorstände des ZBIT, Direktor des QBiC und Koordinator des CiBi.

Doch der Reihe nach: Das ZBIT (Zentrum für Bioinformatik Tübingen) ist für Bioinformatik-Verhältnisse ein Oldie: Es wurde bereits im Jahr 2000 gegründet und ist an der Tübinger Uni die zentrale Forschungs- und Lehreinheit für Bioinformatik. Ihr Servicebereich ist über die Jahre stark gewachsen. „Durch die Hochdurchsatz-Technologien fiel immer mehr Service an, und es wurde für die Kollegen immer schwieriger, ohne weitere Unterstützung mit den Daten umzugehen“, sagt Kohlbacher. Vor drei Jahren gewannen die Tübinger dann eine DFG-Ausschreibung für Core-Facilities. Das Ziel war, Bioinformatik als Service nutzbar zu machen. So entstand das Quantitative Biology Center, kurz QBiC, als Tübinger Core Facility für Omics-Datenerstellung und Bioinformatik. „Zuvor gab es in unserem Umfeld bereits rund zehn Core Facilities an unterschiedlichen Instituten mit Geräten zur Generierung von Omics-Daten, die im Wesentlichen auf Gensequenzierungen und Massenspektrometrie beruhen. Teilweise gab es dabei auch Geräte-Dopplungen, häufig jedoch nicht genügend Expertise im Datenmanagement und in der Bioinformatik“, schildert Kohlbacher die „Vorher“-Situation. Das hat sich mit dem QBiC nun grundlegend geändert.

Klassischer Verlauf eines Bioinformatik-Projekts am QBiC vom Erstkontakt (li) bis zur Auswertung (re) © QBiC

Bioinformatik-Fäden laufen am QBiC zusammen

Der QBiC-Service setzt bereits in der Planungsphase an, bevor die ersten Experimente starten. Das Team steht den Wissenschaftlern beim Versuchsdesign zur Seite, um eine schlüssige Ausgangslage zur Datengewinnung zu schaffen. Die Datengenerierung findet dann nach wie vor in den einzelnen Instituten und an deren Geräten statt. Das QBiC schafft zwar – zum Beispiel aus Mitteln der Exzellenzinitiative – Geräte wie Sequencer und diverse Massenspektrometer an, diese werden jedoch an die früheren Core-Facilities als Betreiber weitergegeben. Der größte Budget-Posten ist die Datenerzeugung laut Kohlbacher heute nicht mehr: „Wir sind an einem Punkt angelangt, an dem nicht mehr die Kosten für die Datengenerierung die Projektkosten bestimmen. Diese werden vielmehr von der Bioinformatik dominiert.“ Und die übernimmt auf Wunsch das QBiC. Wobei der Daten-Output zwar mithilfe des QBiC gemanagt werden kann, aber nicht muss. „Wir haben ein webbasiertes Interface aufgebaut, über das die Benutzer sowohl auf die Rohdaten als auch auf Auswertedaten zugreifen können und ihre Daten navigieren können“, sagt Kohlbacher. Besonders wichtig findet er dabei die Nachhaltigkeit: Es werden redundante Backups erstellt, die über mindestens zehn Jahre den Datenbestand und seine Zugänglichkeit sichern. Der QBiC-Service steht nicht nur Uni-Angehörigen offen. Außeruniversitäre Forschungseinrichtungen und Firmen können die Dienstleistungen ebenso nutzen. Auch hier reicht der Service von der Initial-Beratung über die Durchführung von Analysen bis zur Auswertung und Interpretation der Daten. „Manche fragen den Komplett-Service an, andere sequenzieren zum Beispiel selbst, nehmen zur Verarbeitung der Rohdaten jedoch unseren Bioinformatik-Service in Anspruch“, sagt Kohlbacher. Die Tübinger Bioinformatiker entwickeln auch auf die Fragestellung zugeschnittene Analyse-Workflows und maßgeschneiderte webbasierte Datenvisualisierungen. Bei der Fülle an Aufgaben ist es kein Wunder, dass die Bioinformatik ein Nachwuchs-Problem hat – ein allgemeines Problem, wie Kohlbacher weiß: „Auf der einen Seite gibt es nicht genug Bioinformatiker, die eingestellt werden könnten, auf der anderen Seite wird aber auch oft der Aufwand unterschätzt, der mit der Bioinformatik verbunden ist. Es kann je nach angewandter Methode zum Beispiel vorkommen, dass zehn Sequenzen in zehn Minuten bearbeitet werden können, für Hundert Sequenzen jedoch Monate Rechenzeit gebraucht werden.“ Um dafür das Bewusstsein der Forscher zu schärfen, wünscht sich Kohlbacher, dass die Bioinformatik stärker in die Ausbildung integriert wird. „Wer in Vorlesungen und Praktika selbst einmal mit der Bioinformatik konfrontiert wurde, kann entsprechende Projekte später besser einschätzen.“

Werkzeuge für die Datenanalyse jenseits einzelner Omics-Ebenen

Metabolomics-Beispiel: Ausschnitt eines Stoffwechselweges, der mithilfe von Bioinformatik-Auswertungen visualisiert wurde. Im Hintergrund die Datenpeaks in dreidimensionaler Darstellung. © Kohlbacher, Universität Tübingen

Das jüngste Kind der Tübinger Bioinformatik ist das CiBi - Center for Integrative Bioinformatics, das vom QBiC und ZBIT getragen wird. Das CiBi ist eines von sechs Leistungszentren in Deutschland, die zusammen das „de.NBI“ bilden, das Deutsche Netzwerk für Bioinformatik-Infrastruktur. Dahinter verbirgt sich eine Infrastruktur-Initiative des BMBF, mit der Hardware, Datenressourcen und bioinformatorische Werkzeuge in den Lebenswissenschaften erweitert, verbessert und nachhaltig sichergestellt werden sollen. In der bereits abgeschlossenen ersten Phase haben die Partner das Konzept dafür entwickelt, ab 2015 geht es an die Umsetzung. Dabei bilden die Tübinger Bioinformatiker mit Kollegen aus Konstanz und Berlin eine Art Netzwerk im Netzwerk mit dem Ziel, mehrere Omics-Technologien in der Bioinformatik zu kombinieren.

Kohlbacher erläutert den besonderen Charme daran: „Eine einzelne Omics-Technologie liefert jeweils nur eine Sichtebene auf die Zelle. Eine ganze Reihe von biologischen Prozessen sind jedoch nur aus einer Kombination der Omics-Technologien heraus zu verstehen. Für derart komplexe Auswertungen benötigen wir zunächst parallele Datenreduktionen auf mehreren Omics-Ebenen, um das Ganze dann zusammenzuführen.“ Für diese Prozesse wird ein strukturierter Arbeitsplan – ein Workflow – benötigt. Die Technologie für solche Workflows stellt Konstanz, während Berlin für Tools des Next Generation Sequencing zuständig ist. Tübingen bringt Werkzeuge für Proteomics und Metabolomics ein. Ziel ist es, die kombinierten Analysen reproduzierbar zu machen. „Bei dieser Komplexität wird es immer schwieriger, die Analyse nachvollziehbar zu machen. Häufig wird nur unzureichend dokumentiert, welches Tool mit welchen Parametern benutzt wurde. Dem wollen wir abhelfen und passende Dokumentationsstrukturen entwickeln“, so Kohlbacher. Das Tübinger Team wird nun wie die anderen Partner im Rahmen des de.NBI fünf Jahre lang vom BMBF gefördert, um die Aktivitäten einer übergreifenden Infrastruktur zufließen zu lassen.

Glossar

  • Ein Gen ist ein Teil der Erbinformation, der für die Ausprägung eines Merkmals verantwortlich ist. Es handelt sich hierbei um einen Abschnitt auf der DNA, der die genetische Information zur Synthese eines Proteins oder einer funktionellen RNA (z. B. tRNA) enthält.
  • Das Genom ist die gesamte Erbsubstanz eines Organismus. Jede Zelle eines Organismus verfügt in Ihrem Zellkern über die komplette Erbinformation.
  • Mit Kompetenz im biologischen Sinn ist die Eigenschaft eines Bakteriums gemeint, DNA von außen aufnehmen zu können.
  • Proteine (oder auch Eiweiße) sind hochmolekulare Verbindung aus Aminosäuren. Sie übernehmen vielfältige Funktionen in der Zelle und stellen mehr als 50 % der organischen Masse.
  • Nukleotidsequenzen sind Abfolgen der Basen Adenin, Thymin, Guanin und Cytosin auf der DNA (bzw. Uracil statt Thymin bei RNA).
  • a) DNA-Sequenzierung ist eine Methode zur Entschlüsselung der Erbinformation durch Ermittlung der Basenabfolge. b) Protein-Sequenzierung ist eine Methode zur Ermittlung der Aminosäurenabfolge.
  • Bioinformatik ist eine Wissenschaft, die sich mit der Verwaltung und Analyse biologischer Daten mit Hilfe modernster Computertechnik, befasst. Dient derzeit hauptsächlich zur Vorhersage der Bedeutung von DNA-Sequenzen, der Proteinstruktur, des molekularen Wirkmechanismus und der Eigenschaften von Wirkstoffen. (2. Satz: mwg-biotech)
  • Das Proteom ist die Gesamtheit aller zu einem bestimmten Zeitpunkt unter definierten Bedingungen vorhandenen Proteine in einem Lebewesen, einem Gewebe oder einer Zelle.
  • Mit Hilfe der Hochdurchsatz-Technologie ist es möglich, in sehr kurzer Zeit viele Testdaten unterschiedlichster Art zu erzeugen. Dies wird meist erst durch Hilfe moderner Robotersysteme möglich.
  • Die Massenspektrometrie ist ein Verfahren zur Messung des Masse-zu-Ladung-Verhältnisses eines Teilchens. Bei biologischen Fragestellungen werden meist Proteine massenspektrometisch untersucht.
  • Bundesministerium für Bildung und Forschung
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/bioinformatiker-bringen-licht-in-den-daten-dschungel/