zum Inhalt springen
Powered by

Molekularbiologie erhält Schützenhilfe von Informationstheorie

Was haben Internet und Mobilfunk mit der Teilung von Hefezellen oder Viren gemeinsam? Eine ganze Menge, sagt der Ulmer Professor Martin Bossert vom Institut für Telekommunikationstechnik und Angewandte Informationstheorie. Der 55jährige Ingenieur koordiniert ein interdisziplinäres Schwerpunktprogramm der Deutschen Forschungsgemeinschaft (DFG, SPP 1395 Informations- und Kommunikationstheorie in der Molekularbiologie), das informationstheoretische Ansätze auf Fragestellungen der Biologie anwendet.

Mithilfe informationstheoretischer Modelle, so die begründete Hoffnung des Koordinators Bossert, lassen sich Vorhersagen zum zellulären Verhalten für die Biologen treffen, die teure Messungen überflüssig machen. Auch fehlerhafte Sequenzierungsdaten der Biologen ließen sich durch Fehlererkennung berichtigen.

Das Ländle stellt den Löwenanteil

Prof. Dr. Martin Bossert koordiniert das neue DFG-Programm. © Uni Ulm

In Deutschland ist dieser interdisziplinäre Ansatz relativ neu, in Kalifornien oder Großbritannien arbeiten nach Bosserts Beobachtung längst Informationstheoretiker und Lebenswissenschaftler in eigens errichteten Forschungsgebäuden zusammen. Der Ulmer ist einer der wenigen Informationstheoretiker hierzulande. Acht Kollegen gibt es noch an deutschen Universitäten.

Die Informationstheorie wurde vom US-Amerikaner Claude Elwood Shannon Ende der 40er Jahre begründet. Aufschlussreich in diesem Zusammenhang ist die Tatsache, dass sich der 2001 verstorbene Mathematiker und Elektrotechniker bereits 1940 in seiner Doktorarbeit am MIT („An algebra for theroretical genetics“) der Genetik mit mathematischen Ansätzen genähert hatte. Nur wenige Jahre später, mit der Entdeckung der Doppelhelix der DNA 1953 war klar, dass die Information des Lebens digital war, sie aus vier Buchstaben besteht. Dass auch Gregor Mendels Vererbungslehre viel mit Mathematik zu tun habe, erwähnt Martin Bossert, um seinem Ansatz die Exotik zu nehmen.

Der Ulmer Ingenieur selbst erörterte bereits vor 20 Jahren mit russischen Kollegen die Gemeinsamkeiten von Informationstheorie und Genetik, ehe er 2004 das Thema wieder aufgriff, einen Assistenten einstellte, der die aufwändigen Vorarbeiten in Angriff nahm, bevor er den Antrag mit seinem Münchener Kollegen Joachim Hagenauer (TU München) sowie Hans Peter Herzel (Institut für Theoretische Biologie, Humboldt Universität) und dem Ulmer Evolutionsbiologen Michael Kühl (Institut für Biochemie und Molekulare Biologie) einreichte.

Die DNA, ein informationshaltiger File

„Eigentlich war es nicht schwer“, sagt Bossert und verweist auf ähnliche komplexe Systeme im Mobilfunk und Internet, denn die Vorgänge in einer Zelle lassen sich mit informationstheoretischen Methoden beschreiben. Ungeachtet der (bio-)chemischen Vorgänge und Prozesse in einer Zelle gibt es nach seinen Worten eine „Festplatte, auf der sich alle Arbeitsanweisungen finden, die DNA, eine lange Sequenz aus vier Buchstaben. In der Informationstheorie wäre das ein informationshaltiger File, bestehend aus einem vierwertigen Alphabet.“

„Gleiche Mechanismen in Zellbiologie und Kommunikation“

Spannend findet Bossert, dass sich Nachrichtentechnik und Informationstheorie mit denselben Problemen herumschlagen wie Biologen. „Wir sehen irgendwo Information, die von irgendwoher kommt, sei es als eine Folge von Buchstaben beziehungsweise Symbolen,“ sagt Bossert. Das sei bei einer Zelle genauso wie beispielsweise im Internet. Auch in einer Zelle müsse man wissen, wo der Prozess beginne, wo die DNA begonnen werde abzulesen, welche Aminosäuresequenz zum Protein codiere. Im Internet stelle sich dieselbe Frage: Wo fängt das Datenpaket an, wo hört es auf, hier wie dort müsse man wissen, wo der Leserahmen anfängt, wo er aufhört. „Wir nennen das Synchronisation, sagt Bossert.

Ohne Informationstheorie kein Handy oder Navi

Dass die Informationstheorie hierzulande relativ unbekannt sei, kann Bossert eigentlich nicht verstehen, denn sie bestimme unser tägliches Leben. Viele unserer Kommunikationsmedien wie Navigationssystem, DVD, CD oder Handy werden geprägt von den Aussagen der Informationstheorie.

Sie hat als Grundlage ein mathematisches Maß für Information. Die Theorie basiert auf Wahrscheinlichkeitsrechnung und kann auch Aussagen darüber treffen, wie viel klar definierte Information man über einen bestimmten Kanal übertragen kann. Anders formuliert: Sie gibt bei einer Datenquelle das Maß dafür an, wie viele bits (kleinste Informationseinheiten) verwendet werden können, um diese Datenquelle verlustfrei zu codieren. Zwei Axiome prägen die Informationstheorie, erklärt Bossert: Bei einem gegebenen Kanal lässt sich berechnen, wie viel Information sich überhaupt übertragen lässt. Und bei einer gegebenen Quelle, wie viele bits mindestens benötigt werden, um diese Quelle verlustfrei zu codieren. Ohne die Informationstheorie gäbe es heute kein E-Mail oder Handy, führt Bossert aus.

Die Funktionen und Aussagen der Informationstheorie sind unabhängig vom physikalischen Medium“, weshalb einige der weit gediehenen Theorien sich auf die Biologie anwenden lassen, auf Zellbiologie oder interzelluläre Kommunikation. „Das war die Grundidee für diesen Schwerpunkt“, erklärt Martin Bossert.

Anders als die Bioinformatik, die mit effektiven Algorithmen bestimmte Merkmale aus riesigen Datenstrukturen herausfischt, bildet die Informationstheorie eher Modelle, um Beobachtungen zu erklären. Allein die Bioinformatik reiche nicht mehr aus, es brauche auch informations- und kommunikationstheoretische Herangehensweisen, um die monströse Datenmenge der Lebenswissenschaftler zu bearbeiten und zu analysieren.

Informationstheoretiker entdeckten sogar Meerschweinchen-Rätsel

Der Antrag bei der DFG wäre wohl nicht genehmigt worden, wäre nicht schon vorher der Beweis geführt worden, dass sich informationstheoretische Modelle auf die Molekularbiologie übertragen lassen. Der Münchener Informationstheoretiker Joachim Hagenauer zeigte, dass sich mit Hilfe der wechselseitigen Information phylogenetische Aussagen zu miteinander verglichener DNA treffen lassen. Die wechselseitige Information gibt die Stärke des statistischen Zusammenhangs zweier Zufallsgrößen an.
Die Wissenschaftler, die keine biologischen Vorkenntnisse besaßen, errechneten aus der online verfügbaren DNA verschiedener Tiere deren wechselseitige Information und schlossen nach dem Maß der wechselseitigen Information auf den Grad der Verwandtschaft. Die errechnete Phylogenese wurde nicht nur von den Biologen bestätigt. Verblüffend war auch, dass die Informationstheoretiker wie die Biologen schon viele Jahre vorher das phylogenetische Rätsel des Meerschweinchens nicht lösen konnten. Den Informationstheoretikern war aufgefallen, dass sich das Meerschweinchen jeder phylogenetischen Zuordnung entzog. Das Pikante daran war, dass auch den Biologen eine solche Zuordnung bislang misslungen war. (P. Hanus, J. Dingel, J. Zech, J. Hagenauer und J. C .Mueller, Information theoretic distance measures in phylogenetics, Proceedings of the International Workshop on Information Theory and Applications, Jan. 2007, S. 421-425)

In enger Zusammenarbeit zwischen Molekularbiologen (TUM München), Informatikern (UKON Konstanz) und Informationstheoretikern (TAIT Ulm) sollen neue überlappende proteincodierende DNS-Sequenzen gefunden und die grundlegenden Mechanismen verstanden werden.

Das Phänomen überlappender Gene

An zwei Projekten wirkt der Ulmer DFG-Koordinator Bossert selber mit. Zusammen mit dem Mikrobiologen Siegfried Scherer (Lehrstuhl für mikrobielle Ökologie, TU München) und dem Konstanzer Informatiker Daniel Keim soll das Phänomen der überlappenden Gene bei Prokaryoten angegangen werden. Jüngste Veröffentlichungen deuten darauf hin, dass es mehr überlappende Gene als angenommen gibt. Zum einen erhofft man sich Antworten auf die Frage nach deren Häufigkeit und zum anderen Aussagen zu deren evolutionärer Entstehung, insbesondere von bakteriellen Krankheitserregern.

Die Datenflut bändigen soll der Informatiker, während der Biologe nachweist, ob bestimmte DNA-Bereiche codierend sind. Ziel des Vorhabens ist es, codierende Bereiche auf der DNA vorherzusagen. Hierbei kommt das Ulmer Know-how zur Codierungstheorie (Fehlerkorrektur-Code, Zufalls-Codierung) zum Einsatz. Im Abgleich von molekularbiologischem Wissen und Prognose-Modellen sollten dann nur diejenigen Bereiche auf der bakteriellen DNA identifiziert werden, welche mit hoher Wahrscheinlichkeit codieren. Damit, so die Hoffnung, ließen sich teure Messungen einsparen.

Die Abbildung zeigt ein beispielhaftes regulatives Boolsches Netzwerk für den Metabolismus des Bakteriums Escherichia coli. Die Knoten stellen Gene und Metaboliten dar. Regulative Abhängigkeiten werden durch Kanten repräsentiert. Anhand dieses Netzwerkes wird die evolutive Adaptation des Bakteriums untersucht. © Uni Ulm

Vorhersagen, wie E. coli reagiert

In einem zweiten Projekt arbeitet der Ulmer Informationstheoretiker mit dem Biologen Georg Sprenger (Institut für Mikrobiologie, Uni Stuttgart) und dem Regelungstechniker Oliver Sawodny (Institut für Symstemdynamik, Uni Stuttgart) zusammen. Die Stuttgarter verfügen seit einigen Jahren über einen „Escherichia-coli-Computer“, der E.-coli-Stämme zur gerichteten Evolution „zwingt“. Gegeben sind Eingang und gemessene Stoffwechselprodukte, so lautet grob die Ausgangslage für den Informationstheoretiker, der rechnerisch und mit Modellen vorhersagen will, welche Vorgänge respektive Variablen im E.-coli-Stamm auftreten. Das sei, erklärt Bossert, derselbe Ansatz wie bei einem Mobilfunkgerät, das etwas empfängt, und der dann eine Aussage treffen wolle, was gesendet wurde. Bossert und seine Stuttgarter Partner wollen ausrechnen und modellieren, mit welchen Proteinkonzentrationen und Protokollen der E.-coli-Stamm bestimmte Mutationen durchführt, um in einen bestimmten evolutionären Zustand zu gelangen.

Graphik mit farbigen und schwarzen Punkten sowie grauen Linien. Sie zeigt die Wechselwirkungen bei der Stoffwechselregulation in einem Bakterium.
Das regulatorische Netzwerk für den Metabolismus des Bakteriums Escherichia coli. Die Knoten repräsentieren Umweltbedingungen, Regulatoren, Gene und Metabolite. Regulatorische Abhängigkeiten werden durch Kanten dargestellt. Anhand dieses regulatorischen und einem zusätzlichen metabolischen Netzwerk werden Vorhersagen zur evolutiven Adaptation von E. coli in einem Bioreaktor gemacht, nachdem ein zentraler Stoffwechselweg blockiert wurde. Externe Metabolite (grün), Stimuli (rot), Eingänge, die keine Stimuli sind (orange), Gene (schwarz), Transkriptionsfaktoren (blau). [Daten: Covert et al, 2004, NATURE; Bild: Heckel, DA, 2010, TAIT.] © Universität Ulm

Tatsächlich hat es einige Jahre gedauert, bis sich Informationstheoretiker und Biologen verstanden. Auf beiden Seiten war viel Nachholbedarf im jeweils anderen Fachbereich nötig, denn Anträge für den DFG-Schwerpunkt sollten Biologen und Informationstheoretiker gemeinsam formulieren.

In den 60 Jahren ihres Bestehens verfügt die Informationstheorie über ein großes Repertoire an Aussagen, Sätzen, Theoremen, Verfahren und Algorithmen, sagt Bossert. Dass sich deren Anwendbarkeit für biologische Fragestellungen eignet, wird nach seiner Überzeugung das DFG-Schwerpunktprogramm zeigen. Dass die neue interdisziplinäre Allianz von Informationstheoretikern und Molekularbiologen die Förderung überdauert, hat Bossert schon im Ausland demonstriert bekommen.

Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/fachbeitrag/aktuell/molekularbiologie-erhaelt-schuetzenhilfe-von-informationstheorie