zum Inhalt springen
Powered by

Eine Maschinenlernmethode für die Vorhersage regulatorischer Interaktionen

Heidelberger Bioinformatiker haben eine neuartige Methode zur automatisierten Vorhersage regulatorischer Interaktionen entwickelt. Mit diesem maschinell lernenden RIP ("regulatory interaction predictor“)-Klassifikator lassen sich neue Interaktionen zwischen DNA-bindenden Transkriptionsfaktoren und ihren Zielgenen genomweit vorhersagen und wichtige Erkenntnisse über die genregulatorischen Netzwerke in komplexen Zellen gewinnen.

Die unterschiedliche Ausprägung und Funktion der etwa 200 Zelltypen des menschlichen Körpers hängen von den in den Zellen exprimierten Proteinen ab. Welche das sind, wird maßgeblich von der Aktivität der Protein-kodierenden Gene festgelegt. Diese lassen sich beispielsweise durch Genexpressionsanalysen mit Hilfe von mRNA-Microarrays nachweisen. Tatsächlich ist die Vielfalt der Genexpressionsmuster wegen der Fülle an unterschiedlichen Funktions- und Differenzierungszuständen und pathologischen Veränderungen noch um ein Vielfaches größer als die der Zelltypen. Komplexe, fein abgestimmte Regulationsmuster bestimmen die Expression dieser Gene. Eine zentrale Rolle spielen dabei genregulatorische Proteine, die als Transkriptionsfaktoren (TF) an die Promotorsequenzen der Gene binden und die Transkription durch die RNA-Polymerase initiieren oder aber unterdrücken.

Man kennt heute hunderte solcher DNA-bindender TFs für die Regulation der Transkription der 20.000 bis 22.000 menschlichen Gene, die Proteine kodieren. Die Regulationssysteme sind eng miteinander verknüpft. Eine detaillierte Rekonstruktion der regulatorischen Netzwerke auf der Basis des ganzen Genoms ist aber bisher wegen der enorm hohen Zahl möglicher Kombinationen von TFs und Zielgenen und wegen des Mangels an verfügbaren standardisierten experimentellen Daten und Techniken nicht möglich.

Integrative Bioinformatik und Systembiologie (iBioS)

Die „Network Modeling Group“, ein Team Heidelberger Bioinformatiker und Systembiologen, hat ein leistungsfähiges Bioinformatik-Instrument für die Analyse der Genexpressionsdaten entwickelt, um die Regulationsnetzwerke besser zu verstehen. Es handelt sich um eine als RIP-Klassifikator („regulatory interaction predictor“) bezeichnete neuartige Maschinenlernmethode. Mit dieser können die regulatorischen Interaktionen zwischen TFs und den DNA-Sequenzen der Zielgene bei höheren Eukaryoten wie dem Menschen vorhergesagt werden. Die Wissenschaftler erhoffen sich davon auch die Identifizierung krankheitsspezifischer Wirkstoff-Targets für eine verbesserte individualisierte Therapie bei Krankheiten wie Krebs.

„Network Modeling“ ist eine Projektgruppe von „iBioS – Integrative Bioinformatics and Systems Biology“, einer aus der Abteilung Theoretische Bioinformatik des Deutschen Krebsforschungszentrums und dem Department Bioinformatik und Funktionelle Genomik am Institut für Pharmazie und Molekulare Biotechnologie der Universität Heidelberg gemeinsam gebildeten Forschungsgruppe, die von Professor Dr. Roland Eils geleitet wird. iBioS ist auch Teil des Forschungsnetzwerks BioQuant, dem Zentrum für Systembiologie der Universität Heidelberg.

PD Dr. Rainer König, Institute of Pharmacy and Molecular Biotechnology (IPMB) – BioQuant © Universität Heidelberg

Zielsetzungen von iBioS liegen einerseits in der Entwicklung computergestützter Methoden zur Analyse der riesigen komplexen Datenmengen, wie sie durch die modernen Hochdurchsatz-Technologien der Lebenswissenschaften generiert werden. Andererseits sollen mathematische Modelle entwickelt werden, mit denen das Verhalten von Schlüsselprozessen zellulärer Systeme und ihrer krankhaften Veränderungen beschrieben werden kann.

Projektleiter der Network Modeling Group ist Privatdozent Dr. Rainer König. Der von ihm und seinem Team entwickelte RIP-Klassifikator sucht nach Merkmalen von Promotorsequenzen, die als TF-Bindestellen fungieren können (sogenannte Motive). Diese Merkmale werden korreliert mit experimentell bestätigten regulatorischen Interaktionen zwischen TFs und Zielgenen, die aus einer öffentlich zugänglichen Datenbank (TRANSFAC) entnommen werden, sowie mit den aus Microarrays gewonnenen Genexpressionsdaten. Aus den experimentell nachgewiesenen regulatorischen Interaktionen der TRANSFAC-Datenbank wurde eine Anzahl Merkmale selektiert, die als "Gold-Standard" dienten. An diesen wurden sogenannte Support-Vektor-Maschinen (das sind bestimmte Algorithmen oder mathematische Programme für maschinelles Lernen) trainiert, um automatisch neue regulatorische Interaktionen für einen großen Satz von TFs und Zielgenen vorherzusagen. In ihrer Gesamtheit bildeten die 2.000 Support-Vektor-Maschinen dann den RIP-Klassifikator.

Der RIP-Klassifikator

Microarray für Genexpressionsanalysen. © DKFZ

König und sein Mitarbeiter Dr. Tobias Bauer beschrieben ihre Vorgehensweise für die Entwicklung des RIP-Klassifikators folgendermaßen: „Für unseren Ansatz wurden Motivsuchen für 303 Transkriptionsfaktoren in den Promotorsequenzen von 13.069 Genen verwendet. Anschließend integrierten wir weitreichende Genexpressionsanalysen. Gene, die an gleichen biologischen Funktionen beteiligt sind, sind häufig koreguliert und infolgedessen koexprimiert. Deshalb wurde für jedes Genpaar der 13.069 Gene bestimmt, wie stark ihre Expression miteinander korreliert“ (Laborwelt 6/2011, p. 32). Je ähnlicher sich die Zellen und ihre Differenzierungszustände sind, umso mehr Koexpression und Koregulation sind zu erwarten.

Ausgewertet wurden die Genexpressionsdaten von mehr als 4.000 mRNA-Microarrays, die zum größten Teil von menschlichen Tumoren stammten. Wie die Heidelberger Wissenschaftler in der Fachzeitschrift Bioinformatics berichteten, konnten sie mit ihrem RIP-Klassifikator fast 74.000 regulatorische Interaktionen für 301 Transkriptionsfaktoren und über 11.000 Gene mit einer Sicherheit vorhersagen, die andere vergleichbare Vorhersagemethoden auf genomweiter Ebene übertrifft. Neben der Bestätigung bekannter Assoziationen zwischen TFs und Genen erlauben die Ergebnisse das Aufstellen neuer experimentell nachprüfbarer Hypothesen für die Regulation durch TFs. Darunter sind Signaltransduktions- und Stoffwechselwege, die grundlegende Bedeutung für den Zellzyklus, die Zellvermehrung und die Zelltransformation bei der Krebsentstehung besitzen.

Automatisierte Gensequenzierung © Institut für Humangenetik Heidelberg

Zur Überprüfung der vorhergesagten regulatorischen Interaktionen untersuchten König und seine Mitarbeiter die von Interferon-α (IFNα) induzierte Signaltransduktion bei Monozyten aus menschlichem Blut. Ihre Ergebnisse verglichen sie mit einer bereits publizierten mRNA-Microarray-Genexpressionsanalyse. Es zeigte sich, dass die von den Heidelberger Forschern identifizierten, mit 13 Schlüssel-TFs assoziierten Zielgene alle ohne Ausnahme zu den in der Literatur beschriebenen durch IFNα aktivierten Genen gehörten. Herausragend unter den TFs war der „Interferon-stimulated Gene Factor 3“, bei dem von den vorhergesagten 28 Zielgenen mehr als 70 Prozent differentiell exprimiert waren. Die Fallstudie zeigte auch, dass die mit dem RIP-Klassifikator vorhergesagten regulatorischen Interaktionen mit den ihren Funktionen entsprechenden Signal- und Stoffwechselwegen assoziiert sind.

Die von der Network Modeling Group von iBioS in Heidelberg vorgestellte Maschinenlernmethode ist prinzipiell unabhängig von irgendwelchen spezifischen Bedingungen. Sie kann grundsätzlich bei jedem gewünschten Zelltyp eine automatisierte Vorhersage von regulatorischen Interaktionen zwischen Transkriptionsfaktoren und ihren Zielgenen liefern und bei Bedarf auf weitere Gene und Transkriptionsfaktoren ausgedehnt werden. Die Methode funktioniert auch, wenn der Transkriptionsfaktor nicht mit dem Zielgen koexprimiert, sondern auf Proteinebene reguliert wird, da die verwendeten Merkmale nur aus der Analyse der koregulierten Zielgene abgeleitet werden. Der RIP-Klassifikator, der als Software-Paket der wissenschaftlichen Gemeinschaft frei zur Verfügung steht, kann auch weiterentwickelt werden, um beispielsweise weitere Merkmale aus neuen Hochdurchsatz-Technologien in die Korrelationsanalyse zu integrieren.

Literatur:
Bauer T, Eils R, König R: RIP: the regulatory interaction predictor – a machine learning-based approach for predicting target genes of transcription factors. Bioinformatics 27(16): 2239-47 (2011)
Bauer T, König R: Automatische Vorhersage der Interaktion von Zielgenen mit Proteinen. Laborwelt 12. Jg. Nr. 6: 32-34 (2011)

Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/fachbeitrag/aktuell/eine-maschinenlernmethode-fuer-die-vorhersage-regulatorischer-interaktionen