Powered by

Eine Maschinenlernmethode für die Vorhersage regulatorischer Interaktionen

Heidelberger Bioinformatiker haben eine neuartige Methode zur automatisierten Vorhersage regulatorischer Interaktionen entwickelt. Mit diesem maschinell lernenden RIP ("regulatory interaction predictor“)-Klassifikator lassen sich neue Interaktionen zwischen DNA-bindenden Transkriptionsfaktoren und ihren Zielgenen genomweit vorhersagen und wichtige Erkenntnisse über die genregulatorischen Netzwerke in komplexen Zellen gewinnen.

Die unterschiedliche Ausprägung und Funktion der etwa 200 Zelltypen des menschlichen Körpers hängen von den in den Zellen exprimierten Proteinen ab. Welche das sind, wird maßgeblich von der Aktivität der Protein-kodierenden Gene festgelegt. Diese lassen sich beispielsweise durch Genexpressionsanalysen mit Hilfe von mRNA-Microarrays nachweisen. Tatsächlich ist die Vielfalt der Genexpressionsmuster wegen der Fülle an unterschiedlichen Funktions- und Differenzierungszuständen und pathologischen Veränderungen noch um ein Vielfaches größer als die der Zelltypen. Komplexe, fein abgestimmte Regulationsmuster bestimmen die Expression dieser Gene. Eine zentrale Rolle spielen dabei genregulatorische Proteine, die als Transkriptionsfaktoren (TF) an die Promotorsequenzen der Gene binden und die Transkription durch die RNA-Polymerase initiieren oder aber unterdrücken.

Man kennt heute hunderte solcher DNA-bindender TFs für die Regulation der Transkription der 20.000 bis 22.000 menschlichen Gene, die Proteine kodieren. Die Regulationssysteme sind eng miteinander verknüpft. Eine detaillierte Rekonstruktion der regulatorischen Netzwerke auf der Basis des ganzen Genoms ist aber bisher wegen der enorm hohen Zahl möglicher Kombinationen von TFs und Zielgenen und wegen des Mangels an verfügbaren standardisierten experimentellen Daten und Techniken nicht möglich.

Integrative Bioinformatik und Systembiologie (iBioS)

Die „Network Modeling Group“, ein Team Heidelberger Bioinformatiker und Systembiologen, hat ein leistungsfähiges Bioinformatik-Instrument für die Analyse der Genexpressionsdaten entwickelt, um die Regulationsnetzwerke besser zu verstehen. Es handelt sich um eine als RIP-Klassifikator („regulatory interaction predictor“) bezeichnete neuartige Maschinenlernmethode. Mit dieser können die regulatorischen Interaktionen zwischen TFs und den DNA-Sequenzen der Zielgene bei höheren Eukaryoten wie dem Menschen vorhergesagt werden. Die Wissenschaftler erhoffen sich davon auch die Identifizierung krankheitsspezifischer Wirkstoff-Targets für eine verbesserte individualisierte Therapie bei Krankheiten wie Krebs.

„Network Modeling“ ist eine Projektgruppe von „iBioS – Integrative Bioinformatics and Systems Biology“, einer aus der Abteilung Theoretische Bioinformatik des Deutschen Krebsforschungszentrums und dem Department Bioinformatik und Funktionelle Genomik am Institut für Pharmazie und Molekulare Biotechnologie der Universität Heidelberg gemeinsam gebildeten Forschungsgruppe, die von Professor Dr. Roland Eils geleitet wird. iBioS ist auch Teil des Forschungsnetzwerks BioQuant, dem Zentrum für Systembiologie der Universität Heidelberg.

PD Dr. Rainer König, Institute of Pharmacy and Molecular Biotechnology (IPMB) – BioQuant © Universität Heidelberg

Zielsetzungen von iBioS liegen einerseits in der Entwicklung computergestützter Methoden zur Analyse der riesigen komplexen Datenmengen, wie sie durch die modernen Hochdurchsatz-Technologien der Lebenswissenschaften generiert werden. Andererseits sollen mathematische Modelle entwickelt werden, mit denen das Verhalten von Schlüsselprozessen zellulärer Systeme und ihrer krankhaften Veränderungen beschrieben werden kann.

Projektleiter der Network Modeling Group ist Privatdozent Dr. Rainer König. Der von ihm und seinem Team entwickelte RIP-Klassifikator sucht nach Merkmalen von Promotorsequenzen, die als TF-Bindestellen fungieren können (sogenannte Motive). Diese Merkmale werden korreliert mit experimentell bestätigten regulatorischen Interaktionen zwischen TFs und Zielgenen, die aus einer öffentlich zugänglichen Datenbank (TRANSFAC) entnommen werden, sowie mit den aus Microarrays gewonnenen Genexpressionsdaten. Aus den experimentell nachgewiesenen regulatorischen Interaktionen der TRANSFAC-Datenbank wurde eine Anzahl Merkmale selektiert, die als "Gold-Standard" dienten. An diesen wurden sogenannte Support-Vektor-Maschinen (das sind bestimmte Algorithmen oder mathematische Programme für maschinelles Lernen) trainiert, um automatisch neue regulatorische Interaktionen für einen großen Satz von TFs und Zielgenen vorherzusagen. In ihrer Gesamtheit bildeten die 2.000 Support-Vektor-Maschinen dann den RIP-Klassifikator.

Der RIP-Klassifikator

Microarray für Genexpressionsanalysen. © DKFZ

König und sein Mitarbeiter Dr. Tobias Bauer beschrieben ihre Vorgehensweise für die Entwicklung des RIP-Klassifikators folgendermaßen: „Für unseren Ansatz wurden Motivsuchen für 303 Transkriptionsfaktoren in den Promotorsequenzen von 13.069 Genen verwendet. Anschließend integrierten wir weitreichende Genexpressionsanalysen. Gene, die an gleichen biologischen Funktionen beteiligt sind, sind häufig koreguliert und infolgedessen koexprimiert. Deshalb wurde für jedes Genpaar der 13.069 Gene bestimmt, wie stark ihre Expression miteinander korreliert“ (Laborwelt 6/2011, p. 32). Je ähnlicher sich die Zellen und ihre Differenzierungszustände sind, umso mehr Koexpression und Koregulation sind zu erwarten.

Ausgewertet wurden die Genexpressionsdaten von mehr als 4.000 mRNA-Microarrays, die zum größten Teil von menschlichen Tumoren stammten. Wie die Heidelberger Wissenschaftler in der Fachzeitschrift Bioinformatics berichteten, konnten sie mit ihrem RIP-Klassifikator fast 74.000 regulatorische Interaktionen für 301 Transkriptionsfaktoren und über 11.000 Gene mit einer Sicherheit vorhersagen, die andere vergleichbare Vorhersagemethoden auf genomweiter Ebene übertrifft. Neben der Bestätigung bekannter Assoziationen zwischen TFs und Genen erlauben die Ergebnisse das Aufstellen neuer experimentell nachprüfbarer Hypothesen für die Regulation durch TFs. Darunter sind Signaltransduktions- und Stoffwechselwege, die grundlegende Bedeutung für den Zellzyklus, die Zellvermehrung und die Zelltransformation bei der Krebsentstehung besitzen.

Automatisierte Gensequenzierung © Institut für Humangenetik Heidelberg

Zur Überprüfung der vorhergesagten regulatorischen Interaktionen untersuchten König und seine Mitarbeiter die von Interferon-α (IFNα) induzierte Signaltransduktion bei Monozyten aus menschlichem Blut. Ihre Ergebnisse verglichen sie mit einer bereits publizierten mRNA-Microarray-Genexpressionsanalyse. Es zeigte sich, dass die von den Heidelberger Forschern identifizierten, mit 13 Schlüssel-TFs assoziierten Zielgene alle ohne Ausnahme zu den in der Literatur beschriebenen durch IFNα aktivierten Genen gehörten. Herausragend unter den TFs war der „Interferon-stimulated Gene Factor 3“, bei dem von den vorhergesagten 28 Zielgenen mehr als 70 Prozent differentiell exprimiert waren. Die Fallstudie zeigte auch, dass die mit dem RIP-Klassifikator vorhergesagten regulatorischen Interaktionen mit den ihren Funktionen entsprechenden Signal- und Stoffwechselwegen assoziiert sind.

Die von der Network Modeling Group von iBioS in Heidelberg vorgestellte Maschinenlernmethode ist prinzipiell unabhängig von irgendwelchen spezifischen Bedingungen. Sie kann grundsätzlich bei jedem gewünschten Zelltyp eine automatisierte Vorhersage von regulatorischen Interaktionen zwischen Transkriptionsfaktoren und ihren Zielgenen liefern und bei Bedarf auf weitere Gene und Transkriptionsfaktoren ausgedehnt werden. Die Methode funktioniert auch, wenn der Transkriptionsfaktor nicht mit dem Zielgen koexprimiert, sondern auf Proteinebene reguliert wird, da die verwendeten Merkmale nur aus der Analyse der koregulierten Zielgene abgeleitet werden. Der RIP-Klassifikator, der als Software-Paket der wissenschaftlichen Gemeinschaft frei zur Verfügung steht, kann auch weiterentwickelt werden, um beispielsweise weitere Merkmale aus neuen Hochdurchsatz-Technologien in die Korrelationsanalyse zu integrieren.

Literatur:
Bauer T, Eils R, König R: RIP: the regulatory interaction predictor – a machine learning-based approach for predicting target genes of transcription factors. Bioinformatics 27(16): 2239-47 (2011)
Bauer T, König R: Automatische Vorhersage der Interaktion von Zielgenen mit Proteinen. Laborwelt 12. Jg. Nr. 6: 32-34 (2011)

Glossar

  • Biotechnologie ist die Lehre aller Verfahren, die lebende Zellen oder Enzyme zur Stoffumwandlung und Stoffproduktion nutzen.
  • Desoxyribonukleinsäure (DNS / DNA) trägt die genetische Information. In den Chromosomen liegt sie als hochkondensiertes, fadenförmiges Molekül vor.
  • Eukaryonten sind Organismen, deren Zellen einen Zellkern und Organellen besitzen. Zu den Eukaryonten gehören Protozoen (Einzeller), Algen, Pilze, Pflanzen und Tiere (einschließlich Mensch).
  • Ein Expressionsvektor ist eine Genfähre, mit der man ein Gen für ein bestimmtes Protein in eine Wirtszelle (z.B. E. coli, Hefezellen) einschleusen kann. Außerdem ermöglicht der Expressionsvektor die Umsetzung des Gens in das Protein in der Wirtszelle, da er alle nötigen Regulationselemente hierfür enthält.
  • Ein Gen ist ein Teil der Erbinformation, der für die Ausprägung eines Merkmals verantwortlich ist. Es handelt sich hierbei um einen Abschnitt auf der DNA, der die genetische Information zur Synthese eines Proteins oder einer funktionellen RNA (z. B. tRNA) enthält.
  • Genexpression ist der Begriff für die Biosynthese eines Genprodukts (= Umsetzung der genetischen Information in Proteine). Sie erfolgt in der Regel als Transkription von DNA zu mRNA und anschließender Translation von mRNA zu Protein.
  • Das Genom ist die gesamte Erbsubstanz eines Organismus. Jede Zelle eines Organismus verfügt in Ihrem Zellkern über die komplette Erbinformation.
  • Interferone sind drei Arten eng verwandter Proteine (a, b- und g-Interferon), die bei einer Virusinfektion von unterschiedlichen Zellen ausgeschüttet werden. Sie verhindern die Virusvermehrung. Interferone werden auch bei der Behandlung bestimmter Krebsarten eingesetzt.
  • Ein Promotor ist ein Abschnitt auf der DNA, der die Expression der dahinter liegenden Gene reguliert. Dies geschieht, indem DNA-bindende Proteine, so genannte Transkriptionsfaktoren, an den Promotor binden und so ein Startsignal für die RNA-Polymerase geben, welche eine mRNA-Kopie der Gene anfertigt.
  • Proteine (oder auch Eiweiße) sind hochmolekulare Verbindung aus Aminosäuren. Sie übernehmen vielfältige Funktionen in der Zelle und stellen mehr als 50 % der organischen Masse.
  • Die Ribonukleinsäure (Abk. RNS oder RNA) ist eine in der Regel einzelsträngige Nukleinsäure, die der DNA sehr ähnlich ist. Sie besteht ebenfalls aus einem Zuckerphosphat-Rückgrat sowie einer Abfolge von vier Basen. Allerdings handelt es sich beim Zuckermolekül um Ribose und anstelle von Thymin enthält die RNA die Base Uracil. Die RNA hat vielfältige Formen und Funktionen; sie dient z. B. als Informationsvorlage bei der Proteinbiosynthese und bildet das Genom von RNA-Viren.
  • Unter Selektion im biologischen Sinn versteht man die Auslese von Organismen aufgrund ihrer Merkmale. Dies kann einerseits durch natürliche Selektionsmechanismen ("survival of the fittest") im Zuge der Evolution geschehen. Unter künstlicher Selektion versteht man andererseits die Auslese von Organismen durch den Menschen, z.B. in der Zucht. Auch in der Gentechnik wird künstliche Selektion angewandt, um einen gentechnisch veränderten Organismus anhand neu eingebrachter Eigenschaften (z. B. Antibiotikaresistenz) zu identifizieren.
  • Nukleotidsequenzen sind Abfolgen der Basen Adenin, Thymin, Guanin und Cytosin auf der DNA (bzw. Uracil statt Thymin bei RNA).
  • Transduktion hat im biologischen Kontext zwei Bedeutungen: 1) Bei der Signaltransduktion wird ein äußerer Reiz (z.B. Licht) in ein physiologisches Signal (Nervenimpuls) umgewandelt und zum Gehirn weitergeleitet. Zum anderen wird aber auch die Vermittlung eines Signals in eine Zelle (z.B. Hormonwirkung) als Signaltransduktion bezeichnet. 2) In der Genetik ist mit dem Begriff Transduktion die Übertragung von DNA durch Viren von einem Bakterium auf das andere gemeint. Dieser natürlichen Vorgang wird auch in der Gentechnik angewandt.
  • Transformation ist die natürliche Fähigkeit mancher Bakterienarten, freie DNA aus der Umgebung durch ihre Zellwand hindurch aufzunehmen. In der Gentechnik wird die Transformation häufig dazu benutzt, um rekombinante Plasmide, z. B. in E. coli, einzuschleusen. Hierbei handelt es sich um eine modifizierte Form der natürlichen Transformation.
  • Mit Transkription im biologischen Sinn ist der Vorgang der Umschreibung von DNA in RNA gemeint. Dabei wird mithilfe eines Enzyms, der RNA-Polymerase, ein einzelsträngiges RNA-Molekül nach der Vorlage der doppelsträngigen DNA synthetisiert.
  • Bioinformatik ist eine Wissenschaft, die sich mit der Verwaltung und Analyse biologischer Daten mit Hilfe modernster Computertechnik, befasst. Dient derzeit hauptsächlich zur Vorhersage der Bedeutung von DNA-Sequenzen, der Proteinstruktur, des molekularen Wirkmechanismus und der Eigenschaften von Wirkstoffen. (2. Satz: mwg-biotech)
  • In einem "Array" sind viele Proben fein säuberlich nebeneinander aufgetragen. Es ist ein Medium, mit dem bekannte und unbekannte DNA-Sequenzen und Proteine aufgrund von Basenpaarungen und Protein-Protein-Interaktionen in großem Durchsatz identifiziert werden.
  • Ein Transkriptionsfaktor ist ein Protein, dass die Herstellung einer RNA-Kopie eines Gens (Transkription) steuert. Transkriptionsfaktoren binden an bestimmte Sequenzen auf der DNA und interagieren mit der RNA-Polymerase, die dadurch ihre Transkriptionsaktivität verändert.
  • Ein Tumor ist eine Gewebsschwellung durch abnormales Zellwachstum, die gutartig oder bösartig sein kann. Gutartige (benigne) Tumore sind örtlich begrenzt, während Zellen bösartiger (maligner) Tumore abgesiedelt werden können und in andere Gewebe eindringen können, wo sie Tochtergeschwulste (Metastasen) verursachen.
  • Die Expression ist die Biosynthese eines Genprodukts (= Umsetzung der genetischen Information in Proteine). Sie erfolgt in der Regel als Transkription von DNA zu mRNA und anschließender Translation von mRNA zu Protein.
  • Die Zelldifferenzierung bezeichnet die Spezialisierung von Zellen in Bezug auf ihre Funktion und ihre Struktur. So entstehen aus undifferenzierte Stammzellen verschiedene Zelltypen wie Herzmuskel-, Nerven- oder Leberzellen, die ganz unterschiedlich ausssehen und verschiedene Aufgaben erfüllen.
  • Die Pathologie ist ein Teilgebiet der Medizin, das sich mit der Erforschung und Lehre von den Ursachen, der Entstehung, der Verlaufform und der Auswirkungen von krankhaften Symptomen sowie von Missbildungen beschäftigt.
  • Molekular bedeutet: auf Ebene der Moleküle.
  • Ein Polymer ist eine aus gleichartigen Einheiten aufgebaute kettenartige oder verzweigte chemische Verbindung. Die meisten Kunststoffe sind Polymere auf Kohlenstoffbasis.
  • Mit Hilfe der Hochdurchsatz-Technologie ist es möglich, in sehr kurzer Zeit viele Testdaten unterschiedlichster Art zu erzeugen. Dies wird meist erst durch Hilfe moderner Robotersysteme möglich.
  • Messenger-RNA (Abk.: mRNA) ist eine Ribonukleinsäure, die eine Kopie eines kurzen DNA-Stücks darstellt und als Vorlage für die Synthese eines spezifischen Proteins dient.
  • Als Target (engl.:Ziel) werden Biomoleküle bezeichnet, an die Wirkstoffe binden können. Targets können Rezeptoren, Enzyme oder Ionenkanäle sein. Die Interaktion zwischen Wirkstoff und Target löst eine Wirkstoff-Target-spezifische Reaktion aus. Die Identifikation eines Targets ist für die biomedizinische und pharmazeutische Forschung von großer Bedeutung. Erkenntnisse über spezifische Wechselwirkungen helfen grundlegende molekularbiologische Vorgänge zu verstehen und neue Angriffpunkte für Arzneimittel zu identifizieren.
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/eine-maschinenlernmethode-fuer-die-vorhersage-regulatorischer-interaktionen/