Powered by

Computerdaten ganz neu betrachtet: H-Maps

Datenbanken sind klassische Werkzeuge, um Computerdaten zu erfassen, zu verwalten und tabellarisch darzustellen. Die Tübinger Hölle & Hüttner AG hat mit den H-Maps eine völlig neue Lösung entwickelt: eine semantische Wissensmatrix, die Informationen assoziiert und als übersichtliche Netzwerke darstellt. Der Nutzer erhält schnell einen Überblick und erkennt neue Zusammenhänge.

Segen oder Fluch oder beides? Wer in den Life Sciences arbeitet, ist häufig mit Unmengen von Daten konfrontiert. Sinnvoll nutzen lassen sie sich nur mithilfe eines möglichst maßgeschneiderten Datenmanagements. Bisher werden dafür meist Datenbanken eingesetzt, die entweder vom Benutzer selbst oder von Dienstleistern für den spezifischen Bedarf angepasst und erweitert werden. Das Tübinger Bioinformatik-Unternehmen Hölle & Hüttner AG geht jetzt einen Schritt weiter und präsentiert mit H-Maps eine Wissensmanagement-Lösung, die nicht nur Daten sammelt und verwaltet, sondern sie über assoziative Vernetzungen in Bezug zueinander setzt. Die Zusammenhänge werden dem Nutzer übersichtlich darstellt – genau so, wie er es jeweils wünscht.

Komplexe Beziehungen und wie man damit umgeht

„Da es nicht nur sehr viele Informationen gibt, sondern diese auch erklärungsbedürftig sind, wollten wir eine semantische Technologie einsetzen. Nun sind die Entwicklungen dazu noch sehr jung und es gibt viele Ansätze. Wir haben den ISO-Standard der Topic Maps gewählt, weil wir davon ausgehen, dass er langfristig Bestand hat“, erklärt Dr. Steffen Hüttner, einer der beiden Geschäftsführer und Vorstandsmitglied der Hölle & Hüttner AG.

Dr. Steffen Hüttner © Hölle & Hüttner

Die Semantik wird in diesem Zusammenhang als die Lehre von der Bedeutung sprachlicher Einheiten verstanden. Das können Wortgruppen, Wörter oder Wortbestandteile sein, so wie die Wortendung -e wie bei Brote die Bedeutung von Mehrzahl haben kann. Das Besondere an semantischen Informationssystemen: Sie erkennen aus dem programmierten Kontext heraus, ob und wann zum Beispiel mit dem Wort Base eine Verwandte oder der Bestandteil einer Nukleinsäure gemeint ist.

Auf der Basis der Topic Maps hat Hüttners Team die H-Maps entwickelt. Grundelemente jeder Map sind die Topics: Gegenstände (Produkte, Forschungsobjekte usw.) aus der realen Welt oder auch abstrakte Begriffe. Sie können mit den verschiedensten Informationen (Belegstellen, engl. Occurences) versehen werden, bei einem Produkt zum Beispiel mit der chemischen Zusammensetzung, aber auch mit Bussiness-Daten wie der Bestellnummer oder dem Lagerbestand. Das allein ist noch nichts Besonderes und wird von vielen Datenbanken geleistet. Bei H-Maps kommen dann jedoch die Verknüpfungen, die Assoziationen ins Spiel.

Das TAO der Informationstechnologie

Der H-Maps Navigator ist das visuelle Herzstück der Software-Anwendung und setzt die vorherigen Schritte grafisch um. Er ermöglicht die bildliche Darstellung der einzelnen Abhängigkeiten und Verbindungen innerhalb der Topic Map. © Hölle & Hüttner AG
Topics, Associations, Occurences, kurz TAO - diese drei bilden das Rückgrat der neuen Technologie. Einfache Assoziationen kennt man bereits von der Software bei Online-Händlern, die zum Beispiel angibt, mit welchen anderen Produkten das ausgewählte Stück gerne gekauft wird. H-Maps setzen Assoziationen auf wesentlich höherem Niveau ein. „Die Daten wissen quasi schon, was sie bedeuten, H-Maps ähneln eher einer Matrix als einer gewöhnlichen Datenbank. Wir visualisieren damit nicht mehr einzelne Informationen, sondern Vernetzungen", sagt Hüttner. Das Raffinierte: Ein bestimmter Gegenstand oder Topic kann je nach Zusammenhang eine bestimmte Rolle einnehmen, mit Attributen und Verknüpfungen, die der Gegenstand in einer anderen Rolle nicht oder nicht in demselben Ausmaß hat. Ein Beispiel aus dem Biotech-Bereich: Das Enzym XY kann als Firmenprodukt (eventuell mit separatem Produktnamen, Produktnummer usw.), als Stoffwechselprodukt eines Mikroorganismus oder als Biokatalysator für die Reaktion AB dargestellt werden - mit den jeweils spezifischen Informationen. Diese rollenbasierte Modellierung ist eine der Stärken der neuen Technologie. „Das hat auch den Reiz, dass wirtschaftliche und wissenschaftliche Daten gemeinsam dargestellt werden können", ergänzt Hüttner.

Daten sammeln, verarbeiten, darstellen

Die gesamte H-Map-Software besteht aus drei Komponenten. Zunächst müssen Daten ins System gelangen, dafür ist das „Mapping Framework“ zuständig. Damit werden Quelldaten (.xml, .csv oder .rdf-Dateien) eingelesen und aufbereitet. Sie stehen dann der Komponente „Engine & Server“ zur Verfügung. Die Engine wird üblicherweise auf einem Server installiert, der die Daten verwaltet und im internen Netz oder auch extern, etwa über das Internet, zur Verfügung stellt. Mithilfe des bereitgestellten Servers kann die Software individuell den Bedürfnissen des Kunden angepasst werden.

Viel Wert legte Hölle & Hüttner auf eine benutzerfreundliche grafische Oberfläche, die intuitiv zu bedienen ist. Die grafische Darstellung übernimmt der „H-Maps Navigator“, er bildet die Schnittstelle zum Benutzer. Hierin steckt ebenfalls viel Entwicklungsarbeit, denn es ist eine Sache, verknüpfte Wissensstrukturen zu generieren, aber eine zweite, ebenso wichtige, diese Strukturen so zu visualisieren, dass sie leicht zu erfassen und zu bearbeiten sind. Das wird noch dadurch erschwert, dass die Datenbestände häufig sehr heterogen sind, aber eine einheitliche Darstellung gewünscht wird. „Die Herausforderung für unsere Entwickler war, nicht wie bei anderen Systemen immer mehr Informationen darstellbar zu machen, sondern schnell Vernetzungen zu visualisieren. Damit kommen wir dem Navigationsgedanken sehr nahe, daher der Name“, erklärt Hüttner.

Die Vision: Echtzeit-Vernetzungen

Er hat mit seinem Team bereits die weitere Entwicklung im Blick: „Es gibt eine deutschlandweite Studie, die Topic Maps als eine der sieben IT-Zukunftstechnologien für die nächsten 20 Jahre identifiziert hat. Eine unserer Visionen ist es, die Technologie so weiterzuentwickeln, dass in Echtzeit, zum Beispiel während einer Besprechung, Infos in die Wissensmatrix transferiert werden und neue Vernetzungen entstehen.“ Als Nahziel will Hüttner zusammen mit Kunden Anwendungen entwickeln und umsetzen. Dafür ist das Unternehmen noch auf der Suche nach Partnern mit passenden Fragestellungen. Machbar ist vieles, von wissenschaftlichen Recherchen und Literatur-Recherchen über Archivierungen und Katalogisierungen bis zur Vernetzung und Darstellung medizintechnischer Bilddaten. Mit eingebaut ist bei H-Maps in jedem Fall die „Merge“-Funktion: Bestehende und neue Daten werden von der Software ebenso zusammengeführt wie ganze Maps.

Erfolgreich abgeschlossen sind bereits mehrere Pilotprojekte. „Für das Umweltbundesamt haben wir mit unserer Navigator-Konzeption die Ergebnisse eines europaweiten Ringversuches zur Ökotoxizität von Abfällen in einer ontologiebasierten Datenbank zusammengeführt“, so Hüttner. Bei weiteren Referenzprojekten ging es um die Visualisierung einer Technologie-Plattform für die Genexpressionsanalyse (Fraunhofer IGB in Stuttgart) und um Modelle zur Auswertung und Dokumentation der Forschung über Hitzeschockproteine in der Wundheilung (Uni Tübingen).

Glossar

  • Eine Base ist ein Bestandteil von Nukleinsäuren. Es gibt vier verschiedene Basen: Adenin, Guanin (Purinabkömmlinge), Cytosin und Thymin bzw. Uracil (Pyrimidinabkömmlinge). In der RNA ersetzt Uracil Thymin.
  • Enzyme sind Katalysatoren in der lebenden Zelle. Sie ermöglichen den Ablauf der chemischen Reaktionen des Stoffwechsels bei Körpertemperatur.
  • Ein Gen ist ein Teil der Erbinformation, der für die Ausprägung eines Merkmals verantwortlich ist. Es handelt sich hierbei um einen Abschnitt auf der DNA, der die genetische Information zur Synthese eines Proteins oder einer funktionellen RNA (z. B. tRNA) enthält.
  • Genexpression ist der Begriff für die Biosynthese eines Genprodukts (= Umsetzung der genetischen Information in Proteine). Sie erfolgt in der Regel als Transkription von DNA zu mRNA und anschließender Translation von mRNA zu Protein.
  • Aufgabe der Life Sciences ist die Erforschung, Entwicklung und Vermarktung von Produkten, Technologien und Dienstleistungen auf Basis der modernen Biotechnologie.
  • Nukleinsäure ist der Oberbegriff für DNA und/oder RNA.
  • Bioinformatik ist eine Wissenschaft, die sich mit der Verwaltung und Analyse biologischer Daten mit Hilfe modernster Computertechnik, befasst. Dient derzeit hauptsächlich zur Vorhersage der Bedeutung von DNA-Sequenzen, der Proteinstruktur, des molekularen Wirkmechanismus und der Eigenschaften von Wirkstoffen. (2. Satz: mwg-biotech)
  • Die Biokatalyse ist die effiziente Herstellung von chemischen Stoffen mit Hilfe von Mikroorganismen oder Enzymen.
  • Die Expression ist die Biosynthese eines Genprodukts (= Umsetzung der genetischen Information in Proteine). Sie erfolgt in der Regel als Transkription von DNA zu mRNA und anschließender Translation von mRNA zu Protein.
  • Heterogenität bedeutet Ungleicheit bzw. Verschiedenheit in der Struktur.
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/computerdaten-ganz-neu-betrachtet-h-maps/