Powered by

Auf der Suche nach dem Wesentlichen

In großen Datenmengen wichtige Zusammenhänge aufzudecken ist für das Data-Mining-Tool KNIME kein Problem. Die Anwendung zeichnet sich dabei durch drei besondere Aspekte aus: Sie basiert auf Open Source, integriert aktuelle Forschungsmethoden und besitzt ein intuitives Bedienkonzept. Vorgestellt wurde KNIME auf dem letzten Heidelberger Innovationsforum.

Prof. Dr. Michael Berthold (Foto: do it.online)
Ein Pharmaunternehmen will die Daten aus Medikamententests auswerten. Ein Verlag will aus Millionen von Adressdaten die Kunden herausfiltern, die auf Anschreiben reagieren. Ein HNO-Arzt will Tausende von Operationsdaten auf die Wirksamkeit der medizinischen Eingriffe überprüfen. Mit der Plattform KNIME (Konstanzer Information Miner) haben sie die Möglichkeit, ihre Daten entsprechend ihrer jeweiligen Fragestellungen zu analysieren und darzustellen.
„KNIME – ausgesprochen naim – ist eine modulare Plattform zur interaktiven Datenexploration“, erklärt Prof. Dr. Michael Berthold von der Universität Konstanz, Lehrstuhl Bioinformatik und Information Mining. Kurz gesagt bedeutet das, dass KNIME Fragen auf Basis vorhandener Daten beantwortet. „Es geht darum, in großen Datenmengen interessante Zusammenhänge aufzufinden.“ Data-Mining ist hier das Stichwort.

Interaktives Stöbern und statistische Datenanalyse

Die einzelnen Analyseschritte sind in Workflows sichtbar. (Foto: do it.online)
An seinem Lehrstuhl hat Michael Berthold die Plattform entwickelt, die seit 2004 im Einsatz ist. Im Jahr 2005 gründete er die KNIME GmbH. Durch die Ankoppelung an die Universität und die enge Zusammenarbeit mit forschungsintensiven Firmen sind von Anfang an neueste Erkenntnisse und Erfahrungen aus Forschung und Industrie in die Entwicklung von KNIME eingeflossen. Die Plattform basiert auf Open Source, so dass die Kunden ihre eigenen Programme einfach integrieren können.
Gerade bei Kunden aus dem Life-Science-Bereich ist das wichtig, da sie in der Regel mit einer Vielzahl an spezialisierten Programmen arbeiten. Zusätzlich sparen sie sich teure Lizenzkosten.

Der breite Funktionsumfang von KNIME ermöglicht ein Verständnis der Daten vom einfachen interaktiven „Stöbern“ bis hin zur professionellen, statistischen Datenanalyse. Zusätzlich zeichnet sich KNIME durch eine leicht verständliche und intuitive Bedienbarkeit aus. Die Analyseschritte sind in einem Workflow sichtbar, so dass eine andere Person den Prozess auf einen Blick nachvollziehen kann. Neue Workflows lassen sich über einfaches Drag&Drop erstellen. Die Daten werden von Analyseschritt zu Analyseschritt weitergereicht, die Zwischenergebnisse sind jederzeit wieder einsehbar und weiterverwendbar.

Im Einsatz bei großen Datenmengen

Ein Großteil der Kunden stammt aus dem Life-Science-Bereich, aber auch Kreditinstitute und Verlage arbeiten mit dem Tool. Grundsätzlich lässt sich KNIME überall da einsetzen, wo große Datenmengen anfallen - beispielsweise auch bei der Kundensegmentierung und Prozessoptimierung. Ein interaktiver Entscheidungsbaum unterstützt bei der Entscheidungsfindung.

Wie hilfreich der Einsatz der Software ist, zeigt ein aktuelles Beispiel aus dem Bankensektor. Lautete die ursprüngliche Fragestellung, wie man die Kundenbasis verbreitern könne, stellte sich nach einer eingehenden Bewertung der Daten mit KNIME heraus, dass man sich lieber auf einige wenige exklusive Kunden beschränken sollte. „Die Analyse kann man mit einer modularen Plattform wie KNIME sehr schnell auf eine andere Fragestellung umstellen“, sagt Michael Berthold. Denn die Voraussetzung für aussagekräftige Analysen ist die Vorarbeit: das Strukturieren und Aufräumen der Daten. Das ist zwar recht arbeitsintensiv, aber einmal erledigt, lassen sich auch andere Fragen einfach und schnell beantworten.
Ein interaktiver Entscheidungsbaum unterstützt bei der Entscheidungsfindung (Foto: do it.online)
Mit der Plattform hat Michael Berthold noch einiges vor: den Funktionsumfang von KNIME erweitern sowie neue Anwendungsgebiete wie Business Intelligence (BI) und Customer Relationship Management (CRM) erschließen. Außerdem möchte er einen Zertifizierungsservice einführen, um eine einheitliche Qualität für kommerzielle Erweiterungen von den zahlreichen Software-Partnern aus der Industrie zu garantieren.

Quelle: doit.online - 19.03.08

Glossar

  • Bioinformatik ist eine Wissenschaft, die sich mit der Verwaltung und Analyse biologischer Daten mit Hilfe modernster Computertechnik, befasst. Dient derzeit hauptsächlich zur Vorhersage der Bedeutung von DNA-Sequenzen, der Proteinstruktur, des molekularen Wirkmechanismus und der Eigenschaften von Wirkstoffen. (2. Satz: mwg-biotech)
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/auf-der-suche-nach-dem-wesentlichen/