Powered by

In der klinischen Entwicklung hat Data Mining die Zukunft noch vor sich

In der forschenden Pharmaindustrie spielt das Data Mining bisher noch eine untergeordnete Rolle. Aber das wird sich in Zukunft ändern. Der explorativen Datenanalyse sagt Hans-Jürgen Lomp wachsende Bedeutung voraus. Der Mathematiker ist globaler Statistikleiter im Bereich Medizinischer Datenservice und Biostatistik des Pharmakonzerns Boehringer Ingelheim Pharma GmbH & Co. KG am Standort Biberach.

Kerngeschäft eines forschenden Pharmaunternehmens ist und bleibt die konfirmatorische (beweisführende) Datenanalyse von Phase-III-Studien im Wechsel von „learn and confirm“ (lernen und bestätigen). Im Wesentlichen geht es darum, in klinischen Studien eine oder mehrere Hypothesen zu bestätigen sowie einen datengenerierten Beweis für die Wirksamkeit und die Sicherheit einer Prüfsubstanz zu erbringen. Im Idealfall erhalten Arzneimittelentwickler genau die Antworten, die sie aufgrund der vorher durchgeführten Phase-II-Studien erwartet haben.

Mehr als Hypothesen wird Data Mining nicht generieren

Hans-Jürgen Lomp, globaler Statistikleiter bei Boehringer Ingelheim © Boehringer Ingelheim

Während bei der konfirmatorischen Datenanalyse im klinischen Bereich die Daten eine ‚vermutete Geschichte‘ bestätigen oder ablehnen, verhält es sich bei der exploratorischen Analyse umgekehrt. Unter Einsatz verschiedener strukturierter statistischer Methoden „lässt man die Daten selbst sprechen", lässt sich deren Geschichte erzählen, die anders als bei der konfirmatorischen Analyse nicht vorher bekannt ist. „Mehr als das Generieren von Hypothesen wird Data Mining aber nie werden", schränkt Lomp ein. Sind via Data Mining erzeugte Hypothesen belastbar, versucht sie der pharmazeutische Hersteller durch neue (konfirmatorische) Studien zu verifizieren.

Vor Überraschungen sind Arzneimittelentwickler nie gefeit. Grundsätzlich verläuft aber die klinische Entwicklung einer Substanz streng sequenziell und rational, von einem Schritt der Evidenz zum nächsten. Dies ist einer der Gründe, so Lomp, warum die zusätzliche Ausbeute des Data Mining gewöhnlich wenig ergiebig ist.
In der klinischen Entwicklung von Arzneimitteln nutzt man Data Mining zur Beantwortung aller in Hypothesenform generierten Fragestellungen, die vom Hersteller selbst wie auch von interessierten Kreisen (Aufsichtsbehörden oder akademischen Forschern) kommen.

Wer überprüft Daten zu Medikamenten einer Substanzklasse?

Data Mining im klinischen Bereich wird erst dann richtig interessant werden, sagt Lomp voraus, wenn beispielsweise alle Phase-III-Daten aller Medikamente aus einer Substanzklasse über einzelne Pharmafirmen hinweg für eine Analyse bereitstehen. Dadurch gewänne man eine viel mächtigere Datenbasis, die sich mit Netzwerk-Meta-Analysen, Individual Patient Data Meta-Analysis und eben auch mit Data-Mining-Methoden untersuchen lasse. Durch die größere Datenbreite lassen sich dann auch sehr seltene, aber ernste Nebenwirkungen entdecken. Auch bei überraschenden Einzelergebnissen zu einem bestimmten Medikament könnte man sofort untersuchen, ob sich entsprechende Ergebnisse bei anderen Medikamenten derselben Substanzklasse ebenfalls nachweisen lassen. Schließlich könne man auch sehr genau die Wirkungen und Nebenwirkungen in seltenen, aber vulnerablen Patientengruppen (sehr alte Patienten, nieren- oder lebergeschädigte Patienten) untersuchen.

Wer solches Data Mining wird leisten können, ist indes noch nicht klar. Hier sieht der Pharma-Statistiker Lomp einen Auftrag an die Politiker, diese Kapazitäten zu schaffen, zum Beispiel in universitären Instituten.

Neues Betätigungsfeld für Statistiker

Wenn in Zukunft alle Studiendaten nach der Zulassung einer Fachöffentlichkeit zur Verfügung gestellt werden müssen, sollte der Hersteller sichergestellt haben, dass er seine eigenen Daten mit Data Mining systematisch „durchforstet“ hat. Denn die „Entdeckung“ neuer Eigenschaften lässt sich patentieren, wenn man nur selbstgefundene Datenbelege hierfür nachweisen kann. Hans-Jürgen Lomp sieht hier für Pharma-Statistiker ein „neues Betätigungsfeld“.

Zurück zum Prinzip der konfirmatorischen Analyse: Hierbei werden mit Phase-III-Studiendaten die Hypothesen aus den Phasen I und II auf Wirkung und Sicherheit einer bestimmten Substanz an einem großen, repräsentativen Patientenkollektiv getestet – basierend auf einer minutiös vor Studienbeginn festgelegten Analyse-Strategie. Ein Phase-III-Studienbericht inklusive Tabellenwerke und statistische Anhänge kann schnell 15.000 Seiten und mehr umfassen, die weiteren Anhänge wie Protokoll, Analyseplan, Bericht der Kinetiker, validierte Analysemethode oder qualifizierte Laborparameter nicht mitgerechnet.

In der Regel sind mindestens zwei voneinander unabhängige kontrollierte klinische Phase-III-Studien für die Zulassung eines Arzneimittels nötig. Für den Zulassungsantrag muss das Unternehmen dann die Ergebnisse aller präklinischen und klinischen Prüfungen der Phasen I bis III bei den Behörden einreichen. Zusätzlich zu den Einzelberichten ist eine strukturierte Zusammenfassung aller Phase-III- und Phase-II-Studien in Bezug auf Wirksamkeit und Sicherheit erforderlich. In diesem separaten Dokument müssen Lomp und Mitarbeiter die Daten teilweise nochmals aufarbeiten, damit sie studienübergreifend zusammengefasst werden können. Nur dieser übergreifende Blick ermöglicht die Entdeckung seltener unerwünschter Ereignisse (adverse events) oder erlaubt Aussagen zur Wirksamkeit bezüglich seltener, aber klinisch bedeutsamer Folgen chronischer Erkrankungen wie Herzinfarkt oder Schlaganfall.

Je kleiner die Subgruppe, desto größer die Unsicherheit

Verfahren wie das Hochdurchsatz-Screening generieren große Datenmengen. © Boehringer Ingelheim

Hier beginnt das Data Mining, wenn Behörden beispielsweise wissen wollen, wie neben der Gesamtaussage das Medikament zum Beispiel auf die Patienten in ihrer Region (Nord-Amerika, Europa, Asien) wirkt. Auf diese Fragen Evidenz zu generieren, sei schwieriger, weil die Population kleiner ist und bei der Vielzahl solcher datengetriebenen Fragestellungen eine Unterscheidung zwischen Zufallsbefund und „echtem Signal" kaum möglich ist, sagt Lomp. Um sichere Ergebnisse zu erhalten, werten Pharma-Statistiker studienübergreifend aus. Sie überprüfen, ob sich diese Ergebnisse auch konsistent in den einzelnen Studien finden. Gleichwohl wissen Pharmastatistiker: Je kleiner die Subgruppe, desto mehr muss man bereit sein, Unsicherheit in Kauf nehmen.

Nicht nur Aufsichtsbehörden, auch der Arzneimittel-Entwickler selbst trägt exploratorische Aspekte an den Datenberg heran. Denn auch er hat ein originäres Interesse daran, sicherzustellen, dass das Präparat nur solchen Patienten zur Verfügung steht, wo das Verhältnis von Nutzen und Risiko positiv ist, wo Wirksamkeitsvorteile mögliche Sicherheitsnachteile überwiegen. Gerade für besonders vulnerable Patienten muss dies der Hersteller sicherstellen, andernfalls müssen bestimmte Warnhinweise erfolgen oder eine andere Dosis empfohlen werden.

Ständige Rückkopplung von Klinikern mit Nichtklinikern

Die Entwicklung eines Arzneimittels dauert viele Jahre und ist immer für Überraschungen gut, wenn neue wissenschaftliche Erkenntnisse die Modifikation von Hypothesen erfordern oder sie gar obsolet werden lassen. Deshalb sind in den klinischen Projektteams auch Mitglieder aus der nichtklinischen Arzneimittelentwicklung dabei, die das Präparat umfassend zu charakterisieren versuchen. Die „ständige Rückkopplung“ zwischen klinischen und nichtklinischen Teams ist enorm wichtig und deren ständiger Datenaustausch hat eine umfassende Charakterisierung der Substanz zum Ziel, sagt Hans-Jürgen Lomp.

Sekundärforschung nach Zulassung

So umfangreich zulassungsrelevante Studien sind, können sie nicht alles beinhalten, was die Daten möglicherweise hergeben, gibt Lomp zu bedenken. Statistiker versuchen auch nach der Zulassung weitere Signale in den Daten zu finden, führen eine nicht vorher präspezifizierte Subgruppenanalyse durch (sogenannte Sekundärforschung). Diese gezielte Suche ist „stark hypothesengenerierend“, findet immer nebenher und vor allem nach Ende der Phase III statt. So werden beispielsweise noch Jahre nach der Zulassung weitere Ergebnisse zu großen Studien (RE-LY Studie für das Medikament Pradaxa oder ONTARGET-Studie für Micardis, beide Medikamente von Boehringer Ingelheim) publiziert.

Seit Kurzem verfolgt Boehringer Ingelheim über die Einhaltung gesetzlicher Vorschriften (Registrierung aller strukturierten Studienresultate, vgl. www.clinicaltrials.gov) hinaus eine Politik der Datentransparenz. Jedem unabhängigen Forscher gewährt das Unternehmen auf Antrag Zugriff auf die sehr umfangreichen Originaldaten unter Wahrung des Datenschutzes; dies betrifft auch Präparate, deren Studien seit 1998 initiiert wurden (trials.boehringer-ingelheim.com/trial_results.html).

Antragsteller könnten Forscher aus akademischen Einrichtungen wie der Cochrane Collaboration oder dem Wellcome Trust sei. Über den Antrag befindet ein unabhängiges fünfköpfiges Gremium renommierter Fachleute. Diese Möglichkeit für unabhängige Forscher zum Data Mining geht auf eine internationale Initiative zur Offenlegung aller klinischen Studiendaten zurück (www.alltrials.net).

Am häufigsten eingesetzte Methode: multivariate Regression

Die bei exploratorischen Datenanalysen klinischer Daten am häufigsten eingesetzte Methode ist die multivariate (logistische) Regression. Allgemein gesprochen richtet die Regression den Blick darauf, wie unterschiedliche Ausgangsdaten (Alter, Gewicht, Lungenfunktion, Behandlung) auf den Krankheitsverlauf einwirken. Ausgehend von einem oder mehr Endpunkten (etwa Blutdrucksenkung oder Blutzuckereinstellung nach 12-monatiger Behandlung) untersucht man, ob, wie und in welchem Maß eine große Anzahl von Variablen diesen Endpunkt beeinflusst haben. Wichtig ist dabei, herauszufinden, ob sich Variablen gegenseitig beeinflussen, miteinander interagieren. Bei klinischen Medikamentenstudien ist es außerdem wichtig, zwischen einer allgemeinen Beeinflussung der Erkrankung (z. B. Rauchen als Verstärker von Diabetesfolgen) und einer speziellen Beeinflussung der Medikamentenwirkung (z. B. durch wechselseitige Arzneimittelinteraktion) zu unterscheiden.

Neben der Regression gibt es noch verschiedene andere Data-Mining-Techniken, die meist aus dem Bereich Machine Learning heraus entwickelt wurden, z. B. Random Forest, Support Vector Machines oder Nearest-Neighbor-Klassifikation.

Glossar

  • Diabetes mellitus (Zuckerkrankheit) wird durch einen Mangel an Insulin hervorgerufen. Man unterscheidet zwei Typen. Bei Typ 1 (Jugenddiabetes) handelt es sich um eine Autoimmunkrankheit, bei der körpereigene Immunzellen die Beta-Zellen der Bauchspeicheldrüse, die Insulin produzieren, zerstören. Typ 2 (Altersdiabetes) ist dagegen durch eine Insulinrestistenz (verminderte Insulinempfindlichkeit der Zielzellen) und eine verzögerte Insulinausschüttung gekennzeichnet.
  • Ein Gen ist ein Teil der Erbinformation, der für die Ausprägung eines Merkmals verantwortlich ist. Es handelt sich hierbei um einen Abschnitt auf der DNA, der die genetische Information zur Synthese eines Proteins oder einer funktionellen RNA (z. B. tRNA) enthält.
  • Lytisch zu sein ist die Eigenschaft eines Bakteriophagen, seine Wirtszelle bei der Infektion zu zerstören.
  • Ein Vektor ist ein DNA-Vehikel, das sich in einer Zelle autonom replizieren (vervielfältigen) kann und mit dessen Hilfe Fremd-DNA in eine Zelle eingeschleust wird. Vektoren (Plasmid, Phage oder Virus) sind wichtige Werkzeuge der Gentechnik zum Klonieren rekombinanter DNA.
  • Validierung oder Validation ist der Prozess der Prüfung einer These oder eines Lösungsansatzes in Bezug auf das zu lösende Problem.
  • Kinetik ist ein Teilbereich der physikalischen Chemie und befasst sich mit den Geschwindigkeiten chemischer Reaktionen.
Seiten-Adresse: https://www.gesundheitsindustrie-bw.de/de/fachbeitrag/aktuell/in-der-klinischen-entwicklung-hat-data-mining-die-zukunft-noch-vor-sich/