Medizin, KI und Voreingenommenheit: Untergraben schlechte Daten die gute Technologie?

Modelle der künstlichen Intelligenz können helfen, Krankheiten vorherzusagen und zu verhindern. Jüngste Forschungen zeigen jedoch die Herausforderungen auf, denen sie gegenüberstehen, wenn sie Erkenntnisse liefern sollen, die für alle gelten.

Medizin, KI und Voreingenommenheit: Untergraben schlechte Daten gute Technologie?

Von Natalie Sabin

18. Mai 2022 C Stellen Sie sich vor, Sie betreten die Library of Congress mit ihren Millionen von Büchern und haben das Ziel, sie alle zu lesen. Unmöglich, oder? Selbst wenn Sie jedes Wort eines jeden Werks lesen könnten, würden Sie sich nicht alles merken oder verstehen können, selbst wenn Sie sich ein Leben lang bemühen würden.

Nehmen wir einmal an, Sie hätten ein Supergehirn, das all diese Informationen lesen und verstehen könnte. Sie hätten immer noch ein Problem: Sie wüssten nicht, was in diesen Büchern nicht behandelt wurde, welche Fragen nicht beantwortet wurden und welche Erfahrungen ausgelassen wurden.

In ähnlicher Weise haben die heutigen Forscher eine schwindelerregende Menge an Daten zu sichten. Alle von Experten begutachteten Studien weltweit enthalten mehr als 34 Millionen Zitate. Millionen weiterer Datensätze untersuchen, wie sich Dinge wie Blutuntersuchungen, medizinische und familiäre Vorgeschichte, Genetik sowie soziale und wirtschaftliche Merkmale auf die Ergebnisse von Patienten auswirken.

Dank künstlicher Intelligenz können wir mehr von diesem Material als je zuvor nutzen. Neue Modelle können riesige Datenmengen schnell und genau ordnen, potenzielle Patientenergebnisse vorhersagen und Ärzten helfen, Entscheidungen über Behandlungen oder Präventivmaßnahmen zu treffen.

Die fortgeschrittene Mathematik ist sehr vielversprechend. Einige Algorithmen, die Anweisungen zur Lösung von Problemen geben, können Brustkrebs mit größerer Genauigkeit diagnostizieren als Pathologen. Andere KI-Tools werden bereits in der Medizin eingesetzt und ermöglichen es Ärzten, die Krankengeschichte eines Patienten schneller abzurufen oder ihre Fähigkeit zur Analyse von Röntgenbildern zu verbessern.

Einige Experten auf dem Gebiet der künstlichen Intelligenz in der Medizin weisen jedoch darauf hin, dass die Vorteile zwar offensichtlich zu sein scheinen, diese Technologien jedoch durch weniger beachtete Vorurteile untergraben werden können. Sie warnen sogar davor, dass Voreingenommenheit zu ineffizienten oder sogar schädlichen Entscheidungen in der Patientenversorgung führen kann.

Neue Werkzeuge, gleiche Vorurteile?

Während viele Menschen Voreingenommenheit mit persönlichen, ethnischen oder rassistischen Vorurteilen in Verbindung bringen, ist Voreingenommenheit im weitesten Sinne eine Tendenz, in eine bestimmte Richtung zu tendieren, entweder für oder gegen eine bestimmte Sache.

Im statistischen Sinne liegt eine Voreingenommenheit vor, wenn die Daten die Bevölkerung, die sie modellieren sollen, nicht vollständig oder genau repräsentieren. Dies kann passieren, wenn von Anfang an schlechte Daten vorliegen, oder wenn Daten aus einer Population versehentlich auf eine andere angewendet werden.

Beide Arten von Verzerrungen - statistische und rassische/ethnische - kommen in der medizinischen Literatur vor. Einige Bevölkerungsgruppen sind stärker untersucht worden, während andere unterrepräsentiert sind. Dies wirft die Frage auf: Wenn wir KI-Modelle auf der Grundlage der vorhandenen Informationen erstellen, geben wir dann nur alte Probleme an neue Technologien weiter?

Nun, das ist definitiv ein Problem, sagt David M. Kent, MD, Direktor des Predictive Analytics and Comparative Effectiveness Center am Tufts Medical Center.

In einer neuen Studie untersuchten Kent und ein Forscherteam 104 Modelle zur Vorhersage von Herzkrankheiten C-Modelle, die Ärzten helfen sollen, zu entscheiden, wie die Krankheit verhindert werden kann. Die Forscher wollten herausfinden, ob die Modelle, die bereits zuvor genau funktioniert hatten, auch bei einer neuen Gruppe von Patienten so gut abschneiden würden.

Ihr Ergebnis?

Die Modelle schnitten schlechter ab, als man erwarten würde, sagt Kent.

Sie waren nicht immer in der Lage, Hochrisikopatienten von Niedrigrisikopatienten zu unterscheiden. Manchmal über- oder unterschätzten die Instrumente das Krankheitsrisiko des Patienten. Alarmierenderweise hatten die meisten Modelle das Potenzial, Schaden anzurichten, wenn sie in einer realen klinischen Umgebung eingesetzt würden.

Warum gab es einen solchen Unterschied in der Leistung der Modelle bei ihren ursprünglichen Tests im Vergleich zu heute? Statistische Verzerrung.

Vorhersagemodelle lassen sich nicht so gut verallgemeinern, wie man glaubt, sagt Kent.

Wenn man ein Modell von einer Datenbank auf eine andere überträgt oder wenn sich die Dinge im Laufe der Zeit (von einem Jahrzehnt zum anderen) oder räumlich (von einer Stadt zur anderen) ändern, kann das Modell diese Unterschiede nicht erfassen.

Dies führt zu statistischen Verzerrungen. Infolgedessen repräsentiert das Modell nicht mehr die neue Patientenpopulation, und es funktioniert möglicherweise nicht mehr so gut.

Das bedeutet nicht, dass KI nicht in der Gesundheitsversorgung eingesetzt werden sollte, sagt Kent. Aber es zeigt, warum die menschliche Aufsicht so wichtig ist.

Die Studie zeigt nicht, dass diese Modelle besonders schlecht sind, sagt er. Sie zeigt eine allgemeine Schwachstelle von Modellen auf, die versuchen, absolute Risiken vorherzusagen. Sie zeigt, dass eine bessere Überprüfung und Aktualisierung der Modelle erforderlich ist.

Aber auch die menschliche Überwachung hat ihre Grenzen, wie die Forscher in einem neuen Papier anmerken, in dem sie sich für ein standardisiertes Verfahren aussprechen. Ohne einen solchen Rahmen können wir nur die Verzerrungen finden, nach denen wir zu suchen glauben, so die Forscher. Auch hier gilt: Wir wissen nicht, was wir nicht wissen.

Verzerrungen in der Black Box

Die Rasse ist eine Mischung aus körperlichen, verhaltensbezogenen und kulturellen Merkmalen. Sie ist eine wesentliche Variable in der Gesundheitsversorgung. Aber Rasse ist ein kompliziertes Konzept, und bei der Verwendung von Rasse in Vorhersagealgorithmen können Probleme auftreten. Zwar gibt es gesundheitliche Unterschiede zwischen rassischen Gruppen, doch kann nicht davon ausgegangen werden, dass alle Menschen in einer Gruppe die gleichen gesundheitlichen Ergebnisse haben werden.

David S. Jones, MD, PhD, Professor für Kultur und Medizin an der Harvard University und Mitverfasser von Hidden in Plain Sight C Reconsidering the Use of Race Correction in Algorithms, sagt, dass viele dieser Instrumente [analoge Algorithmen] die Ressourcen des Gesundheitswesens auf Weiße zu lenken scheinen.

Etwa zur gleichen Zeit wurden ähnliche Verzerrungen in KI-Tools von den Forschern Ziad Obermeyer, MD, und Eric Topol, MD, festgestellt.

Die mangelnde Vielfalt in klinischen Studien, die die Patientenversorgung beeinflussen, ist schon lange ein Problem. Laut Jones besteht die Sorge nun darin, dass die Verwendung dieser Studien zur Erstellung von Vorhersagemodellen diese Verzerrungen nicht nur weitergibt, sondern sie auch noch undurchsichtiger und schwerer zu erkennen macht.

Vor den Anfängen der KI waren analoge Algorithmen die einzige klinische Option. Diese Art von Vorhersagemodellen wird nicht automatisch, sondern von Hand berechnet.

Bei der Verwendung eines analogen Modells, so Jones, kann sich eine Person die Informationen leicht ansehen und genau wissen, welche Patienteninformationen, wie z. B. die Rasse, berücksichtigt wurden und welche nicht.

Bei maschinellen Lernwerkzeugen kann der Algorithmus proprietär sein, was bedeutet, dass die Daten vor dem Benutzer verborgen sind und nicht geändert werden können. Es ist eine Blackbox. Das ist ein Problem, denn der Benutzer, ein Leistungserbringer, weiß möglicherweise nicht, welche Patienteninformationen einbezogen wurden oder wie sich diese Informationen auf die Empfehlungen der KI auswirken.

Wenn wir Rassenforschung in der Medizin einsetzen, muss sie völlig transparent sein, damit wir verstehen können, ob der Einsatz angemessen ist, sagt Jones. Die Fragen, die es zu beantworten gilt, lauten: Wie und wo können Rassenkennzeichnungen verwendet werden, damit sie Gutes bewirken, ohne Schaden anzurichten.

Sollten Sie über KI in der klinischen Versorgung besorgt sein?

Trotz der Flut von KI-Forschungsergebnissen wurden die meisten klinischen Modelle noch nicht in der Praxis eingesetzt. Wenn Sie sich jedoch Sorgen über den Einsatz von Technologie oder Rasse bei Ihrem Anbieter machen, empfiehlt Jones, proaktiv zu handeln. Sie können den Anbieter fragen: Beruht Ihre Behandlung auf Ihrem Verständnis meiner Rasse oder ethnischen Zugehörigkeit? Dies kann einen Dialog über die Entscheidungen des Anbieters eröffnen.

Unterdessen sind sich die Experten einig, dass Probleme im Zusammenhang mit statistischer und rassistischer Voreingenommenheit bei künstlicher Intelligenz in der Medizin bestehen und angegangen werden müssen, bevor die Instrumente in großem Umfang eingesetzt werden.

Die wirkliche Gefahr besteht darin, dass tonnenweise Geld in neue Unternehmen fließt, die Prognosemodelle entwickeln und unter Druck stehen, eine gute [Rendite] zu erzielen, sagt Kent. Das könnte zu Konflikten bei der Verbreitung von Modellen führen, die noch nicht ausgereift oder ausreichend getestet sind, wodurch sich die Qualität der Versorgung verschlechtern könnte.

Hot