Stellungnahme: Chancen und Risiken von künstlicher Intelligenz in der neurogastroenterologischen Versorgung

Als Deutsche Gesellschaft für Neurogastroenterologie und Motilität (DGNM) sind wir uns der zunehmenden Verbreitung von Künstlicher Intelligenz (KI) und sogenannter Large Language Models (LLMs), wie ChatGPT, Google Gemini, Llama, in der medizinischen Versorgung bewusst und erkennen das Potenzial dieser Technologie zur Verbesserung von Diagnose- und Behandlungsverfahren an. Daher möchten wir die Gelegenheit nutzen zu Chancen und Risiken der neuen Technologien kritisch Stellung zu beziehen.


LLMs in der Medizin

LLMs werden mit umfänglichen Datensätzen trainiert und sind fähig auf Basis dieser Daten Informationen und Konzepte auf Abfrage widerzugeben. Trainierte LLMs sind zudem wertvolle Werkzeuge, um große Datenmengen in kurzer Zeit konzeptionell zu erfassen, zu analysieren, und zusammenzufassen. Dies bietet für den Alltag in der medizinischen Versorgung große Chancen und könnte Prozesse maßgeblich optimieren und verkürzen (Clusmann et al., 2023; Sallam, 2023). Denkbar wären beispielsweise die beschleunigte Analyse von umfangreichen Krankenakten (Wiest et al., 2024), vereinfachte Dokumentation (Voice-to-text und durch Konvertierung zwischen unstrukturierten und strukturierten Informationen), Unterstützung der Patientenkommunikation durch Übersetzungen und Zusammenfassungen oder die Vermeidung von Behandlungsfehlern durch verbesserte Diagnostik oder Erkennung gefährdender Arzneimittelinteraktionen oder Allergien (Clusmann et al., 2023).

Auf breiten Datensätzen trainierte LLMs wie ChatGPT (GPT-4) zeigen bereits beeindruckende Ergebnisse (80-90% Genauigkeit) in Medizinischen Zulassungsprüfungen der USA (Brin et al., 2023; Nori et al., 2023), Deutschland und Japan (Kasai et al., 2023; Roos et al., 2023). Speziell auf medizinischen Datensätzen trainierte LLMs, wie Med-PaLM 2 weisen noch größeres Potential für den medizinischen Einsatz auf (Singhal et al, 2023, 86,5% Genauigkeit bei MedQA and MedMCQA Datensätzen).

Die Komplexität realistischer klinischer Fälle lässt sich jedoch mit Fragen aus medizinischen Prüfungen oder allgemeinen klinischen Fragen nicht erfassen. Darüber hinaus fehlt die Transparenz und Erklärung zur Entscheidungsfindung der KI, was die Beurteilung der Validität der Antwort der KI erschwert – Ein entscheidendes Element der sicheren Urteilsfindung von Ärzten bei komplexen medizinischen Fragestellungen.

Datenschutz und Privatsphäre

Große Bedenken löst auch der Datenschutz aus. Die Nutzung von KI im Gesundheitswesen erfordert den Zugang zu großen Mengen sensibler Informationen. Das umfasst bei Erkrankungen des neurogastroenterologischen Formenkreises nicht nur klinische Daten, sondern ebenfalls Angaben über Lebensumstände und -weise, Essverhalten, psychosoziale Belastungen und psychisch-seelisches Wohlbefinden (Van Oudenhove et al. 2016). Jedoch sind die Datenschutzbedingungen bei der großen Bandbreite der aktuellen LLM-Plattformen für den einzelnen Nutzer (also PatientInnen und GesundheitsversorgerInnen) unzureichend nachvollziehbar und für den Laien juristisch kaum abschätzbar. Es besteht daher das Risiko, dass personenbezogene Gesundheitsdaten der Patientinnen und Patienten für kommerzielle Zwecke verwendet und nicht ausreichend geschützt werden (Yao et al., 2023; Migliorini, European Journal of Risk Regulation 2024).

Die DGNM und AGNM raten daher bei der Nutzung von KI und LLMs zur Vorsicht bei der Weitergabe von personenbezogenen Gesundheitsdaten. Eine ärztliche Schweigepflicht können PatientInnen nur von ÄrztInnen und medizinischen Berufsgruppen erwarten, nicht jedoch von Unternehmen der Technologiebranche. Der Schutz der Privatsphäre unserer PatientInnen muss insbesondere im Hinblick auf Gesundheitsinformationen oberste Priorität haben.
Kurze Anmerkung: Es gibt bereits nationale Bestrebungen der Entwicklung von LLMs zur strukturierten Extraktion und Nutzung medizinischer Informationen unter Wahrung der Privatsphäre (z.B. siehe Wiest et al., 2024).

Verlust der persönlichen und individuellen Betreuung

Ein Hauptaspekt medizinischer Behandlungen ist die persönliche Arzt-Patienten-Beziehung. Besonders in der Neurogastroenterologie, wo chronische und funktionelle Erkrankungen häufig psychosoziale Komponenten beinhalten, ist die menschliche Interaktion zwischen Ärztin/Arzt und PatientIn ein essenzieller Bestandteil der Diagnostik und Therapie. Die emotionale Unterstützung, das Einfühlungsvermögen, als auch die individuelle Anpassung der Therapie spielen eine zentrale Rolle im Behandlungserfolg und der Patientenzufriedenheit (Fikree et al., 2021).

Erste Leitlinien-trainierte LLMs können zwar auf Basis von Anamnesedaten streng leitlinienkonform korrekte Therapieempfehlung geben (Levkovich et al., 2023). Diese benötigen jedoch aktuell noch die Vorarbeit des Arztes und ermöglicht auch keine eigenständliche empathische Einordnung der Lebens- und Therapiegestaltung der PatientInnen. Dies mag sich möglicherweise in Zukunft durch LLMs mit auditiver Spracherkennungsfunktion ändern, welche ein Echtzeitgespräch zwischen PatientIn und Chatbot ermöglicht und so Inhalte und Emotionen aus Gesprächen analysieren lässt (Weiß, Heise Online 2024).

Die DGNM und AGNM sehen daher in KI und LLMs ein noch nicht ausgereiftes Werkzeug. Das Gespräch mit einer menschlichen Behandlerin/einem menschlichen Behandler kann durch die aktuell zur Verfügung stehenden Systeme nicht ersetzt werden. KI könnte jedoch unter Anbetracht des Hausärztemangels und langer Wartezeiten bei Fachärzten dabei unterstützen, Patient*innen vorab zu Screenen und den sinnvollsten Fachdisziplin zuzuweisen, so dass eine gezieltere und raschere Behandlung eingeleitet werden könnte.

Komplexität der Diagnostik

LLMs benötigen klar strukturierte Aufgabenstellungen (sogenannte Prompts), um eine Antwort zu generieren. Die meisten Plattformen erlauben mittlerweile die niedrigschwellige Eingabe von Texten in allgemeinverständlicher Sprache und lassen dadurch die Nutzung auch ohne vorbestehende Programmiererfahrung zu.

Allerdings erleben PatientInnen mit neurogastroenterologischen Erkrankungen oft komplexe Symptome, die, auch für die behandelnden Ärztinnen und Ärzte, oft schwer zu kategorisieren sind (Locke et al., 2005; Drossman & Hasler, 2016). Eine rein datenbasierte KI könnte Schwierigkeiten in einer Momentaufnahme haben, solche komplexen und subjektiven Erfahrungen der PatientInnen vollständig zu erfassen oder auch korrekt zu bewerten. Eine standardisierte, algorithmische Diagnose kann den individuellen Krankheitsverlauf nicht immer adäquat berücksichtigen. Dadurch können potenziell falsche oder unvollständige Diagnosen gestellt werden. Auch die Vielschichtigkeit individueller Therapiepläne und auch mögliche notwendige Anpassungen dieser, sind aus medizinischer Sicht ohne regelmäßigen Kontakt mit Ärztinnen/Ärzten schwer realisierbar.

Die DGNM und AGNM raten daher KI-generierte Diagnosen und Therapiepläne unbedingt kritisch zu bewerten und mit dem behandelnden medizinischen Fachpersonal abzuklären. KI-generierte medizinische Unterstützung, zum Beispiel im Sinne einer informativen Zusammenfassung, die im Anschluss gemeinsam mit medizinischem Personal evaluiert wird, oder nach dem Arztbesuch eine selbstständige Recherche zugänglicher macht, kann bei der genannten Komplexität neurogastroenterologischer Erkrankungen aber für PatientInnen hilfreich und individuell sinnvoll sein.

Fehlende Transparenz und erhöhter Aufklärungsbedarf

Vorsicht ist jedoch geboten, wenn PatientInnen KI Tools eigenständig zur Therapie und Diagnosestellung heranziehen ohne dabei ihr behandelndes Gesundheitspersonal zu konsultieren.

Erkrankungen des neurogastroenterologischen Formenkreises liegt oft ein biopsychosozialer Pathomechanismus zugrunde. Die Therapien beziehen sich daher nicht nur auf die Linderung der körperlichen Symptomatik, sondern beziehen auch das psychische Wohlbefinden und soziale Umfeld der PatientInnen mit ein. Entsprechend ist bei der Therapieplanung umfangreiche Kommunikation mit dem behandelnden Gesundheitspersonal notwendig. (Van Oudenhove et al. 2016)

Viele PatientInnen könnten Schwierigkeiten haben, die Empfehlung und die Entscheidungsfindung des KI-Systems eigenständig nachzuvollziehen. Im Gegensatz zu einer Ärztin/einem Arzt, der seine diagnostischen Überlegungen und Therapieentscheidungen erklären und gemeinsam mit den PatientInnen adaptieren kann, basieren KI-Systeme auf komplexen Algorithmen, die nicht transparent sind. Der zugrundeliegende Entscheidungsprozess wird dem Nutzer nicht transparent dargestellt und kann damit nicht nachvollzogen werden.

Warum welche Entscheidung getroffen wurde, ist für PatientInnen nicht ersichtlich und kann zu falschen Schlussfolgerungen bei Therapieentscheidung und -umsetzung führen. Dies kann nicht nur zu falschen Therapieentscheidung führen, sondern auch einen Vertrauensverlust in möglicherweise unter adäquater Betreuung erfolgreichen Therapie generieren. Davor wird auch durch die Deutsche Gesellschaft für Psychologie (DGP) eindeutig gewarnt (DGP Stellungnahme 2023).

Die DGNM und AGNM sehen daher erhöhten Beratungsbedarf durch medizinisches Fachpersonal bei der Interpretation von KI-generierten Diagnosen und Therapieplänen. Wir sehen hierbei im Besonderen die Gefahr einer Fehl- oder Unterversorgung der Patient*innen aufgrund von missverständlicher oder Fehl-Information durch LLMs.

Verantwortung und Patientensicherheit

In Studien zeigten KI-Modelle und LLMs auf häufig gestellte Patientenfragen wie etwa dem Reizdarmsyndrom eine erstaunliche hohe Trefferquote und Verlässlichkeit (Kerbage et al., 2024). Obwohl es sich bei diesen Studien um kontrollierte Testbedingungen handelte, ordnen wir diese Ergebnisse als große Chance für zukünftige Entwicklungen ein. So könnten KI-Systeme künftig die diagnostische Präzision erhöhen und eine flächendeckende Versorgung auch in strukturarmen Regionen komplementär ergänzen. Jedoch bleibt die Möglichkeit von fehlerhaften Empfehlungen oder Rückschlüssen bestehen. Die Verantwortungsfrage einer KI-basierten Fehldiagnose/-entscheidung bzw. falscher Therapie für Patient und Arzt bleibt offen und ist medizin-juristisch noch nicht geklärt.  

Die DGNM und AGNM raten daher PatientInnen bei der Umsetzung oder Implementierung von KI-basierten Diagnose-, Therapie- oder Diätvorschlägen unbedingt zur Absprache mit behandelnden ÄrztInnen und TherapeutInnen. ÄrztInnen, welche KI-Tools einsetzen, sollten generierte Informationen immer kritisch und mit Sachverstand hinterfragen und prüfen, bevor diese in eine therapeutische Entscheidung mit einbezogen werden.  

Medizinisch-politische Chancen und Risiken

Ein weiteres Problem aus Sicht der PatientInnen, könnte die potenzielle Ungleichheit im Zugang zu KI-gestützten Technologien sein. Während einige PatientInnen möglicherweise von den neuesten technologischen Fortschritten profitieren, könnte es anderen aufgrund geografischer, sozialer oder finanzieller Barrieren an Zugang fehlen. Gleichzeitig sollten KI-Systeme und LLMs als Chance wahrgenommen werden. Gerade in Regionen niedriger Ärztedichte oder langer Wartezeiten bei Terminvergaben, kann die Nutzung weltweit und ständig verfügbarer Systeme durch PatientInnen eine mögliche Hilfe und erste Kompensation darstellen.

Zusammenfassend teilt die DGNM und AGNM die Bedenken vieler Menschen bezüglich der Integration von KI in die medizinische Versorgung. Zwar bietet KI großes Potenzial zur Verbesserung der Diagnostik und Therapie, jedoch muss gewährleistet sein, dass die menschlich-individuelle Komponente der Versorgung, der Datenschutz und die ganzheitliche Betreuung der PatientInnen nicht vernachlässigt werden. Die DGNM und AGNM plädieren für eine verantwortungsvolle und patientenorientierte Implementierung von KI, die immer den Menschen in den Mittelpunkt stellt. Wir empfehlen ein kritisches Hinterfragen bei der Nutzung aktuell verfügbarer Applikationen und sehen die Nutzung momentan als Orientierung bzw. Teilaspekt. Die DGNM und AGNM befürworten jedoch ausdrücklich die Forschung und Weiterentwicklung von KI und LLMs in der medizinischen Versorgung.


Referenzen und weitere Leseempfehlungen:

Clusmann, J., et al. (2023). The future landscape of large language models in medicine. Communications Medicine, 3(1). https://doi.org/10.1038/s43856-023-00370-1

Singhal, K., et al. (2023). Large language models encode clinical knowledge. Nature, 620(7972), 172–180. https://doi.org/10.1038/s41586-023-06048-7

Sallam, M. (2023). ChatGPT utility in healthcare education, research, and practice: Systematic review on the promising perspectives and valid concerns. Healthcare (Basel), 11(6), 887. https://doi.org/10.3390/healthcare11060887

Wiest, I. C., Ferber, D., Zhu, J., van Treeck, M., Meyer, S. K., Juglan, R., Carrero, Z. I., Paech, D., Kleesiek, J., Ebert, M. P., Truhn, D., & Kather, J. N. (2024). Privacy-preserving large language models for structured medical information retrieval. npj Digital Medicine, 7, 257. https://doi.org/10.1038/s41746-024-01233-2

Brin, D., Sorin, V., Konen, E., Nadkarni, G., Glicksberg, B. S., & Klang, E. (2023). How large language models perform on the United States Medical Licensing Examination: A systematic review. medRxiv. https://doi.org/10.1101/2023.09.03.23294842

Nori, H., King, N., McKinney, S. M., Carignan, D., & Horvitz, E. (2023). Capabilities of GPT-4 on medical challenge problems. arXiv. https://arxiv.org/abs/2303.13375

Kasai, J., Kasai, Y., Sakaguchi, K., Yamada, Y., & Radev, D. (2023). Evaluating GPT-4 and ChatGPT on Japanese medical licensing examinations. arXiv. https://arxiv.org/abs/2303.18027

Roos, J., Kasapovic, A., Jansen, T., & Kaczmarczyk, R. (2023). Artificial intelligence in medical education: Comparative analysis of ChatGPT, Bing, and medical students in Germany. JMIR Medical Education, 9, e46482. https://doi.org/10.2196/46482

Singhal, K., Tu, T., Gottweis, J., Sayres, R., Wulczyn, E., Hou, L., Clark, K., Pfohl, S., Cole-Lewis, H., Neal, D., Schaekermann, M., Wang, A., Amin, M., Lachgar, S., Mansfield, P., Prakash, S., Green, B., Dominowska, E., Aguera y Arcas, B., Tomasev, N., Liu, Y., Wong, R., Semturs, C., Mahdavi, S. S., Barral, J., Webster, D., Corrado, G. S., Matias, Y., Azizi, S., Karthikesalingam, A., & Natarajan, V. (2023). Towards expert-level medical question answering with large language models. arXiv. https://doi.org/10.48550/arXiv.2305.09617

Chen, H., Fang, Z., Singla, Y., & Dredze, M. (2024). Benchmarking large language models on answering and explaining challenging medical questions. arXiv. https://doi.org/10.48550/arXiv.2402.18060

Van Oudenhove, L., Crowell, M., Drossman, D., Halpert, A., Keefer, L., Lackner, J., Murphy, T. B., Naliboff, B., & Levy, R. (2016). Biopsychosocial aspects of functional gastrointestinal disorders. Gastroenterology, 150(6), 1355–1367. https://doi.org/10.1053/j.gastro.2016.02.027

Yao, Y., Duan, J., Xu, K., Cai, Y., Sun, E., & Zhang, Y. (2023). A survey on large language model (LLM) security and privacy: The good, the bad, and the ugly. High-Confidence Computing, 4, 100211. https://doi.org/10.1016/j.hcc.2024.100211

Migliorini, S. (2024). “More than words”: A legal approach to the risks of commercial chatbots powered by generative artificial intelligence. European Journal of Risk Regulation, 15(1), 1–14. https://doi.org/10.1017/err.2024.4

Fikree, A., & Byrne, P. (2021). Management of functional gastrointestinal disorders. Clinical Medicine (London), 21(1), 44–52. https://doi.org/10.7861/clinmed.2020-0980

Levkovich, I., & Elyoseph, Z. (2023). Identifying depression and its determinants upon initiating treatment: ChatGPT versus primary care physicians. Family Medicine and Community Health, 11, e002391. https://doi.org/10.1136/fmch-2023-002391

Kerbage, A., Kassab, J., El Dahdah, J., Burke, C. A., Achkar, J.-P., & Rouphael, C. (2024). Accuracy of ChatGPT in common gastrointestinal diseases: Impact for patients and providers. Clinical Gastroenterology and Hepatology, 22(6), 1323–1325.e3. https://doi.org/10.1016/j.cgh.2023.11.008

Weiß, E.-M. (2024, July 31). OpenAI führt neuen Voice Mode für ChatGPT ein. Heise Online. https://heise.de/-9819190

Drossman, D., & Hasler, W. (2016). Rome IV-Functional GI disorders: Disorders of gut-brain interaction. Gastroenterology, 150(6), 1257–1261. https://doi.org/10.1053/j.gastro.2016.03.035

Locke, G., Zinsmeister, A., Fett, S., Melton, L. J., & Talley, N. (2005). Overlap of gastrointestinal symptom complexes in a US community. Neurogastroenterology and Motility, 17(1), 29–34. https://doi.org/10.1111/j.1365-2982.2004.00581.x

Deutscher Ethikrat. (2023). Mensch und Maschine – Herausforderungen durch Künstliche Intelligenz: Stellungnahme. Deutscher Ethikrat. https://www.ethikrat.org/fileadmin/Publikationen/Stellungnahmen/deutsch/stellungnahme-mensch-und-maschine.pdf

Deutsche Gesellschaft für Psychologie (DGPs). (2023). Stellungnahme der Deutschen Gesellschaft für Psychologie auf die Schrift des Deutschen Ethikrates zu „Mensch und Maschine – Herausforderungen durch Künstliche Intelligenz“. Deutsche Gesellschaft für Psychologie. https://www.dgps.de/fileadmin/user_upload/PDF/Stellungnahmen/DGPs-Stellungnahme-Ethikrat_20232703.pdf