Schlechtes Zeugnis für ChatGPT Health
Geschrieben von Michael Herzau Geschrieben auf .
Schlechtes Zeugnis für ChatGPT Health
Ein Journalist der Washington Post testete das neue Angebot von OpenAI, das speziell für Gesundheitsfragen entwickelt wurde – und stellte zahlreiche Mängel fest.
Als Geoffrey Fowler die Einschätzung von ChatGPT Health zu seiner Herzgesundheit las, war er beunruhigt. Der Technologie-Kolumnist der Washington Post hatte die neue Anwendung von OpenAI mit den Gesundheitsinformationen seiner Apple Watch gefüttert. Als er nach einem Score für seine Herzgesundheit fragte, erhielt er dafür ein „F“ – also die schlechteste Note. Als er die Ergebnisse seinem Arzt und einem Kardiologen des renommierten Scripps Research Institute vorlegte, gaben diese jedoch Entwarnung. „Mein Risiko für einen Herzinfarkt ist so gering, dass meine Versicherung wahrscheinlich nicht einmal für einen zusätzlichen Herz-Fitness-Test aufkommen würde, um die künstliche Intelligenz zu widerlegen“, so die Einschätzung seines Arztes.
Der Erfahrungsbericht des US-Journalisten in der Washington Post wirft ein Schlaglicht darauf, wie unzuverlässig und irreführend Ergebnisse von großen allgemeinen Sprachmodellen wie ChatGPT, zumindest derzeit noch, sein können – und das auch dann, wenn man sie mit großen Datenmengen füttert. Es ist ein Thema, das inzwischen viele Menschen betrifft: Laut Angaben des ChatGPT-Unternehmens OpenAI stellen jede Woche Hunderte Millionen Menschen Fragen zu Gesundheit und Wohlbefinden.
Das US-Unternehmen hat im Januar mit ChatGPT Health ein spezielles Angebot für Gesundheitsthemen gestartet. Derzeit läuft es noch als Test-Version, die noch nicht in Deutschland verfügbar ist. Das Versprechen: Das Angebot soll mithilfe von Daten aus elektronischen Patientenakten und Wellness-Apps, wie Apple Health, helfen, „Testergebnisse zu verstehen, dich auf Arzttermine vorzubereiten, Ratschläge zu deiner Ernährung und Trainingsroutine zu erhalten“, wirbt das Unternehmen. Dabei weist OpenAI ausdrücklich darauf hin, dass es die medizinische Versorgung nur unterstütze und nicht ersetze. „Es ist nicht für Diagnostik oder Behandlung gedacht.“ Das hindert das Programm jedoch nicht daran, Einschätzungen wie im Fall von Geoffrey Fowler zu geben.
Irritierende Gewichtung einzelner Messwerte
Eine der Schwächen bei der Einschätzung von ChatGPT im Fall des US-Reporters scheint die Gewichtung von Daten zu sein. Der Journalist hatte für eine bessere Einordnung seiner Gesundheit ChatGPT auch Zugang zu den Daten seiner elektronischen Patientenakte gegeben. Das Programm hatte somit nun auch Informationen zum Gewicht und anderen Werten, wie dem Blutdruck und Cholesterin. Dadurch verbesserte sich der Score, den die KI-Anwendung für die Herzgesundheit vergab, auf ein etwas weniger schlechtes „D“. Wie der Reporter jedoch feststellte, gewichtete das Programm für seine Einschätzung einzelne Messwerte irritierenderweise hoch: Demnach kam das weiterhin negative Ergebnis insbesondere aufgrund des VO2max-Wertes zustande – des Messwertes für die maximale Sauerstoffaufnahme, die bei größtmöglicher körperlicher Anstrengung aufgenommen werden kann. Dabei weist selbst Apple darauf hin, dass der VO2max-Wert nur ein Schätzwert ist. Diese Einordnung spielte im Fall des US-Reporters offenbar keine Rolle.
Problematisch an der Einschätzung ist zudem, dass die KI-Anwendung die von der Apple Watch ermittelte Herzfrequenzvariabilität hervorhebt. Nach Ansicht des US-Kardiologen Eric Topol vom Scripps Research Institute ist dieser Messwert der Smartwatch jedoch ungenau. „Das sollte man sicher nicht als Hauptkriterium heranziehen“, sagte er dem Journalisten der Washington Post.
Einschätzung zur Herzgesundheit ändert sich trotz gleicher Datenbasis
Bei der Recherche stellt Geoffrey Fowler weitere Mängel bei ChatGPT Health fest. Trotz gleicher Datenbasis änderte sich die Einschätzung zu seiner Herzgesundheit laufend und schwankte zwischen guten und sehr schlechten Werten. Die KI-Anwendung vergaß zudem immer wieder zentrale Informationen, wie etwa das Gewicht oder Alter sowie einige Messwerte. Unberücksichtigt blieb zudem, dass sich manche Messwerte des Journalisten auch einfach deshalb über die Jahre verändert hatten, weil er eine neue Apple Watch gekauft hatte – wodurch sich der Ruhepuls-Wert veränderte.
Derzeit ist ChatGPT Health noch in der Beta-Phase, es kann also noch zu Verbesserungen kommen, bis die Anwendung in Deutschland an den Start geht. Der US-Kardiologe Eric Topol zeigte sich gegenüber dem Journalisten der Washington Post dennoch enttäuscht: „Man würde meinen, dass sie sich etwas viel Ausgefeilteres einfallen lassen würden, das mit der medizinischen Praxis und dem medizinischen Wissensstand im Einklang steht“, sagte Topol. „Und nicht so etwas.“
änd: 04.02.2026, 11:50