Studien zeigen, dass die fortschrittlichsten großen Sprachmodelle (LLMs) in der klinischen Diagnose immer noch deutlich schlechter abschneiden als menschliche Ärzte:
-
Ärzte haben eine Diagnosegenauigkeit von 89%, während LLMs nur 73% erreichen. Bei einigen Krankheiten (wie Cholezystitis) liegt die Genauigkeit der LLMs sogar nur bei 13%.
-
LLMs schneiden schlecht ab bei der Befolgung von Diagnoserichtlinien, der Anordnung notwendiger Untersuchungen und der Interpretation von Laborergebnissen. Sie neigen dazu, wichtige Informationen zu übersehen oder voreilige Diagnosen zu stellen.
-
LLMs haben auch Probleme bei der Befolgung grundlegender medizinischer Richtlinien, mit Fehlern bei jedem 2. bis 4. Fall und Erfindung nicht existierender Richtlinien bei jedem 2. bis 5. Fall.
-
Die Bereitstellung zusätzlicher Fallinformationen verringert sogar die Diagnosegenauigkeit der LLMs, was darauf hindeutet, dass sie komplexe Informationen nicht effektiv verarbeiten können.
-
Spezialisierte medizinische LLMs zeigen keine signifikant bessere Gesamtleistung als allgemeine LLMs.
Die Forscher glauben, dass LLMs derzeit noch umfangreiche klinische Überwachung benötigen, um sicher eingesetzt werden zu können. Zukünftige Forschung sollte die Wirksamkeit von LLMs in realen klinischen Umgebungen weiter validieren und die Zusammenarbeit zwischen KI-Experten und klinischen Ärzten verstärken, um den Einsatz von LLMs im medizinischen Bereich zu optimieren.
Dennoch hat KI in der Medizin immer noch enormes Potenzial. Zum Beispiel hat Googles Med-PaLM2-Modell in einigen medizinischen Tests bereits Expertenniveau erreicht. In Zukunft könnte KI eine wichtige Rolle in der Diagnoseunterstützung und medizinischen Forschung spielen, aber es ist noch zu früh, um menschliche Ärzte zu ersetzen.