AI Hallucination: Comparison of the Popular LLMs
Die Analyse basiert auf einem Benchmark: 29 Sprachmodelle wurden mit jeweils 60 Fragen getestet, die auf echten Nachrichtenartikeln basieren. Ziel war es, den Anteil falscher oder „halluzinierter“ Antworten zu messen. Es zeigte sich, dass das Modell mit der niedrigsten Halluzinationsrate etwa 17 % hatte — das bedeutet: fast jeder sechste oder siebte Antwort war fehlerhaft.
Weitere wichtige Erkenntnisse:
- Es besteht kaum ein Zusammenhang zwischen Kosten/Nutzungspreis eines Modells und dessen Halluzinationsrate. Teurer heißt nicht automatisch genauer.
- Ursachen für Halluzinationen umfassen u. a. unzureichende oder veraltete Trainingsdaten, Daten von geringer Qualität, Wissenslücken in Spezialgebieten sowie das Verstreichen von Trainingszeitpunkten („Wissensschnitt“).
- Gründe sind auch eine inhärente Neigung zur Kohärenz statt zur Wahrheit: Ein Modell ist darauf trainiert, überzeugend zu antworten, nicht unbedingt richtig.
- Gegenmaßnahmen: Einsatz von Retrieval-Augmented Generation (also eine Kombination von Datenabruf + Sprachmodell), sorgfältige Prompt-Gestaltung, externe Faktenprüfung, Kommunikation von Unsicherheit (z. B. dass ein Modell eine Antwort nicht mit voller Gewissheit geben kann) und systematische menschliche Rückkopplung.
- Die Studie warnt insbesondere davor, Halluzinationen in kritischen Bereichen (z. B. Recht, Medizin, Finanzen) zu unterschätzen, da diese Fehlleistungen erhebliche Reputations-, Haftungs- oder Effizienzprobleme auslösen können.
- und andere Erkenntnisse