Die Sprach-KI schreibt plausibel klingende Texte, bis hin zu ganzen Essays. Aber Vorsicht: Was nach Fakten klingt, sind bei ChatGPT oft keine. Warum das so ist und was Forscher dagegen tun.

Mehr zum Thema Digitales

Wie ein "altkluges Kind" klinge die Sprach-KI "ChatGPT" manchmal, meint Aljoscha Burchardt vom Deutschen Zentrum für künstliche Intelligenz in Berlin. In einem souveränen und überzeugenden Ton antwortet die KI auf Fragen – nur oft stimmen die angeführten Fakten nicht.

Auch dort fabuliert ChatGPT, wo man es am wenigsten toleriert: in der Wissenschaft. "Welches ist die meistzitierte wirtschaftswissenschaftliche Arbeit aller Zeiten?", fragte der australische Ökonom David Smerdon die Software der kalifornischen Firma OpenAI. Das sei der Artikel "A Theory of Economic History" (zu Deutsch: "Theorie der Wirtschaftsgeschichte") von Douglass North und Robert Thomas, publiziert 1969 im "Journal of Economic History", gab die KI zurück. Der Artikel sei 30.000-mal zitiert worden. Zwar sind die genannten Autoren tatsächlich einflussreiche Ökonomen und auch die Zeitschrift existiert. Nur leider haben die beiden nie einen Artikel dieses Titels verfasst. ChatGPT hat die Referenz erfunden.

Wenn die künstliche Intelligenz "halluziniert"

KI-Fachleute nennen eine solche Melange aus Fakten und Fiktion "Halluzination". ChatGPT und andere Sprachmodelle, wie man derlei eloquente Algorithmen auch nennt, halluzinieren häufig. Fachleute arbeiten an dem Problem, können es aber allenfalls lindern, nicht grundsätzlich lösen. So halluziniert OpenAI’s neuestes Sprachmodell GPT-4 immer noch, auch wenn die Wahrscheinlichkeit für eine richtige Antwort um 40 Prozent gegenüber der Vorgängerversion GPT-3.5, auf der ChatGPT basiert, gesteigert werden konnte. Die eigentliche Crux ist, dass die erzeugten Texte keine Hinweise enthalten, was Fakt ist und was Fiktion.

"ChatGPT ist keine Faktensuchmaschine", erklärt Burchardt. Das Sprachmodell sei darauf trainiert, plausibel klingende Texte zu verfassen, "mehr nicht", sagt der Computerlinguist. ChatGPT kenne das Konzept der Wahrheit nicht, ergänzt Jonas Andrulis, Chef der Heidelberger Firma AlephAlpha, die ebenfalls ein Sprachmodell entwickelt hat. So heißt die Klasse von Sprach-KIs, zu denen ChatGPT gehört.

Besonders tückisch ist das bei Texten mit Zahlen, wenn ein Sprachmodell diese auf die Kommastelle genau angibt. Das suggeriert präzises Wissen. So gab das Sprachmodell in Microsofts Suchmaschine "Bing" falsche Zahlen an, als es einen Geschäftsbericht der Textilkette "Gap" zusammenfasste. Zum Beispiel nannte die KI als Gewinnmarge 5,9 Prozent, wie der Sender CNBC berichtet. Doch diese Zahl kommt im echten Geschäftsbericht der Firma gar nicht vor. Dort werde die Marge mit 4,6 Prozent angegeben, so CNBC.

Kein konsistentes Weltwissen

Dass Sprachmodelle halluzinieren, steckt in ihrer Funktionsweise. Wer heute "künstliche Intelligenz" sagt, meint meistens Algorithmen, die die Vernetzung zwischen Neuronen im menschlichen Hirn nachahmen. Dank immer billigerer Rechenkraft wurden diese künstlichen neuronalen Netze immer größer. Sie können mit immer mehr Daten trainieren und subtile Muster darin erkennen.

Das geht auch mit Sprache. Das Sprachmodell, auf dem ChatGPT basiert, wurde mit Texten von Milliarden Websites und Millionen Büchern trainiert. Es erlernte dabei aber kein konsistentes Weltwissen, sondern lediglich, wie Sprache funktioniert. Genauer gesagt, fertigen Sprachmodelle ein statistisches Modell über Wortfolgen an. Bei einem gegebenen Textanfang können sie berechnen, welches Wort am wahrscheinlichsten als nächstes folgt. So entsteht Wort für Wort ein neuer Text.

Wie faktentreu das bleibt, hängt davon ab, wie häufig eine Wortfolge in den Trainingstexten vorkam oder nicht. Manches, was ChatGPT schreibt, stimmt, weil es Menschen schon oft geschrieben haben. Ein Beispiel zur Veranschaulichung: Auf "Urlaub in Sri …" lässt sich schwerlich etwas anderes ergänzen als "Lanka". Unsicherer ist hingegen die Fortsetzung des folgenden Satzanfangs: "Bei den Landtagswahlen in Hessen erhielt die …". Es könnte genauso gut mit "CDU" wie mit "SPD" oder "Grünen" weitergehen. Wenn alle Alternativen etwa gleich wahrscheinlich sind, wird die Auswahl praktisch willkürlich, ein Fehler entsteht.

Lesen Sie auch:

Die KI imitiert den menschlichen Hang zur Weitschweifigkeit

ChatGPT zeichnet sich dadurch aus, dass es beim Raten des nächsten Worts besonders viel vorausgehenden Text berücksichtigt. Das macht seine Texte in sich stimmig und menschlich wirkend. Wenn in den etwa 1.500 Wörtern davor das Ergebnis für die SPD schon mitgeteilt wurde, steigt die Wahrscheinlichkeit, dass das nächste Wort "CDU" lautet.

Das ändert aber nichts daran, dass Sprachmodelle beim Schreiben nur Wahrscheinlichkeiten ausrechnen; der Wahrheitsgehalt wird nicht bewertet. Allein verantwortlich an falschen Fakten in seinen Texten ist ChatGPT aber wohl nicht.

Etwas Ähnliches wie die Halluzinationen einer KI existiert auch in natürlicher Sprache, meint Chunting Zhou von Facebooks KI-Forschungsabteilung in Seattle. "Wenn Menschen auf eine Frage antworten, dann lassen sie oft Hintergrundwissen einfließen, nach dem gar nicht gefragt worden war", sagt die Informatikerin, die zu Halluzinationen von Sprachmodellen promoviert hat. "Bei ihrem Training mit menschlichen Texten erlernen Sprachmodelle die menschliche Neigung, über den gegebenen Kontext hinauszugehen", glaubt Zhou. Salopp gesagt: Die KI imitiert den menschlichen Hang zur Weitschweifigkeit. Wenn sie aber unnötig viel schreibt, steigt die Gefahr von "Wissenslücken", die ChatGPT dann mit Plausiblem füllt. Aber plausibel heißt eben nicht unbedingt faktisch richtig.

Chunting Zhous Erklärung ist eine Meinung, keine gesicherte Erkenntnis. Aljoscha Burchhardt meint, dass vermenschlichende Erklärungen für ChatGPTs Halluzinationen gar nicht möglich seien. Für die KI seien Sätze lediglich "Zeichenketten", in denen sie Muster erkennt. Wenn die Maschine beispielsweise viele wissenschaftliche Artikel sieht, die alle einen ähnlichen Aufbau aus Überschrift, Zusammenfassung, Einführung und so weiter haben, dann könne sie diese Abfolge lernen und in eigenen Texten imitieren.

Ähnlichkeit zwischen ChatGPT und einem Blindenhund

"Wir können aber nicht in die KI hineinsehen", betont Burchardt. Welche abstrakten Muster die KI erkennt, wisse man nicht. Das sei ähnlich, wie bei einem Blindenhund, den man den Weg zum Bäcker antrainiert habe: An der Ampel links, über den Zebrastreifen, dann rechts. "Man kann das Gehirn des Hundes im MRT-Scan ansehen", erklärt Burchardt, "erhält dadurch aber keine Antwort, was der Hund über Ampeln und Zebrastreifen gelernt hat."

Deshalb kann auch David Smerdon nur darüber spekulieren, wie ChatGPT eine wirtschaftswissenschaftliche Arbeit erfindet. Smerdon versuchte es auf Twitter. Mosaikstein eins: Die Wörter Theory, Economic und History kommen häufig in Titeln solcher Arbeiten vor. Mosaikstein zwei: Der verstorbene Nobelpreisträger Douglass North wird aufgrund einer gemeinsamen Publikation oft zusammen mit Robert Thomas erwähnt und, Mosaikstein drei, Norths eigene meistzitierte Arbeit erschien im "Journal of Economic History". So könnten sich die Mosaiksteine zu dem fügen, was ChatGPT geschrieben hat.

Sprachmodelle mit Anschluss an Suchmaschinen

Dass Sprachmodelle sich nicht so leicht in die Karten schauen lassen, macht es schwer, technische Lösungen gegen die Halluzinationen von Sprachmodellen zu finden. Chunting Zhou schlägt vor, Sprachmodelle mit Suchmaschinen zu koppeln. Diese könnten in der Datenbasis nachsehen, ob das Geschriebene stimmt und Textstellen markieren, die womöglich nur halluziniert sind. Die beim Fact-Checking gefundenen Quellen könnten sie als Link an den vom Sprachmodell erzeugten Text anhängen.

Für ihr Sprachmodell "Luminous" hat die Heidelberger Firma AlephAlpha eine ähnliche Technik entwickelt. Die Software sucht in einem Datenpool nach Quellen, auf denen die Antwort der KI beruht. "Die Quelle wird als Link der Antwort hinzugefügt", erklärt Jonas Andrulis. Allerdings soll Luminous nicht als Chatbot für alles eingesetzt werden wie ChatGPT, sondern in abgegrenzten Anwendungen. Der Datenpool, oder die "Wissensbasis" wie Andrulis es nennt, beschränkt sich auf das jeweilige Feld.

Heidelberg testet angeblich verlässliche Sprach-KI

Mit der Stadt Heidelberg zum Beispiel entwickelt die Firma derzeit den virtuellen Bürgerassistenten "Lumi", der den Heidelbergern Fragen beantworten soll, etwa, wie man einen Wohnsitz anmeldet oder was der Gemeinderat zuletzt entschieden hat. Die Wissensbasis für das Fact-Checking stellt die Stadt bereit. "Wenn Lumi keine verlässlichen Antworten findet, soll es schreiben, dass es nicht antworten kann", sagt Andrulis.

Eines werden die Sprachmodelle dadurch aber nicht lernen. "Menschen haben Werte", sagt Andrulis. "Dazu gehört, dass man keine falschen Aussagen macht". Aber wer weiß, ob das so bleiben wird: Bei den spektakulären Sprüngen, die KI in den letzten Monaten machte, würde es kaum noch verwundern, wenn eine KI bald etwas, wie ein schlechtes Gewissen hätte, wenn sie lügt.

Dieser Beitrag stammt vom Journalismusportal RiffReporter. Auf riffreporter.de berichten rund 100 unabhängige JournalistInnen gemeinsam zu Aktuellem und Hintergründen. Die RiffReporter wurden für ihr Angebot mit dem Grimme Online Award ausgezeichnet.

ChatGPT im Test: Wer ist schlauer - künstliche Intelligenz oder das menschliche Gehirn?

Wird künstliche Intelligenz bald menschenähnliche Fähigkeiten erreichen und eine Vielzahl an Jobs ersetzen? Nur wer weiß, wo die Grenzen einer Technologie liegen, kann sie sinnvoll einsetzen. Der Neurowissenschaftler Henning Beck stellt ChatGPT deswegen auf den Prüfstand und zeigt, wie es sich vom menschlichen Denken unterscheidet.

  © RiffReporter

JTI zertifiziert JTI zertifiziert

"So arbeitet die Redaktion" informiert Sie, wann und worüber wir berichten, wie wir mit Fehlern umgehen und woher unsere Inhalte stammen. Bei der Berichterstattung halten wir uns an die Richtlinien der Journalism Trust Initiative.