Katharina Zweig: „Verwenden Sie ChatGPT nicht als Suchmaschine“ | ABC-Z

Frau Zweig, Sokrates hat gesagt: „Ich weiß, dass ich nichts weiß.“ Weiß die KI, dass sie nichts weiß?
Das kann sie nicht wissen. Sie würde Ihnen auf diese Frage aber mit einem Text antworten, der sich so anhören würde wie ein Mensch. Das hat sie gelernt.
So leicht kann man sich das nicht machen. Die Kollegen schreiben, dass die Maschine nur anhand von statistischen Informationen Wörter aneinanderreiht. Der Aufsatz ist schon ein bisschen älter – und eine wichtige Komponente fehlt: Sprachmodelle arbeiten nicht direkt auf der Ebene von Wörtern als Sequenzen von Buchstaben. Stattdessen wird jedes Wort in einen riesigen mathematischen Vektorraum eingebettet. Das nennt man „Word Embedding“, also Worteinbettung.
Stellen Sie sich 100 Menschen vor, die einen dunklen Raum mit einer Kuppel betreten. Jeder bekommt eine Taschenlampe in die Hand und kann damit ein bestimmtes Wort an die Kuppel projizieren. Nun bekommen alle den Auftrag, ihre jeweiligen Wörter so auszurichten, dass sie in der Nähe von ähnlichen Wörtern stehen. Säugetiere wie Hund, Katze und Eichhörnchen stünden dann vermutlich nah beieinander, die Eidechse wäre weiter entfernt – wie weit genau, darauf würden sich die 100 Taschenlampenträger irgendwann einigen müssen.
Und die Maschine macht das auch, aber in viel größerem Umfang?
Genau, nämlich in Vektorräumen mit mehr als 10.000 Dimensionen. Damit hat sie schon einen gewissen Teil der Bedeutung von Wörtern erlernt, nämlich ihre Synonymhaftigkeit, und das auch über unterschiedliche Sprachen hinweg. „Katze“ und „cat“ werden in einigen Dimensionen nah beieinander liegen und in anderen nicht. Wer die Sprachmodelle zu „plappernden Papageien“ degradiert, wird dieser Worteinbettung nicht gerecht. Auf der anderen Seite wollen uns derzeit viele Unternehmen einreden, die Maschine sei fähig zu „Reasoning“ oder „Thinking“. Das ist übertrieben.
Warum? Ein Computer, der Wörter selbständig nach Ähnlichkeit sortiert, klingt doch erst mal ziemlich clever.
Wobei wir hier über das Wort „selbständig“ reden müssten. Die Methode für die Sortierung haben Menschen der Maschine vorgegeben. Zu Beginn sind alle Wörter mehr oder weniger zufällig im Raum verteilt. Nun bekommt die Maschine eine Trainingsaufgabe nach der anderen und versucht, Sätze mit passenden Wörtern zu vervollständigen. Dann kann sie die Taschenlampenstrahlen an der Kuppel neu ausrichten, sodass sich die Wahrscheinlichkeit für eine richtige Antwort beim nächsten Versuch erhöht.
Die Gewichtung der Verbindungen im neuronalen Netzwerk wird fortlaufend angepasst.
Ja, und das funktioniert so ähnlich wie in der Evolution: In jedem Schritt passt sich die Maschine ein bisschen an, so wie die Schnabelformen der Darwinfinken mit jeder Generation etwas spezifischer für das Herauslösen bestimmter Kerne und Samen wurden. Glücklicherweise ist die mathematische Methode etwas zielgerichteter als die Evolution und damit schneller.
Warum reden die Techkonzerne von „Reasoning“? Ist das nur Marketing?
Erstens klingt das natürlich wahnsinnig gut. Zweitens haben wir im Moment einfach keinen besseren Begriff dafür. Die Idee vom „Reasoning“ kommt drittens aus einem vielfach zitierten Artikel mit dem Titel „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“ aus dem Jahr 2022. Der Artikel zeigt auf, wie eine bestimmte Form des Promptings der Maschine dabei hilft, komplexere Aufgaben zu bewältigen, nämlich das Zwischenschrittprompting. Man gibt der Maschine, zusätzlich zur eigentlichen Aufgabe, ein paar Beispiele des Aufgabentyps dazu, und für deren Lösungen nennt man nicht nur die Lösung an sich, sondern auch Zwischenschritte, wie Menschen sie machen würden. Man kann beobachten, dass die Maschine in ihren Antworten für neue Aufgaben dann diese zwischenschrittartigen Strukturen nachbaut und damit öfter die richtige Lösung findet als ohne diese Promptingtechnik. Mittlerweile wird der Begriff Reasoning aber für alle möglichen Aufgabengebiete verwendet und dabei suggeriert, die Maschine könne tatsächlich selbst denken.
Sie argumentieren, die minimale Grundlage für Intelligenz sei der Besitz eines Weltmodells.
Die Idee stammt vom US-Philosophen Brian Cantwell Smith. Er hat sich gefragt: Was macht ein Wesen intelligent? Eine Bedingung ist die Möglichkeit, Vorhersagen treffen zu können. Wenn Sie hier auf der Erde einen Stift fallen lassen, fällt er auf den Boden, ein Astronaut hingegen gewöhnt sich daran, den Stift in der Luft „abzustellen“. Das Weltmodell ist also an die Umwelt adaptierbar. Diese intelligente Adaptation gelingt laut Smith nur, wenn Mensch oder Maschine existenziell abhängig von ihrem Weltmodell sind.
Gilt das für die Maschine?
Momentan nicht. Wenn wir einen Menschen darauf hinweisen, dass er völligen Blödsinn verzapft, wäre er beschämt und würde sein Weltmodell anpassen, damit das nicht wieder passiert. Die Maschine ist dagegen unbeeindruckt von ihrem eigenen Fehlverhalten: Sie entschuldigt sich wortreich – nur um gleich danach denselben Unsinn wieder hinzuschreiben.
Wir haben das schon in den Sechzigerjahren gesehen: Damals hat Joseph Weizenbaum eine Sprachsimulationssoftware namens Eliza geschrieben, die in der Simulation einer Psychotherapiesitzung getestet wurde. „Ich fühle mich so schlecht.“ – „Warum fühlst du Dich schlecht?“ Dieser Dialog funktionierte seitens der Software allein durch grammatische Umstrukturierungen, und trotzdem hat diese sehr primitive Maschine die Herzen der Menschen berührt. Und dies so sehr, dass sie auch sehr intime Details preisgaben. Weizenbaums Sekretärin hat ihn aus dem Büro geschmissen, weil ihr das Gespräch mit der Software zu privat war.
Warum lassen wir uns so leicht täuschen?
Aus Sicht der Evolution hatte der kooperative Mensch immer einen Überlebensvorteil gegenüber dem, der nicht kooperiert. Um mit anderen in den Austausch zu kommen, mussten wir Intelligenz und Bewusstsein beim anderen voraussetzen. Gleichzeitig waren wir Menschen nie mit etwas konfrontiert, das uns Intelligenz vorgaukelt. Wir haben schlicht keinen Sensor dafür entwickelt.
Sind wir wirklich so anders als die Maschinen? Ein mittelmäßiger Therapeut könnte doch auch nach Schema F antworten, genau wie Eliza.
Klar, ich antworte vielleicht auch mal mit halbem Gehirn, wenn mein Sohn mir etwas über Minecraft erzählt. Hilfreich ist die Unterscheidung der Wissenschaftshistorikerin Lorraine Daston zwischen „dicken“ und „dünnen“ Regeln. Beim Schema F würde Daston von dünnen Regeln sprechen. Denken Sie an die Korrektur einer Matheklausur, bei der es für jede Aufgabe genau ein richtiges Ergebnis gibt. Wenn alles richtig ist, vergeben Sie guten Gewissens die Note 1,0.
Wenn ein Teil der Ergebnisse falsch und ein anderer richtig ist, dann suchen wir nach Folgefehlern. Hat sich der Schüler im dritten Schritt verrechnet, und danach ist alles richtig? In solchen Fällen, in denen es um die Ausnahme geht und in denen wir Urteilskraft brauchen, spricht Daston von dicken Regeln. Das Problem der Sprachmodelle ist nun: Sie können nicht unterscheiden, ob sie es mit einem Schema-F-Fall oder einem Ausnahmefall zu tun haben.
Wenn Sie eine Matheaufgabe nach einem bestimmten Schema mit nutzlosen Informationen anreichern, fällt die Maschine darauf rein. Oliver pflückt am Freitag 44 Kiwis, am Samstag pflückt er 58, am Sonntag doppelt so viele wie am Freitag, aber fünf davon waren besonders klein. Mein 10 Jahre alter Sohn würde erkennen, dass die Größe der Kiwis unerheblich für die Rechenaufgabe ist. Die Maschine würde dagegen das „aber“ als Signal dafür verstehen, dass sie die fünf Kiwis subtrahieren muss, so wie sie es nach Schema F gelernt hat.
Die Limitationen der Sprache und Missverständnisse sind auch uns Menschen nicht fremd.
Das stimmt, aber bei einem Menschen werden sie schneller stutzig als bei der Maschine. Wenn Sie mich etwas fragen, dann können Sie schon anhand meiner Sprechgeschwindigkeit feststellen, ob ich mir sicher bin mit dem, was ich sage. Sie erkennen auch an der Anzahl der Füllwörter, ob ich mich im Expertenmodus befinde oder ins Schwimmen komme. Die Maschine hingegen verpackt auch den größten Mumpitz in kunstvoll gedrechselte Sprache.
Wenn Sprachmodelle derart limitiert sind, wofür können wir sie dann überhaupt verwenden?
Die erste Regel ist: nicht als Suchmaschine verwenden. Sprachmodelle haben erst einmal keine Wissensdatenbank zur Verfügung, sondern hängen Wörter aneinander. Für kreative Prozesse, in denen Assoziation gefragt ist, sind Sprachmodelle besser geeignet. Mir hat ChatGPT als Sparringpartner geholfen, als ich nach dem Titel für mein neues Buch gesucht habe. Grundsätzlich gilt: Man kann die Maschine überall dort verwenden, wo kein Schaden entsteht. Blind vertrauen sollte man nicht, das Ergebnis sollte mit dem eigenen Wissensschatz überprüfbar sein.
Ich bin mir nicht sicher, ob das zum Standard wird. Die ganze Geschichte ist so unfassbar teuer, irgendwann wird man einen Return of Investment sehen wollen. Für mich sind die Ergebnisse nicht gut genug, als dass ich dafür bezahlen wollte.
Und wenn es kostenlos ist?
Wie soll ein derart teurer Service auf die Dauer kostenlos bleiben? Die Maschine orientiert sich ja nicht nur am jeweiligen Prompt des Nutzers, sondern auch am Systemprompt . . .
. . . quasi der grundsätzlichen Verhaltensanweisung unabhängig von der Anfrage.
Genau. „Sei höflich, schreibe nicht zu lang und nicht zu kurz.“ Nichts davon versteht die Maschine, aber sie assoziiert mit diesen Wörtern bestimmte andere Wörter, die dadurch wahrscheinlicher generiert werden. Jedes neu generierte Wort wird mit dem gesamten bisherigen Text, inklusive Systemprompt und Nutzerprompt, in ein riesiges neuronales Netzwerk gesteckt. Wie viele Rechenschritte für ein einziges nächstes Wort durchlaufen werden, hängt vom Modell ab; es liegt zwischen Milliarden und Billionen Rechenoperationen. Das braucht Server, das kostet Strom und Kühlwasser – und ist auf Dauer zu teuer, um gratis zu sein.
Besonders junge Leute geben ChatGPT einen Vertrauensvorschuss und teilen ihre Sorgen mit der KI. Schlagzeilen machte der Fall des 16 Jahre alten Adam. Seine Eltern haben Open AI verklagt, der Chatbot soll den Jungen in den Suizid getrieben haben. Sind die Systemprompts nicht genau dazu da, ein Abdriften des Gesprächs zu verhindern?
Am Anfang kann der Systemprompt noch einiges abfangen. Im Verlauf des Gesprächs wird er aber zu einem verschwindend kleinen Teil des gesamten Textes, den die Maschine verarbeitet. Irgendwann überwiegen vermutlich die Assoziationen mit jenen Themen und Schlagwörtern, die einen Suizidwunsch verstärken können. Ich fürchte, die Maschine hat die Beiträge in vielen Foren im Internet verarbeitet, in denen Menschen versuchen, insbesondere Jugendliche in den Suizid zu treiben. Daher macht mir dieses Grundvertrauen gegenüber KI-Chatbots große Sorgen.
ChatGPT erzählt uns das, was wir hören wollen.
In Fachkreisen wird diese Angewohnheit als „sycophancy“ bezeichnet, was sich ungefähr mit „Speichelleckerei“ übersetzen lässt. Das ist in vielerlei Hinsicht beängstigend. Denken Sie zum Beispiel an die Männer, die sich selbst als „Incels“ bezeichnen, also „involuntary celibate“, auf Deutsch: unfreiwillig sexuell enthaltsam. In Foren werden hierzu misogynistische Sprüche ausgetauscht, und ein Sprachmodell könnte solches Verhalten verstärken. Entsprechend kann die „sycophancy“ bei den falschen Voraussetzungen zu einer schleichenden Radikalisierung führen.
Auch beim riesigen Hype um die KI-Agenten, die uns nervige Routinetätigkeiten abnehmen sollen, sind Sie misstrauisch. Warum?
Wann haben Sie Ihre letzte Reise gebucht?
War alles einfach, oder gab es Probleme?
Man muss halt auf ein paar Dinge achten. Wann komme ich am Zielflughafen an, wie komme ich zur Unterkunft, und wann kann ich dort einchecken? Solche Sachen.
Und diese verschiedenen Variablen kann man nicht beliebig voneinander trennen. Aber genau das tun Sprachmodelle. Ein agentisches KI-System zerlegt ihren Auftrag einer Reisebuchung per Sprachmodell in Unteraufgaben: Flug buchen, Unterkunft buchen, vielleicht noch Konzerttickets buchen. Aber sie ist nicht von allein in der Lage, die Zeiten aufeinander abzustimmen. Zudem müssten alle möglichen Ausnahmefälle oder Änderungen im Systemprompt berücksichtigt werden. Und trotzdem können Sie sicher sein, dass die AGB solcher KI-Agenten Ihnen die finanzielle Verantwortung zuweisen werden. Im schlimmsten Fall stehen Sie dann ohne Hotel da, weil die Reservierung erst für den Folgetag gilt.
Das wäre natürlich ärgerlich.
Ja, aber es ist nur eine Lappalie im Vergleich dazu, welche Millionenschäden Sprachmodelle noch anrichten könnten, wenn sie an der falschen Stelle eingesetzt werden. Ich glaube, dass eine riesige KI-Blase auf uns zukommt, auch an den Finanzmärkten. Das ist wie in jedem Gartner-Hype-Zyklus: Die Technologie wird auf kurze Sicht überschätzt und auf lange Sicht unterschätzt. Ich sehe erst einmal den nächsten KI-Winter auf uns zukommen. Vielleicht dauert er diesmal nicht so lange wie die letzten beiden. Aber allein die Tatsache, dass drei Jahre nach dem Durchbruch von ChatGPT immer noch kein echtes Geschäftsmodell gefunden wurde, ist schon interessant.
Dabei ist das fast schon eine Binse in der Produktentwicklung: kein Geld für ein neues Produkt ausgeben, wenn nicht vorher klar ist, welches Problem damit gelöst werden soll.
Beim KI-Hype ist es oft umgekehrt. Alle wollen dabei sein und suchen nachträglich ein Problem, dessen sich die Maschine annehmen soll. Viele Unternehmen haben einfach Angst, den Anschluss zu verpassen, und investieren in Dinge, die sich nicht lohnen.
Was kommt nach dem KI-Winter?
Sprachmodelle können tatsächlich helfen, auf echte Wissensdatenbanken in neuer Art und Weise zuzugreifen. Ich denke an die RAG-Technologie, das steht für „Retrieval-Augmented Generation“.
Stellen Sie sich vor, von Menschen geschriebene Texte werden in kleinere Wissensschnipsel zerteilt. Denen gibt die Maschine wieder eine Positionierung im Vektorraum, und zwar genauso, wie die Sprachmodelle das mit einzelnen Wörtern machen. Nun stellen Sie Ihre Anfrage, nur dass sie diesmal nicht durch eine einzige Antwort mit fragwürdiger Quellenlage beantwortet wird. Stattdessen bekommen Sie echte Texte von echten Menschen. Natürlich müssen Sie abschätzen können, ob die vorgeschlagenen Texte Ihre Frage beantworten oder nicht.
Also eher eine Suchmaschine als ein Chatbot?
Genau. Im allerschlimmsten Fall findet die Maschine keinen Text in der Datenbank, der zu Ihrer Anfrage passt, oder die vorgeschlagenen Texte beantworten Ihre Frage nicht. Das ist zwar schade, aber ein großer Schaden entsteht dadurch nicht – Sie sind einfach so schlau wie vorher.
Wie wird die Qualität der in der Datenbank hinterlegten Texte sichergestellt?
Wenn nur Texte in der Datenbank liegen, die von Fachleuten verfasst wurden, dann können Sie sicher sein, dass die Vorschläge der Maschine dem Wissensstand entsprechen.
Festzulegen wäre noch, wer die Entscheidung darüber trifft, welche Autoren über Expertise verfügen und welche nicht.
Das stimmt. Aber wenn eine Maschine zum Beispiel das Archiv verschiedener Qualitätsmedien durchsucht, dann ist die Wahrscheinlichkeit hoch, dass die ausgegebenen Texte mit journalistischer Sorgfalt geschrieben wurden.
Und was ist der Vorteil zur klassischen Suchmaschine?
Stellen Sie sich vor, Sie wollen nach allen Texten suchen, in denen in irgendeiner Form alleinerziehende Mütter vorkommen. Das passiert vielleicht nur ganz beiläufig, ohne dass die Texte entsprechend verschlagwortet sind. Eine klassische Suchmaschine scheitert an diesem Suchauftrag, aber ein Sprachmodell ist in der Lage, solche Querverbindungen aufzuspüren.
Wie sieht die Zukunft von KI-Chatbots wie ChatGPT aus?
Für die wird es weiterhin Anwendungsfälle geben, etwa als Sparringpartner in der Textarbeit. Da ist es fast egal, ob die Maschine nun Albernheiten oder Weisheiten generiert. Jede neue Perspektive kann einen Text verbessern und Autoren auf neue Ideen bringen. Ich glaube aber nicht, dass die Chatbots selbst die absurd hohen Investitionen rechtfertigen, die wir gerade sehen. Es werden eher damit verbundene Technologieinnovationen sein.
Katharina Zweig ist Informatikprofessorin an der RPTU Kaiserslautern-Landau und Autorin mehrerer Sachbücher über Künstliche Intelligenz. Zuletzt erschien ihr Buch „Weiß die KI, dass sie nichts weiß?“ im Heyne Verlag.





















