In einem kürzlich gehaltenen Vortrag1 erörterte Andrej Karpathy, einer der Mitbegründer von OpenAI, der Organisation hinter GPT und ChatGPT, einige wesentliche Unterschiede zwischen grossen Sprachmodellen (Large Language Models, LLMs) wie GPT oder Llama und dem menschlichen Denken. Da LLMs als Speerspitze aktueller künstlicher Intelligenz angesehen werden, macht es Sinn, sie mit der bekanntesten natürlichen Intelligenz zu vergleichen. Dieser Artikel ist eine Reflexion über den Vortrag und fasst einige der interessantesten Fragen zusammen.
Auffälliger als die Unterschiede, von denen in den letzten Monaten viele aufgezeigt wurden, sind die Gemeinsamkeiten. Dass trotz des einfachen Funktionsprinzips2 von LLMs, nämlich der Vorhersage des nächsten Zeichens auf der Grundlage des vorherigen Kontextes, entsteht der Anschein, dass LLMs denken können. So können Sprachmodelle wie GPT dazu gebracht werden, in einem Dialogszenario als persönliche Assistenten aufzutreten, ohne dass sie explizit darauf trainiert wurden.
Was ist das Problem?
Fälschen die Modelle Informationen? Ja. Sind sie Überparametrisiert? Wahrscheinlich. Können sie bei allgemeinen Aufgaben mit Menschen mithalten? Auch ja. GPT-4, das jüngste Modell von OpenAI, schaffte es in einer Vielzahl von Universitätsprüfungen unter die besten 20% der Testteilnehmer. Es verfügt über ein umfangreiches Wissen (z. B. kann es eine Liste der Technologien von Sid Meier’s Alpha Centauri zusammen mit der Beschreibung des Spiels nennen), kann mathematische Forschungsarbeiten zusammenfassen3 und korrekten Programmcode anhand einer natürlichsprachlichen Beschreibung schreiben.
Gedankenketten
Einige der bemerkenswerten Unterschiede zwischen LLM-Texterzeugung und menschlichem Denken sind das Fehlen von Reflexion, das Unwissen über was die Modelle nicht wissen, oder die Korrektur von Fehlern beim Denken (bzw. bei der Texterzeugung). Ähnlich wie bei einem Assistenten können die Modelle jedoch dazu gebracht werden, beim Schreiben von Text eine Gedankenkette zu produzieren, indem sie aufgefordert werden, Schritt für Schritt vorzugehen.
Indem man das Modell dazu zwingt, eine Gedankenkette zu produzieren, können einige der vorherigen Probleme behoben werden. Noch wichtiger ist, dass das Modell das menschliche Denken simuliert, indem es das produziert, was Karpathy “internen Monolog” nennt. Dies erinnert an die Frage des Physikers Enrico Fermi: Wie viele Klavierstimmer gibt es in Chicago?
Normalerweise kann man die Frage nicht direkt beantworten, aber man kann eine Vermutung anstellen, indem man bekannte Dinge kombiniert, z. B. die Einwohnerzahl von Chicago, die Anzahl der Klaviere, die Zeit, die man braucht, um ein Klavier zu stimmen, usw. Schliesslich besteht das einzige Ziel des LLM darin, die Trainingsdaten originalgetreu zu reproduzieren und nicht unbedingt reflektierend oder kritisch zu sein. Aber wenn die Modelle darum gebeten werden, können sie dies tun, genauso wie sie zu Assistenten werden, wenn sie darum gebeten werden (Bevor man mit ChatGPT in einen Dialog gerät, wird ein Sprachmodell im Hintergrund in die Situation eines Assistenten gebracht).
Dies deckt sich mit der Beobachtung, dass LLMs bessere Antworten produzieren, wenn sie viel Text von einem Benutzer erhalten - das Modell muss nur in den richtigen Geisteszustand (State of Mind) versetzt werden.
Der Weg in die Zukunft
LLMs anzuweisen, Dinge zu tun, die Menschen intuitiv tun, ist vielleicht nicht die Lösung für die Probleme der heutigen LLMs. Das Kombinieren eines Gedankens mit einer früheren Erfahrung, die nicht im aktuellen Kontext auftaucht, ist schwieriger zu bewältigen - wenn auch nicht unmöglich. Weite Zusammenhänge zu sehen bleibt für Sprachmodelle schwierig, wie es für uns Menschen ist.
Die Anreicherung des Arbeitsgedächtnisses von LLMs mit Daten aus dem Internet, eigenen Dokumenten, Datenbanken und Vektorspeichern sind vielversprechende Ansätze. LLamaIndex und LangChain bieten leistungsfähige Konnektoren zu Datenquellen und ausgefeilte Abstraktionen.
Ob LLMs in der Lage sein werden, nicht offensichtliche “Konzeptsprünge” auszuführen (eine Eigenschaft, die mit wissenschaftlichen Entdeckungen und Erfindungen in Verbindung gebracht wird), ist noch eine offene Frage, und die Antwort wird wahrscheinlich entweder ein tieferes Verständnis von Intelligenz erfordern oder mit sich bringen.
Unser Rezept für hier und jetzt? Sehen wir Sprachmodelle als Teil eines grösseren Ganzen, erweitern wir ihre Fähigkeiten und sehen wir, wie weit uns LLMs in der Computerintelligenz bringen werden.
Algolas kombiniert massgeschneiderte Softwareentwicklung mit künstlicher Intelligenz um intelligente Systeme für die Praxis zu entwickeln.
Referenzen
-
Andrej Karpathy, State of GPT, May 2023 ↩
-
Das Erzeugen von Text durch Vorhersage der nächsten Zeichen ist nicht neu. In den 1980er Jahren haben Wissenschaftler von Bell Labs [einen menschlichen Benutzer in Newsgroups vorgetäuscht] (https://en.wikipedia.org/wiki/Mark_V._Shaney), indem sie einfach ein wahrscheinliches Wort aus einem einzigen vorangehenden Wort vorhersagten. Die Texte sind erstaunlich konsistent. ↩
-
Terence Tao, Embracing change and resetting expectations ↩