ChatGPT und der Ölteppich

Johannes Stiehler
Technologie
Arbiträre Ausbrüche
#LargeLanguageModels
#TextKI
Cover Image for ChatGPT und der Ölteppich

„Data is the new oil“, so sagte im Jahr 2006 der britische Mathematiker Clive Humby. Wahrscheinlich war er sich nicht bewusst, wie richtig er lag und wie weit man diese Analogie treiben kann.

  • Daten sind wie Öl, ohne Verarbeitung sind sie nutzlos.
  • Daten sind wie Öl, wesentliche Prozesse werden von ihnen angetrieben.
  • Daten sind wie Öl, sie sind – in gewissem Sinne – schlecht für die Umwelt.
  • Daten sind wie Öl, sie sind wertvoll, obwohl in relativ großen Mengen vorhanden.

Einer der wesentliche Unterschiede ist aber, dass Daten sich im Gegensatz zu Öl nicht verbrauchen. Man kann die gleichen Datensätze immer wieder in verschiedenen Kontexten verwenden.

Klassisches Machine Learning hat immer zuerst bedeutet, Daten zu sammeln und vor allem, Daten aufzubereiten. Automatische Übersetzung zum Beispiel steht und fällt mit dem Vorhandensein sogenannter „alinierter Texte“, also von Dokumenten, die in zwei verschiedenen Sprachen vorliegen und idealerweise Satz für Satz gegenübergestellt werden können. Auf dieser (Daten)Basis kann dann ein Machine Learning Modell trainiert werden, das auch für neue Sätze das (oft) korrekte Gegenüber ausspuckt. Im Wettrennen solcher Systeme war oft entscheidend, wer die saubereren und größeren Datenmengen hatte und nicht, wer den besseren Algorithmus bzw. die bessere Technologie besaß.

Die technischen Ansätze basieren sowieso oft auf frei verfügbarer Forschung, die Daten machen den Unterschied.

Mit Deep Learning ist dieser Datenhunger noch deutlich größer geworden. Während vorherige Verfahren mit 100 Positivbeispielen pro Kategorie schon ganz gut funktionierten (z.B. 100 Finanznews vs 100 Politiknews zum Trainieren eines Classifiers), brauchten Deep Learning Verfahren mindestens eine Größenordnung mehr. Dafür funktionierte hiermit dann plötzlich so etwas Verrücktes wie Bildsuche bzw. Bildkategorisierung.

Mit Large Language Models (und anderen Formen generativer AI) haben wir die nächste Stufe der Datengier gezündet. Hier wird eigentlich nur noch von Milliarden geredet. Im dem Fall sind diese Inputdaten zwar nur unkategorisierte „Tokens“ statt manuell vorsortierter Dokumente, aber die verwendeten Datenmengen sind dennoch gigantisch.

Ein wesentlicher Unterschied ist allerdings, dass im Falle von ChatGPT und anderen solchen Modellen jemand anderes für mich alle möglichen bunten Daten gesammelt und zu einem Brei vermischt hat - einem Ölteppich sozusagen.

Dadurch kann das Modell ohne weitere Datenzufuhr fast alle Fragen beantworten, aber kann umgekehrt für keine Frage wirklich verlässliche, präzise oder auch nur reproduzierbare Antworten garantieren. Der große Datenbrei spuckt auf fast alles eine Antwort aus, aber je dünner die Datenlage im Trainingsset war, desto fragwürdiger wird sie.

Was? Aber ChatGPT wurde doch auf dem gesamten Wissen der Welt trainiert, oder nicht?

Selbst wenn das so wäre (sowohl „gesamt“ als auch „Wissen“ als auch „Welt“ sind vermutlich keine angemessenen Begriffe), benötigt es nicht nur ein Dokument zu jedem Thema, sondern sehr sehr viele, um am Ende faktisch korrekte Antworten zu geben. Man sieht das sehr schön, wenn man sich ein bisschen an den „Rand“ des Weltwissens begibt: Waren zu einem Thema wenig Dokumente im Trainingsset und überrumpelt man das System vielleicht noch mit abwegigen Abfragesprachen wie z.B. Deutsch, dann ist die Halluzination nicht weit:

Amtsgericht, 1. Versuch



Nein, das ist nicht korrekt, Georg Lohmeier hat diese Serie geschrieben und die Fälle spielen alle 1911/12.

Aber vielleicht war ja der Bindestrich verwirrend, im Original schreibt es sich ohne diesen:

Amtsgericht, 2. Versuch


Ah ja, nein, das ist nicht weniger falsch. Interessanterweise bleibt das Modell in der richtigen „Umgebung“, sowohl Ernst Maria Lang als auch Max Neal sind im weitesten Sinne Humoristen aus Bayern. Aber kann der Bindestrich eine solche Umdeutung hervorrufen?

Probieren wir das lieber nochmal mit einer wörtlichen Wiederholung (im selben Chat-Fenster):

Amtsgericht, 3. Versuch


Ah, wieder ein bayrischer Humorist, wieder der Falsche. Für alle genannten Herren (inklusive dem echten Autor) existieren Wikipedia-Seiten und auch andere Informationen im Netz. Dennoch fantasiert ChatGPT-4 (in allerneuester Ausprägung vom 12. Sep 2023) sich lustig beliebigen Käse zusammen.

Rücken wir wieder etwas mehr in das Zentrum der Welt von ChatGPT, werden die Antworten wieder korrekt, konsistent und vor allem wiederholbar:

Ölige Daten, 1. Versuch

Jede Wiederholung dieser Frage erzeugt (für mich, Stand heute) die gleiche Antwort. Und selbst die englische Variante ist konsistent und quasi eine 1:1 Übersetzung der deutschen:

Ölige Daten, 2. Versuch

Aber ist das denn wichtig? Interessiert sich irgendjemand wirklich für das „Königlich Bayerische Amtsgericht“??

Vermutlich schon, aber das wesentlichere Problem ist, dass unzählige Start-Ups in extrem engen Nischen gegründet werden, mit dem Anspruch, für diese Nische ein tolles „AI-angetriebenes“ Produkt zu bauen, was in der Realität oft bedeutet, dass diese Produkte auf mehr oder minder phantasievolle Art Prompts an ChatGPT schicken und dessen Ausgaben weiterverarbeiten.

Das obige Beispiel dokumentiert aussagekräftig, welche Qualität von solchen Ansätzen zu erwarten ist, sobald man den üppigen Kern der OpenAi-Trainingsdaten verlässt.

Johannes Stiehler
CO-Founder NEOMO GmbH
Johannes hat während seiner gesamten Laufbahn an Softwarelösungen gearbeitet, die Textinformationen verarbeiten, anreichern und kontextabhängig anzeigen.

Wir haben noch mehr zu bieten!

Unseren Newsletter abonnieren

Wenn Sie sich vom Twitter- und LinkedIn-Wahnsinn abkoppeln, aber trotzdem unsere Inhalte lesen möchten, freuen wir uns und haben genau das richtige für Sie: Unser Newsletter hält Sie über alles Wissenswerte auf dem Laufenden.

Bitte benutzen Sie das untenstehende Formular, um ihn zu abonnieren.

NEOMO verpflichtet sich, Ihre Privatsphäre zu schützen und zu respektieren und Ihre persönlichen Daten nur dazu verwenden, Ihr Konto zu verwalten und die von Ihnen angeforderten Informationen bereitzustellen. Um Ihnen die gewünschten Inhalte zur Verfügung stellen zu können, müssen wir Ihre personenbezogenen Daten speichern und verarbeiten.

Folgen Sie uns für Einblicke, Ausblicke und Durchblicke.

Wann immer neue Inhalte verfügbar sind oder etwas Bemerkenswertes in der Branche passiert - wir halten Sie auf dem Laufenden.

Folgen Sie uns auf LinkedIn und Twitter, um Neuigkeiten zu erfahren, und auf YouTube für bewegte Bilder.

Teilen, wenn's gefällt

Wenn Ihnen unser Beitrag gefällt, helfen Sie uns bitte, ihn zu verteilen, indem Sie Ihr eigenes Netzwerk aktivieren.

Weitere Blogartikel

Image

Bleeding Edge - Fluch oder Segen?

Wir setzen auf modernste Technologien, um Unternehmen durch innovative Lösungen voranzubringen. Daher gehen wir in Gesprächen mit Kunden und Partnern oder unseren Webinaren immer wieder darauf ein, Unternehmen die Vorteile und Möglichkeiten moderner Technologien nahezubringen. Aber auch für uns selbst kommt KI zum Einsatz: Durch die Automatisierung von Ausschreibungsprozessen konnten wir wertvolle Ressourcen sparen und Effizienz steigern.

Image

Im Moment ist KI wie ein 12-jähriger Kollege

Die Technologie muss im Prozess eingebettet und dem Prozess angepasst werden und nicht unverbunden daneben schweben. Das gilt auch für Large Language Models – obwohl sie aufgrund ihrer „Menschlichkeit“ den Eindruck erwecken, als könnte man sie wie einen Kollegen behandeln und nicht wie ein Tool. Aber in wie vielen Geschäftsbereichen bringt ein Kollege mit den intellektuellen Kapazitäten eines Zwölfjährigen einen großen Mehrwert?

Image

ChatGPT „weiß“ gar nichts

Sprachmodelle tun sich notorisch schwer damit, Fakten verlässlich abzurufen. Leider antworten sie aber auch fast nie mit „Ich weiß nicht“. Die Last, zwischen Halluzination und Wahrheit zu unterscheiden, liegt also vollständig auf dem Anwender. Das bedeutet effektiv, dass dieser Anwender die Informationen aus dem Sprachmodell überprüfen muss – indem er den Fakt, den er sucht, gleichzeitig aus einer anderen, verlässlichen Quelle bezieht. Als Wissensspeicher sind LLMs also mehr als nutzlos.