Ist das der Tod aller weltverändernden AI-Anwendungen?

Johannes Stiehler
Technologie
Arbiträre Ausbrüche
#ChatGPT
#LargeLanguageModels
#TextKI
Cover Image for Ist das der Tod aller weltverändernden AI-Anwendungen?

Seit den frühesten Versuchen, maschinelles Lernen im großen Stil für wirklich kritische Aufgaben einzusetzen, rennen solche Anwendungen immer wieder gegen die gleiche Wand. Gerade, was maschinelles Lernen so magisch wirken lässt, macht es auch manchmal nutzlos: Die Ergüsse künstlicher Intelligenz sind zu oft im engeren und weiteren Sinne unerklärbar.

Damit meine ich nicht, dass wir normalen Erdlinge zu dumm sind, die komplexen Datenstrukturen und Algorithmen zu verstehen, die hinter dem aktuellen AI-Hype stehen (ChatGPT, LamDa, BARD und das Bing-KI-Ding).

Das Problem ist ein anderes und in gewissem Maße ein unabwendbares: Selbst die Experten, die diese Anwendungen geschrieben haben, können nicht nachvollziehen, warum eine bestimmte Eingabe die jeweilige Ausgabe erzeugt.

Das liegt in der Natur der verwendeten Algorithmen: In der klassischen, der sogenannten symbolischen künstlichen Intelligenz, setzt man auf Wissensrepräsentationen und Formeln, mit deren Hilfe nachvollziehbare Schlussfolgerungen aus diesem Wissen gezogen werden. Das heißt, der menschliche Programmierer gibt die Regeln vor, nach denen eine bestimmte Eingabe zu einer Ausgabe führt. Das hat den Vorteil absoluter Nachvollziehbarkeit und Konsistenz, ist aber leider für viele Probleme nicht leistungsfähig genug – bei gleichzeitig sehr hohem Entwicklungsaufwand.

Für nicht-symbolische Probleme, wie z.B. Bilderkennung und Audioanalyse, sind solche Verfahren gänzlich ungeeignet. Hier kommt das maschinelle Lernen zum Zug: Anhand von Trainingsdaten, d.h. “beschrifteten” Beispielexemplaren (z.B. vorkategorisierte Bilder) leitet die KI selber “Regeln” ab. Verschiedene Verfahren nicht-symbolischer KI unterscheiden sich in der Art der “Ableitungsmaschine”.
Maschinelles Lernen mit einer großen Anzahl von Parametern (und entsprechend gigantischen Mengen an Trainingsdaten) erzeugt Modelle, die nicht mehr vorhersehbar und erklärbar sind. Das ist natürlich auch, was den großen Reiz von z.B. ChatGPT ausmacht: die unerklärliche Menschlichkeit seiner Ausgaben, die Menge an Information, auf die es zurückgreifen kann – bis es anfängt zu lügen oder sogar zu streiten und man nichts dagegen machen kann.
Auch Menschen lügen, täuschen, streiten. Ich kann gar nicht zählen, wie oft ich einen Mitmenschen zitiert habe, nur um später festzustellen, dass er mir absoluten Murks erzählt hatte. Das schadet meinem persönlichen Ruf und ich bin mehr und mehr dazu übergegangen, Informationen, die ich von Dritten bekomme, mehrmals zu überprüfen – z.B. durch Internet-Recherchen – bevor ich sie weitergebe. Aber was, wenn ich dafür nun auf einen ChatBot mit zweifelhaftem Wahrheitsempfinden statt einer Suchmaschine angewiesen bin?

ChatGPT kann sich nicht entscheiden

Von bestimmten Berufsgruppen wird ein hohes Maß an Verlässlichkeit und Wahrhaftigkeit erwartet: Juristen, Lehrer, Wissenschaftler sehen sich diesem Anspruch mehr als andere ausgesetzt, auch wenn sie ihn oft nicht erfüllen. Aber welches Ergebnis erwarten wir, wenn wir nun gerade im Jura-, Bildungs- und Forschungsumfeld auf künstliche Intelligenz mit zweifelhaftem Faktenwissen setzen wollen?

In einem früheren Berufsleben war ich CEO einer Firma, die in den USA im Bereich “eDiscovery” bzw. “Legal AI” Fuß fassen wollte. An die Diskussionen rund um die Erklärbarkeit und Verlässlichkeit unserer Software kann ich mich gut erinnern.

Und diese Art von Diskussionen gibt es schon lange vor Deep Learning: Die einfachste Anwendung im Bereich eDiscovery ist eine Art “Hot-or-Not-Classifier”, dessen einzige Aufgabe es ist, zu entscheiden, ob ein Dokument für einen Fall relevant sein könnte oder nicht. Wenn potentiell 20 Millionen Firmen-Emails als relevant in Frage kommen, ist solch eine maschinelle Klassifizierung entscheidend dafür, ob man den Fall überhaupt verhandeln kann. Aber welche Fehlerrate ist akzeptabel? Ist es OK, wenn der Classifier nur 80% der wesentlichen Dokumente findet? Hätte ein Jurist in diesem riesigen Heuhaufen mehr gefunden? Was, wenn zusätzlich 5 Millionen Dokumente als relevant angesehen werden, obwohl sie es nicht sind? Wer ist schuld an den vielen abgerechneten Stunden der Anwälte, die diese Dokumente nun lesen müssen?

Und hier handelte es sich um Algorithmen, deren Fehler und Versäumnisse wenigstens zum Teil erklärbar waren, z.B. indem man auf spezifische Beispieldokumente aus der Trainingsphase verweisen konnte, die zu einer Fehlklassifikation geführt hatten.

Dies fällt bei Large Language Models, dem aktuellen Turnierpferd des Deep Learning Hype, völlig weg. Das Modell kann nicht sagen, woher es eine Information bezieht. Und ein Mensch kann höchstens raten, welche Eingabedaten für eine bestimmte Ausgabe verbaut wurden. Vorausgesetzt, er kennt sich in den Trainingsdaten hervorragend aus, womit er dann die KI auch ersetzen könnte.

Halten wir also fest: Deep Learning und insbesondere Large Language Models sind in ihren Ausgaben unvorhersehbar und nicht nachvollziehbar, sprichwörtliche Black Boxes. Mit diesen Technologien kann man also keine Software für Anwendungsfälle herstellen, die auf Verlässlichkeit, Angabe von Quellen oder Vollautomation (kein Mensch mehr in der Schleife) angewiesen sind. Vor diesem Hintergrund bin ich auch überzeugt, dass die klassische Suchmaschine noch lange nicht tot ist. Der Bias und die Lügen in den durchsuchten Dokumenten reichen mir völlig aus, auch ohne dass noch eine Dialogmaschine ihren unvorhersehbaren Senf dazu gibt. Die aktuellen Versuche, z.B. GPT mit Bing bzw. Bard mit dem Google-Suchindex zu verheiraten, weben zwar Quellenangaben und Suchergebnisse in die Konversation mit ein, das löst aber das ursprüngliche Problem nicht - wie sich nach ein paar Beispielanfragen schmerzhaft zeigt.

Detaillierte Hintergrundinformationen zu Large Language Models und ihren Eigenschaften finden sich in unserem YouTube-Video zum Thema:

Johannes Stiehler
CO-Founder NEOMO GmbH
Johannes hat während seiner gesamten Laufbahn an Softwarelösungen gearbeitet, die Textinformationen verarbeiten, anreichern und kontextabhängig anzeigen.

Wir haben noch mehr zu bieten!

Unseren Newsletter abonnieren

Wenn Sie sich vom Twitter- und LinkedIn-Wahnsinn abkoppeln, aber trotzdem unsere Inhalte lesen möchten, freuen wir uns und haben genau das richtige für Sie: Unser Newsletter hält Sie über alles Wissenswerte auf dem Laufenden.

Bitte benutzen Sie das untenstehende Formular, um ihn zu abonnieren.

NEOMO verpflichtet sich, Ihre Privatsphäre zu schützen und zu respektieren und Ihre persönlichen Daten nur dazu verwenden, Ihr Konto zu verwalten und die von Ihnen angeforderten Informationen bereitzustellen. Um Ihnen die gewünschten Inhalte zur Verfügung stellen zu können, müssen wir Ihre personenbezogenen Daten speichern und verarbeiten.

Folgen Sie uns für Einblicke, Ausblicke und Durchblicke.

Wann immer neue Inhalte verfügbar sind oder etwas Bemerkenswertes in der Branche passiert - wir halten Sie auf dem Laufenden.

Folgen Sie uns auf LinkedIn und Twitter, um Neuigkeiten zu erfahren, und auf YouTube für bewegte Bilder.

Teilen, wenn's gefällt

Wenn Ihnen unser Beitrag gefällt, helfen Sie uns bitte, ihn zu verteilen, indem Sie Ihr eigenes Netzwerk aktivieren.

Weitere Blogartikel

Image

Bleeding Edge - Fluch oder Segen?

Wir setzen auf modernste Technologien, um Unternehmen durch innovative Lösungen voranzubringen. Daher gehen wir in Gesprächen mit Kunden und Partnern oder unseren Webinaren immer wieder darauf ein, Unternehmen die Vorteile und Möglichkeiten moderner Technologien nahezubringen. Aber auch für uns selbst kommt KI zum Einsatz: Durch die Automatisierung von Ausschreibungsprozessen konnten wir wertvolle Ressourcen sparen und Effizienz steigern.

Image

Im Moment ist KI wie ein 12-jähriger Kollege

Die Technologie muss im Prozess eingebettet und dem Prozess angepasst werden und nicht unverbunden daneben schweben. Das gilt auch für Large Language Models – obwohl sie aufgrund ihrer „Menschlichkeit“ den Eindruck erwecken, als könnte man sie wie einen Kollegen behandeln und nicht wie ein Tool. Aber in wie vielen Geschäftsbereichen bringt ein Kollege mit den intellektuellen Kapazitäten eines Zwölfjährigen einen großen Mehrwert?

Image

ChatGPT „weiß“ gar nichts

Sprachmodelle tun sich notorisch schwer damit, Fakten verlässlich abzurufen. Leider antworten sie aber auch fast nie mit „Ich weiß nicht“. Die Last, zwischen Halluzination und Wahrheit zu unterscheiden, liegt also vollständig auf dem Anwender. Das bedeutet effektiv, dass dieser Anwender die Informationen aus dem Sprachmodell überprüfen muss – indem er den Fakt, den er sucht, gleichzeitig aus einer anderen, verlässlichen Quelle bezieht. Als Wissensspeicher sind LLMs also mehr als nutzlos.