Allgemein

ChatGPT über ein Ereignis, bei dem ich Akteur war ChatGPT und KI-Euphorie: Vorsichtig mit den Antworten!

Fake News durch KI

ChatGPT und KI-Euphorie: Vorsichtig mit den Antworten!
Foto: Ardi014 - Freepik.com

Wie zuverlässig ist ChatGPT, das Flagschiff der KI-Euohorie? Das Folgende ist gewiss kein Beweis für Allgemeingültigkeit, im Wissenschaftsjargon würde man es als anekdotische Evidenz bezeichnen. Wenn eine persönliche Erfahrung mit dem aktuellen Hype um die künstliche Intelligenz als Beispiel herangezogen würde, um das große Projekt der Gegenwart etwas in Zweifel zu stellen. Die Künstliche Intelligenz in Gestalt des Sprachmodells ChatGPT,  mit dem man mittels Anfragen kommunizieren kann, was eine aufwändige Recherche sehr erleichtern sollte.

Irgendwann packt jeden die Neugier es auszuprobieren, selbst wenn die Skepsis Falschinformationen aufzusitzen eine lange Zeit davon abgehalten hat. Mit seltsamen Ergebnissen.

Zur Vorgeschichte:

Seit einigen Jahren bin ich als Autor bei Finanzmarktwelt tätig, mit deutlich über 1500 Artikeln, da Wirtschaft und Börse schon Ende der 1980-er-Jahre zu einem Steckenpferd für mich geworden sind. Entstanden aus sehr schlechten Erfahrungen mit Banken und Vermögensverwaltern, die mit überteuerten Produkten nur an eines heran wollten – an mein Kapital. Ob über teure Investmentfonds (mein Berater vermittelte mir seinerzeit Aktienfonds mit 7,25 Prozent Ausgabeaufschlag und über 2 Prozent jährlicher Investment-Fee), Kapitallebensversicherungen mit 3,5 Prozent Abschlussgebühr, Diamanten, geschlossene Immobilienfonds zur Steuerersparnis, Geschäfte mit Optionsscheinen oder Cary Trades mit japanischen Yen und Anlagen in kanadischen Dollar, es war Vieles dabei, was man heutzutage als gefährliches Teufelszeug bezeichnen würde.

Ich machte einen Cut, kündigte die Geschäftsbeziehungen und versuchte die Hintergründe der Welt der Kapitalanlage zu verstehen. Mit Tausenden Stunden an Studium der Materie und natürlich mit dem Engagement an der Börse, dem Eigenhandel über deutlich mehr als 30 Jahre. Mit demselben Eifer, mit dem ich in meiner Sturm- und Drangzeit im Leistungssport unterwegs war.

ChatGPT: Wie Fakten völlig falsch dargestellt werden

In einer Sportart, in der Durchhaltevermögen die Grundvoraussetzung für eine halbwegs passable Leistung ist. Ich war in den 70-er und 80-er-Jahre 7 Jahre Mitglied der (west-)deutschen Skinationalmannschaft und Teilnehmer an Nordischen Skiweltmeisterschaften und Olympischen Winterspielen in der Sportart Skilanglauf.

Warum erzähle ich diese persönlichen Daten? Tempi Passati, interessiert heute keinen mehr – aber die Antwort bezieht sich auf einen wesentlichen Teil meines Lebens und spiegelt meine jüngsten Erfahrungen mit der Künstlichen Intelligenz wider.

Chat GPT und das Problem mit ost- und westdeutschen Sportlern

Um in eine Kommunikation mit dem auf dem „Large Language Model“ basierenden System zu kommen, stellte ich dem System ein paar Fragen aus einem Bereich, in dem ich persönlich engagiert gewesen bin. Ich fragte zum Beispiel nach der deutschen Staffelaufstellung bei den Olympischen Winterspielen in Lake Placid 1980. Das Ergebnis war mehr als seltsam. ChatGPT vermeldete, dass zwei deutsche Mannschaften am Start waren und die westdeutsche Staffel mit einem 7. Platz ins Ziel kam (was nicht stimmt, wir wurden Vierter). Es gab aber in der Realität auch gar keine DDR-Staffel, weil die DDR-Sportler damals nicht konkurrenzfähig waren, was im DDR-Sportjargon bedeutete: Ohne echte Medaillenchance und daher gar nicht erst nach Lake Placid entsendet wurde!

In der Staffel wären laut ChatGPT folgende Athleten am Start gewesen. Jochen Behle (was stimmt), der Olympiasieger aus der Nordischen Kombination von 1968 (!), der Allgäuer Franz Keller, der Olympiazweite in der Kombination von Lake Placid, der Ostdeutsche Konrad Winkler und der erste ostdeutsche Weltmeister im Skilanglauf von 1974, der Thüringer Gerhard Grimmer. Eine völlig unsinnige Mannschaftsaufstellung und im Übrigen eine 10 Jare zu früh vollzogene Wiedervereinigung, ein ganzes Jahrzehnt vor dem eigentlichen Ereignis.

Dabei lag unsere deutsche Staffel bis Kilometer 38 auf einem Bronzerang, es wäre die erste westdeutsche Langlaufmedaille seit den ersten Olympischen Winterspiele in Chamonix 1924 gewesen. In einer damals völlig von den skandinavischen Ländern sowie von Russland dominierten Sportart. Es wurde knapp der vierte Platz.

Und das Verstörendste für mich ist, dass ich für ChatGPT als Teilnehmer der deutschen Olympiamannschaft von Lake Placid gar nicht existiere. Dabei bin ich mir sicher die zweite Teilstrecke der 4 × 10 km Staffel absolviert zu haben..

Erstaunt über die fast schon lustige Antwort habe ich das Spiel wiederholt und Fragen nach den deutschen Teilnehmern bei der vorherigen Skiweltmeisterschaft gestellt, nochmals nach einer Staffelaufstellung. Die Antwort fiel noch gemischter aus, es wurde der Name eines österreichischen Kombinierers genannt (Klaus Sulzenbacher), der des amtierenden Bundestrainers Peter Schlickenrieder und auch zur Krönung der des Biathleten Frank Ullrich, dem Olympiasieger von Lake Placid und 9-fachen Weltmeister, den ich, wie die meisten anderen, persönlich kenne und der aktuell als Vorsitzender für den Sportausschuss im Deutschen Bundestag fungiert.

Und wieder gab es keinen deutschen WM-Teilnehmer mit meinem Namen. Ich habe die Anfrage mehrfach wiederholt, ständig gab es neue Namen, gemischt Ost und West.

ChatGPT hat geraten oder gewürfelt, Namenslisten zusammengestellt, nach irgendwelchen Regeln. Aber es war wie in einer mündlichen Prüfung, in der der Schüler/Student keine Ahnung hatte und nicht über die Lippen bringt: Ich weiß es nicht.

Fazit

In der Regel wird davor gewarnt, dass ChatGPT mit neueren Daten noch nicht auf der Höhe der Zeit sei. Aber damit müsste man doch mit 40 Jahre alten Dateien doch up-to-Date sein, zum Beispiel mit Ergebnislisten bei Olympischen Spielen, mit Staffelaufstellungen und mit ganz einfachen Teilnehmerlisten, die für jedermann nachvollziehbar sind und die in vielen Sportbüchern und auch bei Wikipedia nachzulesen sind.

Natürlich kann man es amüsant finden, wenn die Wiedervereinigung im Sportbereich, die ich auch begleiten durfte, schon zehn Jahre vorgezogen wurde. Wenn Skispringer, Nordische Kombinierer, Biathleten und Langläufer in einer Staffelaufstellung auftauchen. Zudem aus verschiedenen Generationen. Gewiss ist das alles nicht der Rede wert, nur nicht für die persönlich Betroffenen.

Es zeigt aber, dass man immer noch vorsichtig sein muss, bei der Übernahme von Ergebnissen dieser Modelle. Null Probleme dürfte es bei mathematischen Themen geben, wenn ich schnell mal den Zinseszinseffekt bei 3,5 % durchschnittlicher Verzinsung, bei einer Anlage über einen Zeitraum von 17 Jahren wissen möchte. Das beherrschen die Algos perfekt. Aber schon bei einfachen Teilnehmerlisten gibt es anscheinend noch Schwierigkeiten. Was ist erst bei Themen, die eine bestimmten Transferleistung verlangen, nicht einfache Wiedergabe aus Dateien, sondern Anforderungen wie Verstehen, Anwenden, Analysieren, Synthetisieren und Evaluieren? Wie bei schriftlichen Prüfungen Fragen nach Schwierigkeitsgraden bewertet werden.

Als Laie in der Informationstechnologie maße ich mir aber gewiss kein Urteil zu. Aber bemerkenswert finde ich es schon, dass es laut ChatGPT schon Jahre vor der Wiedervereinigung eine gesamtdeutsche Staffel gab, mit Weltmeistern aus der DDR und auch noch aus einer anderen Wintersportart.

Sicher gibt es eine ständige Verbesserung der Modelle, aber verlassen sollte man sich nicht leichtfertig auf schnelle Antworten. „Ich weiß, dass ich nichts weiß“, stellte bereits Sokrates in der Antike fest, auch wenn damit nicht einzelnes Fachwissen gemeint war.

So hätte auch die Antwort auf meine Frage an Chat GPT in punkto Staffelaufstellung lauten müssen. Vielleicht sollten wir die KI auch nicht fragen, wie stark die Korrektur an den Börsen im Monat September noch ausfallen könnte..



Kommentare lesen und schreiben, hier klicken

Lesen Sie auch

3 Kommentare

  1. Es hängt stark vom verwendeten Modell ab. Mit GPT4 (nicht 4o):

    At the 1980 Winter Olympics in Lake Placid, the West German men’s 4 × 10 km cross-country skiing relay team consisted of Peter Zipfel, Wolfgang Müller, Dieter Notz, and Jochen Behle. The team finished fourth in the event.

    Das ist die richtige Antwort. GPT4 hat dafür online Informationen gesucht, ohne dass ich darum explizit gebeten hatte. GPT4 gibt es nur in der Bezahlversion. Es ist nicht per default eingestellt, sondern 4o (weil es ressourcenfreundlicher ist, nehme ich an). Mit 4o und dem neuen in Hinsicht Logik verbesserten o1 bekommt man tatsächlich falsche und wechselnde Antworten.

    Diese Anfrage ist eine reine Suchanfrage und eigentlich ein leicht zu lösendes AI Problem. Der Fokus der LLM Entwicklung liegt aber wahrscheinlich nicht darauf. Ich verstehe ihre Reaktion, aber dennoch denke ich, dass es kein guter Test isr, um das Potential der Technologie zu beurteilen. Interessanter ist m.E. die Entwicklung der Problemlösungsfähigkeiten, insbesondere iterativ Hyopthesen aufzustellen, zu verifizieren, alternative Wege zu suchen usw.

  2. @Florian. Vielen Dank für die Erläuterungen.

  3. Das ist wieder ein schönes Beispiel für das bei allen intelligenten Systemen (natürlich oder künstlich) beobachtete Phänomen der Halluzination.

    Dieses Phänomen tritt u.a. bei der Auflösung von Widersprüchen in der zugrundeliegenden Datenbasis auf.

    Es ist gerade ein Merkmal intelligenter Systeme, durch die Betrachtung und Bewertung riesiger, teilweise widersprüchlicher Datenbestände einen Erkenntnisgewinn zu erzielen.

    Eine der zentralen Aufgaben beim Training eines KI-Systems ist die Auflösung von Widersprüchen aus der Datenbasis. Dies geschieht u.a. durch fortwährende Bewertung (Wahrscheinlichkeiten) und Priorisierung einzelner Aspekte der sich widersprechenden Daten. Das Hinzufügen weiterer Daten führt dann wiederum zur Neubewertung. Auf diese Weise entsteht beim trainierten KI-System ein echter Lerneffekt.

    Bei dieser Vorgehensweise entstehen im Falle unvorteilhafter Priorisierungen von Einzelaspekten auch zwangsläufig falsche Bewertungen. Dies ist dann eine Quelle der zu beobachtenden Halluzinationen.

    KI-Systeme unterscheiden sich dabei übrigens nicht von „natürlich intelligenten Systemen“.

    Eine Verbesserung der Situation bei KI-Systemen kann einerseits durch Verbesserung der Algorithmen bei der Bewertung von Einzelaspekten sowie andererseits durch die Einbeziehung immer größerer Datenbestände erfolgen.

    Damit ist übrigens auch die von Hr. Fugmann gelegentlich vertretene These widerlegt, bei der Lösungskompetenz von KI-Systemen handele es sich lediglich um deterministische Datenbankabfragen.

    Die Antwort auf eine komplexe Frage nach diesem Denkmodell würde stets in etwa so lauten: „Diese Frage kann nicht beantwortet werden, denn in den zugrundeliegenden Datenbankabfragen treten Widersprüche auf“.

Hinterlassen Sie eine Antwort

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert




ACHTUNG: Wenn Sie den Kommentar abschicken stimmen Sie der Speicherung Ihrer Daten zur Verwendung der Kommentarfunktion zu.
Weitere Information finden Sie in unserer Zur Datenschutzerklärung

Meist gelesen 7 Tage