ChatGPT – Performance variiert 2023 stark

datum

01.07.24

Die Leistungsfähigkeit von einzelnen GPT-Modellen hat 2023 für Workflows im automatisierten RDF-Knowledge Graph Engineering deutlich variiert. Zu diesem Ergebnis kommt eine Forschungsgruppe des Instituts für Angewandte Informatik (InfAI) e.V. an der Universität Leipzig. Wie die Gruppe mitteilte, verschlechterte sich die gemessene Leistungsfähigkeit von neueren Versionen der Modelle GPT-3.5 und GPT-4 über 2023 in einigen Aufgaben im Vergleich zu den jeweiligen Vorgängerversionen. Dagegen war nach Angaben der Forschenden für die Modelle Claude instant, Claude 1.x und Claude 2.x insgesamt eine Verbesserung von späteren zu früheren Versionen zu beobachten. Eine Ausnahme gab es demnach nur in einem Fall.

Für die Untersuchung wurden den genannten GPT-Modelle insgesamt sechs, den Claude-Modelle insgesamt fünf Testaufgaben aus dem RDF-Knowledge Graph Engineering gestellt:

Task 1: Find a connection between Nodes in Turtle

Task 2: Find syntax errors in Turtle

Task 3: Generate Sample Person Graphs

Task 4: Identify most known Person

Task 5: Extract Data from 3D Printer PDF Factsheet

Task 6: Text2SPARQL

Die Versionen 6.23 und 11.23 des Modells GPT-3.5 schnitten in fünf von sechs Tests schlechter ab als die Vorgängerversion 3.23. Eine Verbesserung gab es nur bei Task 5, der Datenextraktion aus einer PDF-Datei.

Für das Modell GPT-4 verbesserte sich die Version 11.23 in vier von sechs Tests im Vergleich zu den Vorgängerversionen 6.23 und 3.23. Schlechter schnitt es bei den Turtle-Aufgaben Task 1 und Task 2 ab.

Dagegen zeigten alle drei Claude-Modelle insgesamt eine Verbesserung von späteren zu früheren Versionen. Lediglich Claude 1.3 schnitt in Task 5 schlechter ab als die Vorgängerversion 1.2. Bei Task 1 lieferte Claude 2.0 bereits ein perfektes Ergebnis.

Dass spätere Versionen von GPT-3.5 schlechter abschneiden als frühere liegt der Forschungsgruppe zufolge unter anderem daran, dass die Versionen “gesprächiger” werden. Sie lieferten demnach nicht nur das gewünschte Ergebnis, sondern fügten z.B. Erläuterungen hinzu, welche bei einer automatisierten Verarbeitung der Antwort Probleme bereiten würden.

Ein Grund dafür kann nach Angaben der Forschungsgruppe das Kostenmodell und die damit verbundene Nutzung von ChatGPT sein. ChatGPT auf Basis von GPT 3.5 ist kostenlos und sei durch mediale Aufmerksamkeit einer breiten Masse bekannt. Diese Nutzerbasis verwende ChatGPT für eine Vielzahl von Aufgaben, die in direkter Interaktion mit den Nutzenden stattfänden. Es sei davon auszugehen, dass das Sprachmodell auf Basis dieser Nutzungsdaten weiterentwickelt worden sei. Die Nutzungsdaten umfassten u.a. Bewertungen für die generierten Antworten. Das kann der Forschungsgruppe zufolge eine Erklärung für die “Gesprächigkeit” sein, die in der Studie aufgefallen ist: Die Antworten sind für Menschen optimiert, nicht für automatisierte Workflows.

Dagegen hätten die Claude-Modelle in 2023 über deutlich weniger Bekanntheit verfügt und seien zunächst auch nur ausgewählten Testern zugänglich. Entsprechend sei davon auszugehen, dass deutlich weniger Trainingsdaten mit menschlichem Feedback für das Training neuerer Versionen genutzt werden konnten im Vergleich zum GPT-Betreiber OpenAI.

English version: https://magazin.semper-ki.org/chatgpt-performance-variiert-2023-stark/

datum

Weitere
Beiträge

Akzeptanz fördern – wie werden Mitarbeitende bei Veränderungen einbezogen?

Interview mit Anja vom KMI Team

KMI beim Transfer- und Netzwerksymposium CoCo & WIN:A

Jahrestagung der Zukunftszentren 2025

Interview mit Simeon Ackermann

Theaterperformance – Die KI als „der unwissende Lehrmeister“

Workshop Rückblick: Mitarbeitende in Veränderungsprozesse einbinden

KMI beim Seminar des Zentralverbands des Deutschen Handwerks

7. Pilotbrunch: Zu Gast beim Referat Digitale Stadt

Veranstaltungsreihe Future Skills – Ergebnisse der Abschlussveranstaltung

Regionale Summer Session 2025

Veranstaltungsreihe zu Future Skills in der betrieblichen Weiterbildung

datum

Weitere Beiträge

Weitere
Beiträge