Die Leistungsfähigkeit von einzelnen GPT-Modellen hat 2023 für Workflows im automatisierten RDF-Knowledge Graph Engineering deutlich variiert. Zu diesem Ergebnis kommt eine Forschungsgruppe des Instituts für Angewandte Informatik (InfAI) e.V. an der Universität Leipzig. Wie die Gruppe mitteilte, verschlechterte sich die gemessene Leistungsfähigkeit von neueren Versionen der Modelle GPT-3.5 und GPT-4 über 2023 in einigen Aufgaben im Vergleich zu den jeweiligen Vorgängerversionen. Dagegen war nach Angaben der Forschenden für die Modelle Claude instant, Claude 1.x und Claude 2.x insgesamt eine Verbesserung von späteren zu früheren Versionen zu beobachten. Eine Ausnahme gab es demnach nur in einem Fall.
Für die Untersuchung wurden den genannten GPT-Modelle insgesamt sechs, den Claude-Modelle insgesamt fünf Testaufgaben aus dem RDF-Knowledge Graph Engineering gestellt:
- Task 1: Find a connection between Nodes in Turtle
- Task 2: Find syntax errors in Turtle
- Task 3: Generate Sample Person Graphs
- Task 4: Identify most known Person
- Task 5: Extract Data from 3D Printer PDF Factsheet
- Task 6: Text2SPARQL
Die Versionen 6.23 und 11.23 des Modells GPT-3.5 schnitten in fünf von sechs Tests schlechter ab als die Vorgängerversion 3.23. Eine Verbesserung gab es nur bei Task 5, der Datenextraktion aus einer PDF-Datei.
Für das Modell GPT-4 verbesserte sich die Version 11.23 in vier von sechs Tests im Vergleich zu den Vorgängerversionen 6.23 und 3.23. Schlechter schnitt es bei den Turtle-Aufgaben Task 1 und Task 2 ab.
Dagegen zeigten alle drei Claude-Modelle insgesamt eine Verbesserung von späteren zu früheren Versionen. Lediglich Claude 1.3 schnitt in Task 5 schlechter ab als die Vorgängerversion 1.2. Bei Task 1 lieferte Claude 2.0 bereits ein perfektes Ergebnis.
Dass spätere Versionen von GPT-3.5 schlechter abschneiden als frühere liegt der Forschungsgruppe zufolge unter anderem daran, dass die Versionen “gesprächiger” werden. Sie lieferten demnach nicht nur das gewünschte Ergebnis, sondern fügten z.B. Erläuterungen hinzu, welche bei einer automatisierten Verarbeitung der Antwort Probleme bereiten würden.
Ein Grund dafür kann nach Angaben der Forschungsgruppe das Kostenmodell und die damit verbundene Nutzung von ChatGPT sein. ChatGPT auf Basis von GPT 3.5 ist kostenlos und sei durch mediale Aufmerksamkeit einer breiten Masse bekannt. Diese Nutzerbasis verwende ChatGPT für eine Vielzahl von Aufgaben, die in direkter Interaktion mit den Nutzenden stattfänden. Es sei davon auszugehen, dass das Sprachmodell auf Basis dieser Nutzungsdaten weiterentwickelt worden sei. Die Nutzungsdaten umfassten u.a. Bewertungen für die generierten Antworten. Das kann der Forschungsgruppe zufolge eine Erklärung für die “Gesprächigkeit” sein, die in der Studie aufgefallen ist: Die Antworten sind für Menschen optimiert, nicht für automatisierte Workflows.
Dagegen hätten die Claude-Modelle in 2023 über deutlich weniger Bekanntheit verfügt und seien zunächst auch nur ausgewählten Testern zugänglich. Entsprechend sei davon auszugehen, dass deutlich weniger Trainingsdaten mit menschlichem Feedback für das Training neuerer Versionen genutzt werden konnten im Vergleich zum GPT-Betreiber OpenAI.
English version: https://magazin.semper-ki.org/chatgpt-performance-variiert-2023-stark/