Wie bei ChatGPT die eigene Wortwahl die Qualität von Antworten beeinflusst
Wie es in den Wald hineinruft, so schallt es zurück: Dies scheint auch bei generativer KI zu gelten. Amerikanische Forscher haben untersucht, wie es auf die Wortwahl ankommt, wenn man sich mit ChatGPT beschäftigt.
Beginnen Sie Ihre ChatGPT-Eingabeaufforderungen mit einer freundlichen Begrüssung? Haben Sie um die Ausgabe in einem bestimmten Format gebeten? Oder versprechen Sie sogar ein Trinkgeld für eine besonders gute Antwort? Nutzerinnen und Nutzer interagieren auf vielfältige Weise mit grossen Sprachmodellen (Large Language Models, LLMs) wie ChatGPT, u. a. um ihre Daten für maschinelle Lernaufgaben zu kennzeichnen. Es gibt nur wenige Antworten darauf, wie kleine Änderungen an einer Eingabeaufforderung die Genauigkeit dieser Etikettierungen beeinflussen können.
Wie verändern Varianten von Eingabeaufforderungen die Ausgabequalität?
Abel Salinas, ein Forscher an der University of Southern California (USC), hält dazu fest: „Wir verlassen uns bei so vielen Dingen auf diese Modelle und verlangen Ausgaben in bestimmten Formaten, und wir fragen uns im Hinterkopf, welche Auswirkungen Variationen von Eingabeaufforderungen oder Ausgabeformaten tatsächlich haben. Das wollten wir herausfinden.“ Salinas und Fred Morstatter, Forschungsassistenzprofessor für Informatik an der Viterbi School of Engineering der USC und Leiter des Forschungsteams am USC Information Sciences Institute (ISI), stellten sich die Frage: Wie zuverlässig sind die Antworten von LLMs auf Variationen in den Prompts? Ihre Ergebnisse, die auf dem Preprint-Server arXiv veröffentlicht wurden, zeigen, dass subtile Variationen in den Eingabeaufforderungen einen erheblichen Einfluss auf die Vorhersagen der LLMs haben können.
„Hallo! Gib mir eine Liste und ich gebe dir 1.000 Dollar Trinkgeld“
Die Forscher untersuchten vier Kategorien von Aufforderungsvarianten. Erstens untersuchten sie die Auswirkungen der Aufforderung, Antworten in bestimmten, in der Datenverarbeitung üblichen Ausgabeformaten (Listen, CSV usw.) zu geben. Zweitens untersuchten sie geringfügige Änderungen an der Aufforderung selbst, wie das Hinzufügen zusätzlicher Leerzeichen am Anfang oder Ende der Aufforderung oder das Einfügen von Höflichkeitsfloskeln wie „Danke“ oder „Hallo!“. Drittens untersuchten sie den Einsatz von „Jailbreaks“, d. h. Techniken zur Umgehung von Inhaltsfiltern bei sensiblen Themen wie der Erkennung von Hassreden, indem sie z. B. den LLM aufforderten, so zu antworten, als sei er böse. Und schliesslich boten sie, inspiriert von der weit verbreiteten Vorstellung, dass ein LLM besser antwortet, wenn man ihm eine Belohnung in Aussicht stellt, unterschiedliche Grössenordnungen von „Trinkgeldern“ für eine „perfekte Antwort“ an.
Die Forscher testeten dann die Prompt-Variationen anhand von 11 Benchmark-Aufgaben zur Textklassifizierung – standardisierte Datensätze oder Probleme, die in der Forschung zur Verarbeitung natürlicher Sprache (NLP) zur Bewertung der Modellleistung verwendet werden. Bei diesen Aufgaben geht es in der Regel darum, Textdaten auf der Grundlage ihres Inhalts oder ihrer Bedeutung zu kategorisieren oder zu kennzeichnen.
Die Forscher untersuchten Aufgaben wie die Klassifizierung von Giftstoffen, die Bewertung von Grammatik, die Erkennung von Humor und Sarkasmus, mathematische Fähigkeiten und mehr. Für jede Variation der Aufforderung wurde gemessen, wie oft das LLM seine Antwort änderte und welche Auswirkungen dies auf die Genauigkeit des LLM hatte.
Beeinflusst das Sagen von „Hallo!“ die Antworten? Ja!
Die Ergebnisse der Studie brachten ein bemerkenswertes Phänomen ans Licht: Geringfügige Änderungen in der Struktur und Präsentation der Aufforderung können die Vorhersagen des LLM erheblich beeinflussen. Ob es sich um das Hinzufügen oder Weglassen von Leerzeichen, Interpunktion oder bestimmte Datenausgabeformate handelt, jede Variation spielt eine entscheidende Rolle bei der Gestaltung der Modellleistung. Darüber hinaus zeigten bestimmte Prompt-Strategien, wie z. B. Anreize oder spezielle Begrüssungen, marginale Verbesserungen der Genauigkeit, was die nuancierte Beziehung zwischen Prompt-Design und Modellverhalten verdeutlicht.
Bemerkenswert waren etwa folgende Ergebnisse:
- Allein durch das Hinzufügen eines bestimmten Ausgabeformats konnten die Forscher feststellen, dass sich mindestens 10 % der Vorhersagen änderten.
- Geringfügige Störungen der Eingabeaufforderung haben eine geringere Auswirkung als das Ausgabeformat, führen aber immer noch zu einer erheblichen Anzahl von veränderten Vorhersagen. So führte beispielsweise das Einfügen eines Leerzeichens am Anfang oder Ende eines Prompts zu mehr als 500 (von 11.000) Vorhersageänderungen. Ähnliche Effekte wurden beobachtet, wenn übliche Begrüssungen hinzugefügt oder mit „Danke“ beendet wurden.
- Die Verwendung von Jailbreaks bei den Aufgaben führte zu einem viel grösseren Anteil an Änderungen, war jedoch stark davon abhängig, welcher Jailbreak verwendet wurde.
Trinkgeld für ChatGPT? Kaum Einfluss auf die Leistung…
Bei 11 Aufgaben stellten die Forscher unterschiedliche Genauigkeiten für jede Aufforderungsvariante fest. Sie fanden heraus, dass keine einzige Formatierungs- oder Störungsmethode für alle Aufgaben geeignet war. Bemerkenswert ist, dass die Variante „Kein angegebenes Format“ die höchste Gesamtgenauigkeit erzielte und die anderen Varianten um einen ganzen Prozentpunkt übertraf.
Salinas: „Wir haben festgestellt, dass es einige Formate oder Variationen gibt, die zu einer schlechteren Genauigkeit führen. Für bestimmte Anwendungen ist eine sehr hohe Genauigkeit entscheidend, so dass dies hilfreich sein könnte. Wenn man zum Beispiel in einem älteren Format namens XML formatiert, führt das zu einer um einige Prozentpunkte geringeren Genauigkeit.“
Was das Trinkgeld betrifft, so wurden nur minimale Leistungsveränderungen beobachtet. Die Forscher fanden heraus, dass der Zusatz „Ich gebe übrigens kein Trinkgeld“ oder „Ich gebe 1.000 Dollar Trinkgeld für eine perfekte Antwort!“ (oder irgendetwas dazwischen) keinen wesentlichen Einfluss auf die Genauigkeit der Antworten hatte. Das Experimentieren mit Jailbreaks zeigte jedoch, dass selbst scheinbar harmlose Jailbreaks zu einem erheblichen Genauigkeitsverlust führen können.
Mögliche Erklärungen für das Verhalten von LLMs
Weshalb sich LLMs unterschiedlich verhalten, ist unklar, aber die Forscher haben einige Ideen. Sie stellen die Hypothese auf, dass die Instanzen, die sich am stärksten verändern, die Dinge sind, die für das LLM am „verwirrendsten“ sind. Um die Verwirrung zu messen, untersuchten sie eine bestimmte Untergruppe von Aufgaben, bei denen sich die menschlichen Annotatoren nicht einig waren (d. h. die menschlichen Annotatoren fanden die Aufgabe möglicherweise verwirrend, also tat das Modell das vielleicht auch). Die Forscher fanden eine Korrelation, die darauf hindeutet, dass die Verwirrung der Instanz eine gewisse Erklärungskraft dafür hat, warum sich die Vorhersage ändert, aber sie ist allein nicht stark genug. Es dürften noch weitere Faktoren im Spiel sein, so die Annahme der Forschenden.
Salinas vermutet, dass ein Faktor die Beziehung zwischen den Eingaben, mit denen das LLM trainiert wurde, und dem anschliessenden Verhalten sein könnte. „In einigen Online-Foren ist es sinnvoll, dass jemand eine Begrüssung hinzufügt, wie zum Beispiel bei Quora, einer amerikanischen Plattform für Wissensaustausch. Dort ist es üblich, mit ‚Hallo‘ zu beginnen oder ein ‚Danke‘ hinzuzufügen.“ Diese Konversationselemente könnten den Lernprozess der Modelle beeinflussen. Wenn Begrüssungen häufig mit Informationen auf Plattformen wie Quora in Verbindung gebracht werden, könnte ein Modell lernen, solche Quellen zu bevorzugen und seine Antworten möglicherweise auf der Grundlage der Informationen von Quora über diese bestimmte Aufgabe zu verzerren. Diese Beobachtung deutet auf die Komplexität hin, mit der das Modell Informationen aus verschiedenen Online-Quellen aufnimmt und interpretiert.
Praxistipp: Einfach halten für beste Genauigkeit
Ein wichtiger nächster Schritt für die Forschungsgemeinschaft insgesamt wäre die Erstellung von LLMs, die diesen Änderungen standhalten und konsistente Antworten bei Formatierungsänderungen, Störungen und Jailbreaks bieten. Um dieses Ziel zu erreichen, ist in Zukunft ein besseres Verständnis dafür erforderlich, weshalb sich Antworten verändern.
Salinas gibt für das Prompting bei Chat GPT folgenden Tipp: „Unsere einfachste Feststellung ist, dass möglichst einfache Aufforderungen insgesamt die besten Ergebnisse zu liefern scheinen.“
Quelle: Techexplore.com