Chain of Thought Prompting (CoT-Prompting) ist eine Technik im Bereich des Prompt Engineering, die darauf abzielt, die logischen Denkfähigkeiten von großen Sprachmodellen (LLMs) zu verbessern.
Dabei werden die Modelle dazu angeregt, bei der Beantwortung komplexer Fragen Zwischenschritte zu machen, durch die der Denkprozess nachvollziehbar wird.
CoT-Prompting wurde 2022 erstmals in dem oft zitierten und bekannten Paper Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, das von Forschern bei Google Research verfasst wurde, vorgestellt.
1. Funktionsweise
Bei herkömmlichem Prompting gibt man dem Sprachmodell einfach eine Frage oder Aufgabe und erhält direkt eine Antwort.
Beim Chain of Thought Prompting fügt man zusätzlich Aufforderungen wie „Denke Schritt für Schritt nach" oder „Erkläre deine Antwort Schritt für Schritt" hinzu.
Zum Beispiel:
Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch? Erkläre deine Antwort Schritt für Schritt.Wahlweise oder zusätzlich kann man auch ein Beispiel hinzufügen, in dem Schritt für Schritt nachgedacht wird:
Frage: Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen mit Tennisbällen. Jede Dose enthält 3 Tennisbälle. Wie viele Tennisbälle hat er jetzt?
Antwort: Roger hatte anfangs 5 Bälle. 2 Dosen mit jeweils 3 Tennisbällen sind 6 Tennisbälle. 5 + 6 = 11. Die Antwort ist 11.
Frage: Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch?
Antwort:2. Vorteile von Chain of Thought Prompting
Die Vorteile von Chain of Thought Prompting sind vielfältig:
- Verbesserte Genauigkeit: Durch die schrittweise Erklärung des Lösungswegs können Sprachmodelle komplexe Aufgaben in den Bereichen Mathematik, Logik und Schlussfolgerung deutlich besser lösen als mit „Standard-Prompts".
- Erhöhte Nachvollziehbarkeit: CoT-Prompting macht die Denkprozesse von LLMs transparenter und nachvollziehbarer.
- Flexibilität: Die Methode lässt sich auf viele verschiedene Aufgabentypen anwenden.
- Erfordert nicht viele Beispiele: Oft reichen schon wenige Beispiele im Prompt reichen oft aus, um bessere Ergebnisse zu bekommen.
- Erspart mitunter Fine-Tuning: Chain-of-Thought-Prompting kann (in manchen Fällen) das Fine-Tuning eines KI-Modells ersparen.
- Emergente Fähigkeit: CoT Prompting scheint eine inhärente Fähigkeit von ausreichend großen Sprachmodellen zu aktivieren. Die Modelle müssen dafür nicht speziell trainiert werden.
3. Wie viel bringt Chain of Thought wirklich?
Die Forschung zeigt beeindruckende Verbesserungen durch Chain-of-Thought Prompting, besonders bei Mathematik- und Logikaufgaben. Hier sind die konkreten Benchmark-Ergebnisse aus den wichtigsten Papers:
CoT Performance im Vergleich
Genauigkeit verschiedener Prompting-Methoden auf bekannten Benchmarks (PaLM-540B)
Quelle: Wei et al. 2022, Wang et al. 2022
Wichtige Erkenntnisse aus der Forschung
GSM8K: +218 % Verbesserung
Bei Mathe-Textaufgaben steigerte Chain-of-Thought die Genauigkeit von 17,9 % auf 56,9 % – eine Verbesserung um über 200 %.
Wei et al. 2022Self-Consistency: +17,5 Prozentpunkte
Durch Mehrheitsentscheidung über 40 Lösungswege verbesserte Self-Consistency die GSM8K-Genauigkeit von 56,9 % auf 74,4 %.
Wang et al. 2022Symbolisches Reasoning: +794 % bei Last Letter
Bei symbolischen Aufgaben wie der Buchstabenverkettung stieg die Genauigkeit von 6,6 % auf 59 % – fast 8-fache Verbesserung.
Wei et al. 2022GSM8K
MathematikSVAMP
MathematikStrategyQA
Logisches DenkenCommonsenseQA
AlltagswissenLast Letter
SymbolischCoin Flip
Symbolisch4. CoT-Varianten: Von Zero-Shot bis Graph of Thoughts
Seit der Einführung von Chain-of-Thought Prompting im Jahr 2022 wurden zahlreiche Varianten und Weiterentwicklungen erforscht. Von der einfachen Zero-Shot-Variante bis hin zu komplexen Baumstrukturen wie Tree of Thoughts – jede Technik hat ihre Stärken und optimalen Anwendungsbereiche.
Die folgende Übersicht zeigt alle wichtigen CoT-Varianten im Vergleich:
Chain-of-Thought Varianten im Vergleich
Alle wissenschaftlich fundierten CoT-Techniken aus aktuellen Forschungspapers
5. Ist Chain of Thought Prompting bei neueren KI-Modellen noch erforderlich?
Die Modelle heutzutage sind deutlich schlauer als die Modelle, die im Research Paper von Wei et al. zum Testen verwendet wurden (z. B. PaLM 540B, LaMDA 137B, GPT-3 175B und Codex).
Bei aktuellen LLMs wie GPT-4o, Gemini 1.5 Pro oder Claude 3 Opus ist Chain of Thought Prompting in den meisten Fällen nicht erforderlich.
Selbst GPT-3.5 denkt schon „Schritt für Schritt" (allerdings nicht so umfassend wie GPT-4o).
Moderne LLMs haben Chain-of-Thought-Reasoning bereits internalisiert und wenden es automatisch an, wenn es sinnvoll erscheint. Dennoch kann es bei besonders komplexen Mathematik- oder Logikaufgaben hilfreich sein, explizit um schrittweises Denken zu bitten.
