Was ist Chain of Thought (CoT) Prompting? Beispiele und Vorteile

Chain of Thought Prompting (CoT-Prompting) ist eine Technik im Bereich des Prompt Engineering, die darauf abzielt, die logischen Denkfähigkeiten von großen Sprachmodellen (LLMs) zu verbessern.

Dabei werden die Modelle dazu angeregt, bei der Beantwortung komplexer Fragen Zwischenschritte zu machen, durch die der Denkprozess nachvollziehbar wird.

CoT-Prompting wurde 2022 erstmals in dem oft zitierten und bekannten Paper Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, das von Forschern bei Google Research verfasst wurde, vorgestellt.

1. Funktionsweise

Bei herkömmlichem Prompting gibt man dem Sprachmodell einfach eine Frage oder Aufgabe und erhält direkt eine Antwort.

Beim Chain of Thought Prompting fügt man zusätzlich Aufforderungen wie „Denke Schritt für Schritt nach" oder „Erkläre deine Antwort Schritt für Schritt" hinzu.

Zum Beispiel:

Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch? Erkläre deine Antwort Schritt für Schritt.

Wahlweise oder zusätzlich kann man auch ein Beispiel hinzufügen, in dem Schritt für Schritt nachgedacht wird:

Frage: Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen mit Tennisbällen. Jede Dose enthält 3 Tennisbälle. Wie viele Tennisbälle hat er jetzt?

Antwort: Roger hatte anfangs 5 Bälle. 2 Dosen mit jeweils 3 Tennisbällen sind 6 Tennisbälle. 5 + 6 = 11. Die Antwort ist 11.

Frage: Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch?

Antwort:

2. Vorteile von Chain of Thought Prompting

Die Vorteile von Chain of Thought Prompting sind vielfältig:

Verbesserte Genauigkeit: Durch die schrittweise Erklärung des Lösungswegs können Sprachmodelle komplexe Aufgaben in den Bereichen Mathematik, Logik und Schlussfolgerung deutlich besser lösen als mit „Standard-Prompts".
Erhöhte Nachvollziehbarkeit: CoT-Prompting macht die Denkprozesse von LLMs transparenter und nachvollziehbarer.
Flexibilität: Die Methode lässt sich auf viele verschiedene Aufgabentypen anwenden.
Erfordert nicht viele Beispiele: Oft reichen schon wenige Beispiele im Prompt reichen oft aus, um bessere Ergebnisse zu bekommen.
Erspart mitunter Fine-Tuning: Chain-of-Thought-Prompting kann (in manchen Fällen) das Fine-Tuning eines KI-Modells ersparen.
Emergente Fähigkeit: CoT Prompting scheint eine inhärente Fähigkeit von ausreichend großen Sprachmodellen zu aktivieren. Die Modelle müssen dafür nicht speziell trainiert werden.

3. Wie viel bringt Chain of Thought wirklich?

Die Forschung zeigt beeindruckende Verbesserungen durch Chain-of-Thought Prompting, besonders bei Mathematik- und Logikaufgaben. Hier sind die konkreten Benchmark-Ergebnisse aus den wichtigsten Papers:

CoT Performance im Vergleich

Genauigkeit verschiedener Prompting-Methoden auf bekannten Benchmarks (PaLM-540B)

Standard Prompting

Chain-of-Thought

Self-Consistency

Quelle: Wei et al. 2022, Wang et al. 2022

Wichtige Erkenntnisse aus der Forschung

+218 %

GSM8K: +218 % Verbesserung

Bei Mathe-Textaufgaben steigerte Chain-of-Thought die Genauigkeit von 17,9 % auf 56,9 % – eine Verbesserung um über 200 %.

Wei et al. 2022

+17,5 pp

Self-Consistency: +17,5 Prozentpunkte

Durch Mehrheitsentscheidung über 40 Lösungswege verbesserte Self-Consistency die GSM8K-Genauigkeit von 56,9 % auf 74,4 %.

Wang et al. 2022

+794 %

Symbolisches Reasoning: +794 % bei Last Letter

Bei symbolischen Aufgaben wie der Buchstabenverkettung stieg die Genauigkeit von 6,6 % auf 59 % – fast 8-fache Verbesserung.

Wei et al. 2022

GSM8K

Mathematik

Standard Prompting17.9 %

Chain-of-Thought56.9 %

Self-Consistency74.4 %

Verbesserung+217.9 %

SVAMP

Mathematik

Standard Prompting79.0 %

Chain-of-Thought79.0 %

Self-Consistency86.6 %

Verbesserung+0.0 %

StrategyQA

Logisches Denken

Standard Prompting65.4 %

Chain-of-Thought77.8 %

Self-Consistency81.6 %

Verbesserung+19.0 %

CommonsenseQA

Alltagswissen

Standard Prompting79.0 %

Chain-of-Thought79.9 %

Verbesserung+1.1 %

Last Letter

Symbolisch

Standard Prompting6.6 %

Chain-of-Thought59.0 %

Verbesserung+793.9 %

Coin Flip

Symbolisch

Standard Prompting50.0 %

Chain-of-Thought99.6 %

Verbesserung+99.2 %

Quellen

Wei et al. 2022 - Chain-of-Thought Prompting Wang et al. 2022 - Self-Consistency Kojima et al. 2022 - Zero-Shot CoT

4. CoT-Varianten: Von Zero-Shot bis Graph of Thoughts

Seit der Einführung von Chain-of-Thought Prompting im Jahr 2022 wurden zahlreiche Varianten und Weiterentwicklungen erforscht. Von der einfachen Zero-Shot-Variante bis hin zu komplexen Baumstrukturen wie Tree of Thoughts – jede Technik hat ihre Stärken und optimalen Anwendungsbereiche.

Die folgende Übersicht zeigt alle wichtigen CoT-Varianten im Vergleich:

Chain-of-Thought Varianten im Vergleich

Alle wissenschaftlich fundierten CoT-Techniken aus aktuellen Forschungspapers

Zeige 14 von 14 Techniken

5. Ist Chain of Thought Prompting bei neueren KI-Modellen noch erforderlich?

Die Modelle heutzutage sind deutlich schlauer als die Modelle, die im Research Paper von Wei et al. zum Testen verwendet wurden (z. B. PaLM 540B, LaMDA 137B, GPT-3 175B und Codex).

Bei aktuellen LLMs wie GPT-4o, Gemini 1.5 Pro oder Claude 3 Opus ist Chain of Thought Prompting in den meisten Fällen nicht erforderlich.

Selbst GPT-3.5 denkt schon „Schritt für Schritt" (allerdings nicht so umfassend wie GPT-4o).

Moderne LLMs haben Chain-of-Thought-Reasoning bereits internalisiert und wenden es automatisch an, wenn es sinnvoll erscheint. Dennoch kann es bei besonders komplexen Mathematik- oder Logikaufgaben hilfreich sein, explizit um schrittweises Denken zu bitten.

Chain of Thought Prompting (CoT-Prompting) ist eine Technik im Bereich des Prompt Engineering, die darauf abzielt, die logischen Denkfähigkeiten von großen Sprachmodellen (LLMs) zu verbessern.

Dabei werden die Modelle dazu angeregt, bei der Beantwortung komplexer Fragen Zwischenschritte zu machen, durch die der Denkprozess nachvollziehbar wird.

1. Funktionsweise

Bei herkömmlichem Prompting gibt man dem Sprachmodell einfach eine Frage oder Aufgabe und erhält direkt eine Antwort.

Beim Chain of Thought Prompting fügt man zusätzlich Aufforderungen wie „Denke Schritt für Schritt nach" oder „Erkläre deine Antwort Schritt für Schritt" hinzu.

Zum Beispiel:

Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch? Erkläre deine Antwort Schritt für Schritt.

Wahlweise oder zusätzlich kann man auch ein Beispiel hinzufügen, in dem Schritt für Schritt nachgedacht wird:

Frage: Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen mit Tennisbällen. Jede Dose enthält 3 Tennisbälle. Wie viele Tennisbälle hat er jetzt?

Antwort: Roger hatte anfangs 5 Bälle. 2 Dosen mit jeweils 3 Tennisbällen sind 6 Tennisbälle. 5 + 6 = 11. Die Antwort ist 11.

Frage: Die Cafeteria hat 23 Äpfel auf Lager. Wenn sie 20 davon für das Mittagessen verwendet haben und 6 weitere dazugekauft haben, wie viele Äpfel hat sie noch?

Antwort:

2. Vorteile von Chain of Thought Prompting

Die Vorteile von Chain of Thought Prompting sind vielfältig:

Verbesserte Genauigkeit: Durch die schrittweise Erklärung des Lösungswegs können Sprachmodelle komplexe Aufgaben in den Bereichen Mathematik, Logik und Schlussfolgerung deutlich besser lösen als mit „Standard-Prompts".
Erhöhte Nachvollziehbarkeit: CoT-Prompting macht die Denkprozesse von LLMs transparenter und nachvollziehbarer.
Flexibilität: Die Methode lässt sich auf viele verschiedene Aufgabentypen anwenden.
Erfordert nicht viele Beispiele: Oft reichen schon wenige Beispiele im Prompt reichen oft aus, um bessere Ergebnisse zu bekommen.
Erspart mitunter Fine-Tuning: Chain-of-Thought-Prompting kann (in manchen Fällen) das Fine-Tuning eines KI-Modells ersparen.
Emergente Fähigkeit: CoT Prompting scheint eine inhärente Fähigkeit von ausreichend großen Sprachmodellen zu aktivieren. Die Modelle müssen dafür nicht speziell trainiert werden.

3. Wie viel bringt Chain of Thought wirklich?

CoT Performance im Vergleich

Genauigkeit verschiedener Prompting-Methoden auf bekannten Benchmarks (PaLM-540B)

Standard Prompting

Chain-of-Thought

Self-Consistency

Quelle: Wei et al. 2022, Wang et al. 2022

Wichtige Erkenntnisse aus der Forschung

+218 %

GSM8K: +218 % Verbesserung

Bei Mathe-Textaufgaben steigerte Chain-of-Thought die Genauigkeit von 17,9 % auf 56,9 % – eine Verbesserung um über 200 %.

Wei et al. 2022

+17,5 pp

Self-Consistency: +17,5 Prozentpunkte

Durch Mehrheitsentscheidung über 40 Lösungswege verbesserte Self-Consistency die GSM8K-Genauigkeit von 56,9 % auf 74,4 %.

Wang et al. 2022

+794 %

Symbolisches Reasoning: +794 % bei Last Letter

Bei symbolischen Aufgaben wie der Buchstabenverkettung stieg die Genauigkeit von 6,6 % auf 59 % – fast 8-fache Verbesserung.

Wei et al. 2022

GSM8K

Mathematik

Standard Prompting17.9 %

Chain-of-Thought56.9 %

Self-Consistency74.4 %

Verbesserung+217.9 %

SVAMP

Mathematik

Standard Prompting79.0 %

Chain-of-Thought79.0 %

Self-Consistency86.6 %

Verbesserung+0.0 %

StrategyQA

Logisches Denken

Standard Prompting65.4 %

Chain-of-Thought77.8 %

Self-Consistency81.6 %

Verbesserung+19.0 %

CommonsenseQA

Alltagswissen

Standard Prompting79.0 %

Chain-of-Thought79.9 %

Verbesserung+1.1 %

Last Letter

Symbolisch

Standard Prompting6.6 %

Chain-of-Thought59.0 %

Verbesserung+793.9 %

Coin Flip

Symbolisch

Standard Prompting50.0 %

Chain-of-Thought99.6 %

Verbesserung+99.2 %

Quellen

Wei et al. 2022 - Chain-of-Thought Prompting Wang et al. 2022 - Self-Consistency Kojima et al. 2022 - Zero-Shot CoT

4. CoT-Varianten: Von Zero-Shot bis Graph of Thoughts

Die folgende Übersicht zeigt alle wichtigen CoT-Varianten im Vergleich:

Chain-of-Thought Varianten im Vergleich

Alle wissenschaftlich fundierten CoT-Techniken aus aktuellen Forschungspapers

Zeige 14 von 14 Techniken

5. Ist Chain of Thought Prompting bei neueren KI-Modellen noch erforderlich?

Die Modelle heutzutage sind deutlich schlauer als die Modelle, die im Research Paper von Wei et al. zum Testen verwendet wurden (z. B. PaLM 540B, LaMDA 137B, GPT-3 175B und Codex).

Bei aktuellen LLMs wie GPT-4o, Gemini 1.5 Pro oder Claude 3 Opus ist Chain of Thought Prompting in den meisten Fällen nicht erforderlich.

Selbst GPT-3.5 denkt schon „Schritt für Schritt" (allerdings nicht so umfassend wie GPT-4o).

1. Funktionsweise

2. Vorteile von Chain of Thought Prompting

3. Wie viel bringt Chain of Thought wirklich?

CoT Performance im Vergleich

Wichtige Erkenntnisse aus der Forschung

GSM8K: +218 % Verbesserung

Self-Consistency: +17,5 Prozentpunkte

Symbolisches Reasoning: +794 % bei Last Letter

GSM8K

SVAMP

StrategyQA

CommonsenseQA

Last Letter

Coin Flip

Quellen

4. CoT-Varianten: Von Zero-Shot bis Graph of Thoughts

Chain-of-Thought Varianten im Vergleich

Active Prompting

Complexity-Based CoT

Contrastive Chain-of-Thought(Contrastive CoT)

Graph of Thoughts(GoT)

Plan-and-Solve(PS+)

Reflexion

Self-Refine

Tree of Thoughts(ToT)

Automatic Chain-of-Thought(Auto-CoT)

Few-Shot Chain-of-Thought(Few-Shot CoT)

Least-to-Most Prompting

Program of Thoughts(PoT)

Self-Consistency(SC-CoT)

Zero-Shot Chain-of-Thought(Zero-Shot CoT)

5. Ist Chain of Thought Prompting bei neueren KI-Modellen noch erforderlich?

Finn Hillebrandt

Verwandte KI-Begriffe

1. Funktionsweise

2. Vorteile von Chain of Thought Prompting

3. Wie viel bringt Chain of Thought wirklich?

CoT Performance im Vergleich

Wichtige Erkenntnisse aus der Forschung

GSM8K: +218 % Verbesserung

Self-Consistency: +17,5 Prozentpunkte

Symbolisches Reasoning: +794 % bei Last Letter

GSM8K

SVAMP

StrategyQA

CommonsenseQA

Last Letter

Coin Flip

Quellen

4. CoT-Varianten: Von Zero-Shot bis Graph of Thoughts

Chain-of-Thought Varianten im Vergleich

Active Prompting

Complexity-Based CoT

Contrastive Chain-of-Thought(Contrastive CoT)

Graph of Thoughts(GoT)

Plan-and-Solve(PS+)

Reflexion

Self-Refine

Tree of Thoughts(ToT)

Automatic Chain-of-Thought(Auto-CoT)

Few-Shot Chain-of-Thought(Few-Shot CoT)

Least-to-Most Prompting

Program of Thoughts(PoT)

Self-Consistency(SC-CoT)

Zero-Shot Chain-of-Thought(Zero-Shot CoT)

5. Ist Chain of Thought Prompting bei neueren KI-Modellen noch erforderlich?

Finn Hillebrandt

Verwandte KI-Begriffe