Claude, Gemini oder GPT-4 geben dir nicht den Output, den du gerne hättest und neigen zu Antworten, die zu faktisch oder zu kreativ sind oder sich wiederholen?
Dann kann es Sinn ergeben, erweiterte LLM-Parameter wie Temperature, Top P, Top K, Frequency Penalty oder Presence Penalty anzupassen.
Das ist möglich, wenn du die respektiven APIs verwendest, z. B. die Google Gemini API oder die OpenAI Chat Completions API oder wahlweise über die Entwicklerkonsolen, z. B. die Anthropic Console oder den OpenAI Playground.
1. Temperature
Die Temperature steuert, wie „kreativ" oder „überraschend" die Antworten eines KI-Modells sind:
Ein niedriger Wert dazu, dass das Modell eher vorhersehbare, konservative Antworten gibt. Es wählt Wörter und Sätze aus, die sehr wahrscheinlich sind. Ein hoher Wert lässt das Modell kreativer und abwechslungsreicher antworten. Es wählt auch mal überraschendere Formulierungen aus.
Für faktische Antworten empfiehlt sich bei der OpenAI API ein niedriger Wert zwischen 0.5 und 0.9. Für kreativere Antworten empfiehlt sich ein Wert von 1.0 bis 1.4. Werte von 1.5 oder höher sind in den wenigsten Fällen empfehlenswert.
Bei der Claude API ergibt es meistens Sinn, die Temperature auf 1.0 zu belassen und nicht niedriger zu stellen (hier ist die mögliche Spanne zwischen 0 und 1.0).
Die folgende interaktive Tabelle zeigt, wie sich der Output bei verschiedenen Temperature-Werten verändert:
Ziehe den Regler, um den Effekt zu sehen
"Die Sonne taucht wie ein brennender Phoenix in das Meer aus Wolken, während der Himmel in ekstatischen Farben explodiert."
Sehr kreativ, intensiv
2. Top P (Nucleus Sampling)
Top P ist eine Alternative zur Temperature, um die Kreativität zu steuern. Bei Top P wählt das Modell die nächsten Wörter aus den Top X % der wahrscheinlichsten Kandidaten aus.
Ein niedriger Wert wie 0.1 beschränkt die Auswahl auf die 10 % wahrscheinlichsten Wörter. Die Antworten werden vorhersehbarer. Ein hoher Wert wie 0.9 lässt das Modell aus den Top 90 % wählen. Es kommen auch mal unwahrscheinlichere Wörter vor, was die Antworten abwechslungsreicher macht.
Tipp: Den Wert für Top P anzupassen, ist nur für fortgeschrittene Anwendungsfälle sinnvoll. Generell empfiehlt sich, nur mit der Temperature zu arbeiten. Bitte beachte zudem, dass du entweder Top P oder die Temperature anpassen solltest, nicht beides gleichzeitig.
So verändert sich der Output bei verschiedenen Top-P-Werten:
Ziehe den Regler, um den Effekt zu sehen
"Der Himmel ist blau aufgrund eines physikalischen Phänomens namens Rayleigh-Streuung, bei dem kürzere Wellenlängen des Lichts stärker gestreut werden."
Ausgewogen, informativ
3. Top K
Top K funktioniert ähnlich wie Top P, ist aber etwas einfacher zu verstehen. Hier wählt das Modell aus den K wahrscheinlichsten nächsten Wörtern aus.
Ein niedriger Wert für K (z. B. 10) führt zu vorhersehbareren Antworten. Ein hoher Wert für K (z. B. 100) erlaubt mehr Kreativität und Abwechslung.
Tipp: Den Wert für Top K anzupassen, ist nur für fortgeschrittene Anwendungsfälle sinnvoll. Generell empfiehlt sich, nur mit der Temperature zu arbeiten. Bitte beachte zudem, dass du entweder Top P oder die Temperature anpassen solltest, nicht beides gleichzeitig.
Die folgende Tabelle demonstriert den Einfluss von Top K:
Ziehe den Regler, um den Effekt zu sehen
"Papaya, Granatapfel, Litschi."
Ungewöhnlichere Auswahl
4. Frequency Penalty
Die Frequency Penalty bestraft die Wiederholung von Token, die im bisherigen Text schon oft vorkamen, wobei die Häufigkeit der Token gemessen wird.
Ein hoher Wert (nahe 2) führt dazu, dass ein KI-Modell dieselben Phrasen oder Sätze wiederholt und sich abwechslungsreicher formuliert. Ein niedriger Wert (nahe 0) lässt mehr Wiederholungen von Phrasen oder Sätze zu.
Hier siehst du, wie verschiedene Frequency-Penalty-Werte die Wiederholung beeinflussen:
Ziehe den Regler, um den Effekt zu sehen
"Treue Vierbeiner bereichern das menschliche Dasein. Pelzige Gefährten erfreuen sich an Bewegung und schenken bedingungslose Zuneigung."
Aktiv verschiedene Wörter
5. Presence Penalty
Die Presence Penalty funktioniert ähnlich wie der Frequency Penalty. Er bestraft aber die Wiederholung von Token unabhängig davon, wie häufig die exakten Token vorkamen.
Ein hoher Wert sorgt dafür, dass das Modell seltener bereits erwähnte Themen aufgreift. Ein niedriger Wert lässt thematische Wiederholungen eher zu.
Alternativ könnte man sagen: Bei einem hohen Wert ist das KI-Modell „offener für neue Themen".
Tipp: Du solltest entweder die Presence Penalty oder die Frequency Penalty anpassen, nicht beides gleichzeitig.
Die Tabelle zeigt, wie die Presence Penalty das Modell dazu bringt, thematisch abzuschweifen:
Ziehe den Regler, um den Effekt zu sehen
"Mobilität prägt unsere moderne Gesellschaft. Dabei spielen auch Nachhaltigkeit und ökologischer Fußabdruck eine wichtige Rolle."
Verwandte Themen
6. Wie finde ich die richtigen Werte für jede Einstellung?
Bei der Einstellung der Parameter gilt:
Probieren geht über Studieren. Das heißt, ändere die Werte und schaue, wie sich das auf den Output auswirkt.
Bitte beachte dabei, nur einen der Parameter zurzeit zu verändern, weil du sonst nicht nachvollziehen kannst, durch welchen Parameter sich der Output verbessert oder verschlechtert hat.
Generell empfehlen sich für faktische Antworten eher niedrige Werte für Temperature/Top P, für kreative Aufgaben höhere. Die Strafparameter helfen, einen guten Mittelweg zwischen Wiederholung und Abwechslung zu finden.
7. Welche Parameter sind in welcher API einstellbar?
Bitte beachte, dass manche der Parameter, wie Frequency Penalty oder Presence Penalty nicht in jeder API einstellbar sind. Hier findest du eine kleine Übersicht:
| Parameter | Google Gemini API | Claude API | OpenAI API |
|---|---|---|---|
| Temperature | ✓ | ✓ | ✓ |
| Top P | ✓ | ✓ | ✓ |
| Top K | ✓ | ✓ | ✓ |
| Frequency Penalty | ✓ | - | ✓ |
| Presence Penalty | ✓ | - | ✓ |
