KI-Lexikon

Temperature, Top P, Top K & Penalties

Feintuning-Parameter, mit denen du Kreativität, Varianz und Wiederholungen von KI-Antworten steuerst.

Warum Parameter-Tuning wichtig ist

Standardwerte liefern zwar solide Ergebnisse, aber für hochwertige Produkttexte, Code-Reviews oder kreative Brainstormings lohnt sich Feintuning. Temperature, Top P und Top K verändern, wie viel Zufall im Sampling steckt. Frequency und Presence Penalty steuern, ob das Modell Phrasen oder Themen wiederholt. Über APIs und Entwickler-Konsolen kannst du diese Hebel gezielt einsetzen.

Parameter im Überblick

Temperature

Steuert die Zufälligkeit bei der Wortauswahl. Niedrig (0.0-0.4) = faktisch & deterministisch, hoch (0.8-1.3) = kreativ & variantenreich.

Empfehlung: OpenAI: 0.2-0.7 für Business-Content, 0.9+ für kreative Aufgaben. Claude: meist 1.0 belassen.

Top P (Nucleus Sampling)

Beschränkt die Auswahl auf die wahrscheinlichsten Token innerhalb eines kumulativen Wahrscheinlichkeitsradius.

Empfehlung: 0.1-0.3 = konservativ, 0.8-0.95 = explorativ. Nicht gleichzeitig mit hoher Temperature kombinieren.

Top K

Wählt aus den K wahrscheinlichsten nächsten Token. Kleinere K-Werte liefern prägnante Antworten, größere K bringen Vielfalt.

Empfehlung: Gemini & Claude: 20-40 für präzise Antworten, 100+ für Brainstorming.

Frequency Penalty

Bestrafte Wörter proportional dazu, wie oft sie bisher vorgekommen sind – reduziert Phrase-Wiederholungen.

Empfehlung: OpenAI: 0.2-0.8 um Duplikate in langen Texten zu vermeiden.

Presence Penalty

Bestrafte Themen, die bereits erwähnt wurden, unabhängig von der Häufigkeit – fördert thematische Diversität.

Empfehlung: 0.3-0.6, wenn neue Ideen gefragt sind; 0.0 für bleibende Themen.

Best Practices fürs Parameter-Tuning

Verändere nur einen Parameter pro Testlauf, sonst fehlt die Zuordnung der Effekte.
Dokumentiere Input, Parameter-Set und Output – idealerweise automatisiert.
Setze Guardrails: Hohe Temperature mit deaktivierten Penalties erzeugt halluzinationsanfälligen Output.
Plane Kosten ein: Wiederholtes Sampling mit Self-Consistency erhöht Tokenverbrauch.

API-Unterstützung (Stand November 2025)

Parameter	Gemini 2.5	Claude 4	OpenAI GPT-4.1
Temperature	✓	✓	✓
Top P	✓	✓	✓
Top K	✓	✓	✓
Frequency Penalty	✓	–	✓
Presence Penalty	✓	–	✓

Tipp

Für Produktions-Workloads lohnt sich ein mehrstufiges Setup: Nutze moderate Standardwerte, prüfe das Ergebnis automatisch und triggere bei Bedarf einen erneuten Durchlauf mit angepassten Parametern (z. B. höherer Presence Penalty bei repetitiven Antworten).

Quellen und Referenzen

Verwandte Begriffe

Prompt Chain-of-Thought LLM System Prompt