KI-Lexikon

Context Window

Das "Gedächtnis" eines KI-Modells - wie viel es gleichzeitig verarbeiten kann

Was ist ein Context Window?

Das Context Window (Kontextfenster) bezeichnet die maximale Menge an Text, die ein KI-Sprachmodell gleichzeitig verarbeiten kann. Es umfasst sowohl deine Eingabe als auch die Antwort des Modells und wird in "Tokens" gemessen.

💡 Einfache Analogie: Stell dir das Context Window wie den Arbeitsspeicher eines Computers vor - es bestimmt, wie viele Informationen das Modell "im Kopf behalten" kann, während es arbeitet.

Was sind Tokens?

Tokens sind die Grundeinheiten, in die Text für KI-Modelle zerlegt wird. Ein Token kann ein Wort, ein Wortteil oder sogar ein einzelnes Zeichen sein.

Beispiel: "Künstliche Intelligenz ist faszinierend!"

→ Tokens: ["Kün", "st", "liche", " Int", "ell", "igen", "z", " ist", " fas", "zin", "ier", "end", "!"]

= 13 Tokens

Faustregel: 1 Token ≈ 0,75 Wörter im Englischen, im Deutschen oft etwas mehr Tokens pro Wort.

Context Window Größen im Vergleich

Gemini 2.5 Flash

2,000,000 Tokens ≈ ~1.500-1.600 Seiten Text

2,000,000

GPT-4.1 Pro

1,000,000 Tokens ≈ ~750-800 Seiten Text

1,000,000

Claude 4.1 Opus

500,000 Tokens ≈ ~360-400 Seiten Text

500,000

OpenAI o1-preview

256,000 Tokens ≈ ~180-200 Seiten Text

256,000

DeepSeek V3 Max

200,000 Tokens ≈ ~150-160 Seiten Text

200,000

GPT-4o mini

128,000 Tokens ≈ ~90-100 Seiten Text

128,000

* Größen können je nach Modellversion variieren

Umfassende Context Window Übersicht (November 2025)

Modell	Entwickler	Context Window	Entspricht ca.	Besonderheiten
Ultra-Große Context Windows (Millionen Tokens)
Magic.dev LTM-2-Mini	Magic.dev	100M Tokens	~10M Zeilen Code	Ganze Codebases
LLaMA 4 Scout	Meta	10M Tokens	~7.500 Seiten	Experimentell
MiniMax-Text-01	MiniMax	4M Tokens	~3.000 Seiten	Chinesischer Anbieter
Gemini 2.5 Pro	Google	2M Tokens	~1.500 Seiten	Erweiterbar
Gemini 2.0 Flash	Google	1M Tokens	~750 Seiten	11h Audio, 1h Video
GPT-4.1 Serie	OpenAI	1M Tokens	~750 Seiten	Neueste Generation
Qwen 2.5-1M	Alibaba	1M Tokens	~750 Seiten	Open Source
Amazon Titan Premier	Amazon	1M Tokens	~750 Seiten	Enterprise-fokussiert
xAI Grok-3	xAI	1M Tokens	~750 Seiten	Elon Musk's Unternehmen
Große Context Windows (200K-500K Tokens)
Claude Enterprise	Anthropic	500K Tokens	~375 Seiten	Enterprise-Version
Amazon Nova Pro	Amazon	300K Tokens	~225 Seiten	Multimodal
AI21 Jamba 1.5	AI21 Labs	256K Tokens	~190 Seiten	Hybrid SSM-Transformer
LLaMA 4 Maverick	Meta	256K Tokens	~190 Seiten	Mittlere Variante
Claude 4 Opus	Anthropic	200K Tokens	~150 Seiten	Flagship-Modell
Claude 3.5 Sonnet	Anthropic	200K Tokens	~150 Seiten	Computer Use
OpenAI o1/o3	OpenAI	200K Tokens	~150 Seiten	Reasoning-fokussiert
Standard Große Context Windows (128K Tokens)
GPT-4o/GPT-4o mini	OpenAI	128K Tokens	~96 Seiten	Multimodal
DeepSeek V3/R1	DeepSeek	128K Tokens	~96 Seiten	Open Source
Mistral Large 2	Mistral AI	128K Tokens	~96 Seiten	Code-optimiert
LLaMA 3.3 70B	Meta	128K Tokens	~96 Seiten	Open Source
Qwen 3	Alibaba	128K Tokens	~96 Seiten	Multilingual
Mixtral 8x22B	Mistral AI	64K Tokens	~48 Seiten	MoE-Architektur
Phi-4	Microsoft	16K Tokens	~12 Seiten	Small Language Model
Phi-3.x	Microsoft	128K Tokens	~96 Seiten	Variable Größen
Gemma 3	Google	8K Tokens	~6 Seiten	Small Model
Pixtral Large	Mistral AI	128K Tokens	~96 Seiten	Multimodal
Ernie Bot	Baidu	32K Tokens	~24 Seiten	Chinesisch-fokussiert
Hunyuan	Tencent	32K Tokens	~24 Seiten	Multimodal
Pangu	Huawei	32K Tokens	~24 Seiten	Enterprise
Doubao Pro	ByteDance	128K Tokens	~96 Seiten	Ultra-günstig
BLOOM	BigScience	2K Tokens	~1.5 Seiten	46 Sprachen
Pharia-1-LLM-7B	Aleph Alpha	32K Tokens	~24 Seiten	EU AI Act konform
StarCoder2	BigCode	16K Tokens	~12 Seiten	Code-spezialisiert
CodeLlama 70B	Meta	16K Tokens	~12 Seiten	Code-Generation
DeepSeek Coder	DeepSeek	16K Tokens	~12 Seiten	Code-optimiert
MiniCPM	OpenBMB	4K Tokens	~3 Seiten	Mobil-optimiert
MobileLLaMA	Community	2K Tokens	~1.5 Seiten	Edge Computing
StableLM-Zephyr	Stability AI	4K Tokens	~3 Seiten	Instruction-tuned
LLaVA-Next	Community	4K Tokens	~3 Seiten	Vision-Language
Med-PaLM 2	Google	32K Tokens	~24 Seiten	Medizin-spezialisiert
BioMistral	Mistral AI	32K Tokens	~24 Seiten	Bio-Medizin
OpenBioLLM-70B	Community	4K Tokens	~3 Seiten	Medizin Open Source
MEDITRON-70B	EPFL	2K Tokens	~1.5 Seiten	Medizinische Forschung
QwQ-32B	Alibaba	32K Tokens	~24 Seiten	Math/Reasoning
Falcon 3	TII	32K Tokens	~24 Seiten	Kosteneffizient
Cohere Command R+	Cohere	128K Tokens	~96 Seiten	RAG-optimiert
IBM Granite	IBM	128K Tokens	~96 Seiten	Enterprise AI
Qwen (Standard)	Alibaba	128K Tokens	~96 Seiten	Mehrsprachig
NVIDIA Nemotron	NVIDIA	128K Tokens	~96 Seiten	GPU-optimiert
Microsoft Phi-3	Microsoft	128K Tokens	~96 Seiten	Small Language Model
Reka Core	Reka AI	128K Tokens	~96 Seiten	Multimodal
Mittlere Context Windows (16K-100K Tokens)
Databricks DBRX	Databricks	33K Tokens	~25 Seiten	MoE Architektur
QwQ-32B	Alibaba	32K Tokens	~24 Seiten	Reasoning-Modell
Reka Flash 3	Reka AI	32K Tokens	~24 Seiten	Schnelle Inferenz
Qwen 2.5-Max	Alibaba	32K Tokens	~24 Seiten	Flagship ohne 1M
StableCode 16K	Stability AI	16K Tokens	~12 Seiten	Code-spezialisiert
Kleinere Context Windows (2K-16K Tokens)
Falcon 2 11B	TII	8K Tokens	~6 Seiten	VLM Variante
Gemma 2	Google	8.2K Tokens	~6 Seiten	Kompakt und effizient
Amazon Titan Express	Amazon	8K Tokens	~6 Seiten	Schnell und günstig
Phi-3-mini (4K)	Microsoft	4K Tokens	~3 Seiten	Edge-optimiert
StableLM	Stability AI	4K Tokens	~3 Seiten	Open Source
OLMo 1B	Allen Institute	2K Tokens	~1.5 Seiten	Forschungsmodell

Trend 2025: Premium-Modelle liefern inzwischen stabil 1M+ Tokens Kontext, während Forschungsprototypen 10M bis 100M Tokens erreichen und vollständige Datenräume wie Unternehmens-Wissensbasen oder Monorepos erfassen können.

Praktische Anwendungen

Multi-Dokument-RAG

Analysiere mehrere Reports, Präsentationen und Datenblätter in einem Abruf

Benötigt: ≥ 200K Tokens

Ganzheitliche Code-Audits

Überprüfe komplette Monorepos inklusive Tests, Docs und Commit-Historie

Benötigt: ≥ 256K Tokens

Agentische Workflows

Steuere mehrstufige Automationen mit persistentem Projektgedächtnis

Benötigt: ≥ 500K Tokens

Video- und Multimodalanalyse

Verarbeite Transkripte, Audio und Frames einstündiger Meetings gebündelt

Benötigt: ≥ 1M Tokens

So funktioniert das Context Window

Eingabe-Tokens

Deine Frage/Prompt verbraucht einen Teil des Context Windows

Konversationsverlauf

Vorherige Nachrichten im Chat werden mitgezählt

Ausgabe-Tokens

Die Antwort des Modells verbraucht den restlichen Platz

Hinweis

Wichtig: Wenn das Context Window voll ist, "vergisst" das Modell die ältesten Teile der Konversation, um Platz für neue Informationen zu schaffen.

Einschränkungen und Herausforderungen

Kosten

Größere Context Windows = höhere API-Kosten pro Anfrage

Geschwindigkeit

Längere Verarbeitungszeit bei vollem Kontextfenster

Attention-Drift

Modelle können bei sehr langen Kontexten Details in der Mitte übersehen

Zukunftsentwicklung

Die Größe der Context Windows wächst stetig:

→2020: 2k-4k Tokens waren Standard
→2023: 32k-128k Tokens werden üblich
→2024: 200K+ Tokens bei führenden Modellen
→2025: 1M Tokens produktiv, 10M+ in Pilotprojekten

Größere Context Windows ermöglichen die Verarbeitung ganzer Bücher, kompletter Codebases oder umfangreicher Forschungsdokumente in einem Durchgang.

Quellen und Referenzen

Verwandte Begriffe

Large Language Model Fine-Tuning Knowledge Cutoff Date