Zum Hauptinhalt springen

Context Window

Das "Gedächtnis" eines KI-Modells - wie viel es gleichzeitig verarbeiten kann

Was ist ein Context Window?

Das Context Window (Kontextfenster) bezeichnet die maximale Menge an Text, die ein KI-Sprachmodell gleichzeitig verarbeiten kann. Es umfasst sowohl deine Eingabe als auch die Antwort des Modells und wird in "Tokens" gemessen.

💡 Einfache Analogie: Stell dir das Context Window wie den Arbeitsspeicher eines Computers vor - es bestimmt, wie viele Informationen das Modell "im Kopf behalten" kann, während es arbeitet.

Was sind Tokens?

Tokens sind die Grundeinheiten, in die Text für KI-Modelle zerlegt wird. Ein Token kann ein Wort, ein Wortteil oder sogar ein einzelnes Zeichen sein.

Beispiel: "Künstliche Intelligenz ist faszinierend!"

→ Tokens: ["Kün", "st", "liche", " Int", "ell", "igen", "z", " ist", " fas", "zin", "ier", "end", "!"]

= 13 Tokens

Faustregel: 1 Token ≈ 0,75 Wörter im Englischen, im Deutschen oft etwas mehr Tokens pro Wort.

Context Window Größen im Vergleich

GPT-3.5

4,096 Tokens ≈ ~5-6 Seiten Text

4,096

GPT-4

8,192 Tokens ≈ ~10-12 Seiten Text

8,192

GPT-4 Turbo

128,000 Tokens ≈ ~160-200 Seiten Text

128,000

Claude 3

200,000 Tokens ≈ ~250-300 Seiten Text

200,000

* Größen können je nach Modellversion variieren

Umfassende Context Window Übersicht (Juli 2025)
ModellEntwicklerContext WindowEntspricht ca.Besonderheiten
Ultra-Große Context Windows (Millionen Tokens)
Magic.dev LTM-2-MiniMagic.dev100M Tokens~10M Zeilen CodeGanze Codebases
LLaMA 4 ScoutMeta10M Tokens~7.500 SeitenExperimentell
MiniMax-Text-01MiniMax4M Tokens~3.000 SeitenChinesischer Anbieter
Gemini 2.5 ProGoogle2M Tokens~1.500 SeitenErweiterbar
Gemini 2.0 FlashGoogle1M Tokens~750 Seiten11h Audio, 1h Video
GPT-4.1 SerieOpenAI1M Tokens~750 SeitenNeueste Generation
Qwen 2.5-1MAlibaba1M Tokens~750 SeitenOpen Source
Amazon Titan PremierAmazon1M Tokens~750 SeitenEnterprise-fokussiert
xAI Grok-3xAI1M Tokens~750 SeitenElon Musk's Unternehmen
Große Context Windows (200K-500K Tokens)
Claude EnterpriseAnthropic500K Tokens~375 SeitenEnterprise-Version
Amazon Nova ProAmazon300K Tokens~225 SeitenMultimodal
AI21 Jamba 1.5AI21 Labs256K Tokens~190 SeitenHybrid SSM-Transformer
LLaMA 4 MaverickMeta256K Tokens~190 SeitenMittlere Variante
Claude 4 OpusAnthropic200K Tokens~150 SeitenFlagship-Modell
Claude 3.5 SonnetAnthropic200K Tokens~150 SeitenComputer Use
OpenAI o1/o3OpenAI200K Tokens~150 SeitenReasoning-fokussiert
Standard Große Context Windows (128K Tokens)
GPT-4o/GPT-4o miniOpenAI128K Tokens~96 SeitenMultimodal
DeepSeek V3/R1DeepSeek128K Tokens~96 SeitenOpen Source
Mistral Large 2Mistral AI128K Tokens~96 SeitenCode-optimiert
LLaMA 3.3 70BMeta128K Tokens~96 SeitenOpen Source
Qwen 3Alibaba128K Tokens~96 SeitenMultilingual
Mixtral 8x22BMistral AI64K Tokens~48 SeitenMoE-Architektur
Phi-4Microsoft16K Tokens~12 SeitenSmall Language Model
Phi-3.xMicrosoft128K Tokens~96 SeitenVariable Größen
Gemma 3Google8K Tokens~6 SeitenSmall Model
Pixtral LargeMistral AI128K Tokens~96 SeitenMultimodal
Ernie BotBaidu32K Tokens~24 SeitenChinesisch-fokussiert
HunyuanTencent32K Tokens~24 SeitenMultimodal
PanguHuawei32K Tokens~24 SeitenEnterprise
Doubao ProByteDance128K Tokens~96 SeitenUltra-günstig
BLOOMBigScience2K Tokens~1.5 Seiten46 Sprachen
Pharia-1-LLM-7BAleph Alpha32K Tokens~24 SeitenEU AI Act konform
StarCoder2BigCode16K Tokens~12 SeitenCode-spezialisiert
CodeLlama 70BMeta16K Tokens~12 SeitenCode-Generation
DeepSeek CoderDeepSeek16K Tokens~12 SeitenCode-optimiert
MiniCPMOpenBMB4K Tokens~3 SeitenMobil-optimiert
MobileLLaMACommunity2K Tokens~1.5 SeitenEdge Computing
StableLM-ZephyrStability AI4K Tokens~3 SeitenInstruction-tuned
LLaVA-NextCommunity4K Tokens~3 SeitenVision-Language
Med-PaLM 2Google32K Tokens~24 SeitenMedizin-spezialisiert
BioMistralMistral AI32K Tokens~24 SeitenBio-Medizin
OpenBioLLM-70BCommunity4K Tokens~3 SeitenMedizin Open Source
MEDITRON-70BEPFL2K Tokens~1.5 SeitenMedizinische Forschung
QwQ-32BAlibaba32K Tokens~24 SeitenMath/Reasoning
Falcon 3TII32K Tokens~24 SeitenKosteneffizient
Cohere Command R+Cohere128K Tokens~96 SeitenRAG-optimiert
IBM GraniteIBM128K Tokens~96 SeitenEnterprise AI
Qwen (Standard)Alibaba128K Tokens~96 SeitenMehrsprachig
NVIDIA NemotronNVIDIA128K Tokens~96 SeitenGPU-optimiert
Microsoft Phi-3Microsoft128K Tokens~96 SeitenSmall Language Model
Reka CoreReka AI128K Tokens~96 SeitenMultimodal
Mittlere Context Windows (16K-100K Tokens)
Databricks DBRXDatabricks33K Tokens~25 SeitenMoE Architektur
QwQ-32BAlibaba32K Tokens~24 SeitenReasoning-Modell
Reka Flash 3Reka AI32K Tokens~24 SeitenSchnelle Inferenz
Qwen 2.5-MaxAlibaba32K Tokens~24 SeitenFlagship ohne 1M
StableCode 16KStability AI16K Tokens~12 SeitenCode-spezialisiert
Kleinere Context Windows (2K-16K Tokens)
Falcon 2 11BTII8K Tokens~6 SeitenVLM Variante
Gemma 2Google8.2K Tokens~6 SeitenKompakt und effizient
Amazon Titan ExpressAmazon8K Tokens~6 SeitenSchnell und günstig
Phi-3-mini (4K)Microsoft4K Tokens~3 SeitenEdge-optimiert
StableLMStability AI4K Tokens~3 SeitenOpen Source
OLMo 1BAllen Institute2K Tokens~1.5 SeitenForschungsmodell

Trend 2025: Context Windows wachsen exponentiell. Während 2022 noch 2K-4K Standard waren, haben führende Modelle heute 128K-1M Tokens. Die größten experimentellen Modelle erreichen sogar 100M Tokens und können damit ganze Codebases oder Bibliotheken verarbeiten.

Praktische Anwendungen

Dokumentenanalyse

Analysiere komplette PDFs, Verträge oder wissenschaftliche Arbeiten in einem Durchgang

Benötigt: 32k+ Tokens

Code-Review

Überprüfe ganze Codebases oder mehrere zusammenhängende Dateien gleichzeitig

Benötigt: 16k+ Tokens

Kreatives Schreiben

Behalte Charaktere, Plot und Stil über lange Geschichten hinweg konsistent

Benötigt: 32k+ Tokens

Komplexe Gespräche

Führe tiefgehende Diskussionen ohne wichtige Details zu vergessen

Benötigt: 8k+ Tokens
So funktioniert das Context Window
1

Eingabe-Tokens

Deine Frage/Prompt verbraucht einen Teil des Context Windows

2

Konversationsverlauf

Vorherige Nachrichten im Chat werden mitgezählt

3

Ausgabe-Tokens

Die Antwort des Modells verbraucht den restlichen Platz

Einschränkungen und Herausforderungen

Kosten

Größere Context Windows = höhere API-Kosten pro Anfrage

Geschwindigkeit

Längere Verarbeitungszeit bei vollem Kontextfenster

Attention-Drift

Modelle können bei sehr langen Kontexten Details in der Mitte übersehen

Zukunftsentwicklung

Die Größe der Context Windows wächst stetig:

  • 2020: 2k-4k Tokens waren Standard
  • 2023: 32k-128k Tokens werden üblich
  • 2024: 200k+ Tokens bei führenden Modellen
  • Zukunft: 1M+ Tokens in Entwicklung

Größere Context Windows ermöglichen die Verarbeitung ganzer Bücher, kompletter Codebases oder umfangreicher Forschungsdokumente in einem Durchgang.

Quellen und Referenzen