Die Geschichte der KI im Zeitstrahl
Vom Deep-Learning-Durchbruch 2012 über die generative Revolution bis zu fundierten Prognosen für 2040. Diese interaktive Zeitleiste zeigt die wichtigsten KI-Modelle und Tools, mit Charts zur Intelligenz-Explosion.
Die Intelligenz-Explosion
Auf anspruchsvollen Benchmarks sind KI-Modelle in drei Jahren von Anfänger- auf Expertenniveau gesprungen. GPQA Diamond ist ein Test auf Doktorandenniveau, SWE-bench Verified misst echte Programmieraufgaben.
Größer, länger, dann effizienter
Erst wuchsen die Modelle in Parametern und Kontextlänge um Größenordnungen. Heute werden Parameterzahlen oft gar nicht mehr genannt, und der Wettbewerb verlagert sich auf Preis und Leistung.
Das Tempo zieht an
Jede Zelle zählt die Modelle und Tools dieser Zeitleiste pro Monat. Aus jährlichen Sprüngen sind monatliche Releases geworden.
Was sich verändert hat
Vier Dimensionen im Vergleich, von 2022 bis 2026.
Wer den Markt anführt
Chatbot-Marktanteil nach Web-Traffic
KI auf der Weltkarte
Wo KI-Modelle entstehen, wie stark KI genutzt wird und wo die wertvollsten KI-Unternehmen sitzen, auf einem drehbaren Globus.
Wohin die Kurve zeigt
Vergangene Trends lassen sich fortschreiben, sicher ist daran nichts. Zwei belastbare Datenreihen und die weite Bandbreite seriöser Experten-Prognosen, ehrlich als das gekennzeichnet, was sie sind.
Gemessen bis Ende 2025. Der Aufgabenhorizont verdoppelt sich langfristig etwa alle sieben, zuletzt alle vier Monate. METR erwartet Monatsprojekte „zum Ende des Jahrzehnts“ (Bandbreite etwa 2027 bis 2031). Logarithmische Achse, Fortschreibung ist keine Garantie.
Diese Schätzungen messen Unterschiedliches (Szenario, Markt, Modellrechnung, Umfrage) und reichen deshalb von ~2027 bis 2047. Die vollständige Automatisierung aller Berufe sieht dieselbe Forscher-Umfrage erst um 2116. Prognosen sind keine Garantien.
Die komplette Zeitleiste
Kuratierte Meilensteine vom Deep-Learning-Durchbruch 2012 bis zu fundierten Prognosen für 2040, filterbar nach Modalität, Lizenz, Entwickler und Jahr.
Bio-Anchors: transformative KI um 2040
Ajeya Cotras „Biological Anchors“ verorten transformative KI im Median um 2040, von ursprünglich 2050 nach vorn korrigiert. Eine von mehreren Modellschätzungen mit weiter Streuung.
Märkte erwarten erste allgemeine KI
Prognosemärkte und die Metaculus-Community verorten die erste allgemeine KI im Median um 2033, mit großer Spanne (etwa 2027 bis 2043). Diese Schätzung ist seit 2020 um über 25 Jahre nach vorn gewandert.
Modellrechnung: transformative KI
Epochs „Direct Approach“ extrapoliert Skalierungsgesetze und schätzt transformative KI im Median um 2033, allerdings stark annahmeabhängig (plausibel 2033 bis 2076).
Trainingsläufe erreichen 2·10²⁹ FLOP
Epoch AI hält bis 2030 Trainingsläufe von rund 2·10²⁹ FLOP für machbar, etwa 10.000-mal mehr als GPT-4. Zuerst limitiert die Stromversorgung, dann die Chip-Produktion.
Agenten bewältigen Monatsprojekte
Hält METRs Aufgabenhorizont sein Tempo (Verdopplung alle vier bis sieben Monate), erledigen Agenten um 2030 Aufgaben autonom, die Menschen einen Monat kosten. Bandbreite je nach Trend: etwa 2027 bis 2031.
Szenario: ein „Superhuman Coder“
Das Forecasting-Szenario „AI 2027“ verortet im März 2027 ein System, das jede Programmieraufgabe schneller und günstiger löst als die besten Menschen. Ein Szenario, kein Mittelwert: Die Autoren nennen inzwischen eher 2030.
Claude Fable 5 und Mythos 5: die Mythos-Klasse
Anthropic startet Fable 5 und Mythos 5, eine neue Klasse über Opus mit 1 Million Token Kontext. Wenige Tage später suspendiert eine US-Exportkontroll-Anordnung den Zugang.
MiniMax M3: 1 Million Token aus Shanghai
Das Shanghaier Labor MiniMax bringt mit M3 ein API-Modell mit 1 Million Token Kontext. Ein weiterer chinesischer Anbieter rückt an die Spitze.
Mistral Medium 3.5: auf Programmieren getrimmt
Mistral AI aktualisiert seine Medium-Reihe mit einem auf Programmieren ausgerichteten API-Modell. Die Parameterzahl bleibt unveröffentlicht.
Kimi K2.7 Code: offenes Coding-Modell
Moonshot AI veröffentlicht Kimi K2.7 Code, ein offenes MoE-Modell mit 1 Billion Parametern (32 Milliarden aktiv) und 256.000 Token Kontext, bei dem der Denkmodus dauerhaft aktiv ist.
GPT-5.6: Sol, Terra und Luna
OpenAI zeigt die GPT-5.6-Familie. Das Spitzenmodell Sol erreicht 88,8 % bei Terminal-Bench 2.1 (Ultra-Modus 91,9 %) und startet zunächst als begrenzte Vorschau für rund 20 Partner.
Claude Opus 4.8: Dynamic Workflows
Anthropic veröffentlicht Opus 4.8 mit hunderten parallelen Subagenten pro Session, Effort Control und einem dreimal günstigeren Fast Mode. SWE-bench Verified steigt auf 88,6 %.
Gemini 3.5 Flash: schnelles Multitalent
Auf der Google I/O 2026 erscheint Gemini 3.5 Flash mit viermal schnellerer Ausgabe und starken Werten bei agentischen Benchmarks.
Claude Opus 4.7: Adaptive Thinking und Task Budgets
Anthropic veröffentlicht Opus 4.7 mit neuem Tokenizer, Adaptive Thinking, Task Budgets für Agenten und höher aufgelöster Bildverarbeitung. SWE-bench Verified: 87,6 %.
GPT-5.5: agentische Workflows über Stunden
GPT-5.5 plant und nutzt Werkzeuge eigenständig über lange Aufgaben hinweg, erreicht 82,7 % bei Terminal-Bench 2.0 und braucht dabei deutlich weniger Token.
DeepSeek-V4-Pro: 1,6 Billionen Parameter, offen
DeepSeek veröffentlicht ein offenes MoE-Modell mit 1,6 Billionen Parametern (49 Milliarden aktiv) unter MIT-Lizenz. Offene Modelle erreichen Billionengröße.
Kimi K2.6: offenes Billionenmodell aus China
Moonshot AI veröffentlicht Kimi K2.6 mit 1 Billion Parametern, nativer INT4-Quantisierung und 262.000 Token Kontext unter einer modifizierten MIT-Lizenz.
Qwen 3.6 Max: Alibabas Billionen-MoE
Alibaba bringt Qwen 3.6 Max-Preview, ein Sparse-MoE-Modell mit rund einer Billion Parametern, integriertem Denkmodus und 262.000 Token Kontext.
GPT-5.4: OpenAI hält das Tempo
OpenAI schiebt GPT-5.4 nach, mit 92,8 % bei GPQA Diamond und Verbesserungen bei Wissen und Mehrsprachigkeit.
GPT-5.3-Codex: Coden und Reasoning vereint
OpenAI vereint erstmals Frontier-Coding und professionelles Reasoning in einem Modell. Es arbeitet rund 25 % schneller als sein Vorgänger.
Claude 4.6: 1 Million Token und Agent Teams
Anthropic veröffentlicht Opus 4.6 und Sonnet 4.6 mit 1 Million Token Kontext. Opus 4.6 erreicht 76 % beim MRCR-v2-Benchmark und koordiniert „Agent Teams“.
Gemini 3.1 Pro: doppelter Reasoning-Sprung
Google veröffentlicht Gemini 3.1 Pro mit mehr als doppelter Reasoning-Leistung gegenüber Gemini 3 Pro und einem Rekordwert von 94,3 % bei GPQA Diamond.
Gemini 3 Pro: Googles nächster großer Sprung
Google veröffentlicht Gemini 3 Pro mit deutlich verbessertem Reasoning und multimodalem Verständnis und setzt neue Bestwerte.
GPT-5.2: schnellere Antworten auf GPT-5-Basis
OpenAI legt mit GPT-5.2 nach und verbessert Geschwindigkeit und Reasoning gegenüber dem ursprünglichen GPT-5.
DeepSeek-V3.2: günstige offene Spitzenleistung
DeepSeek aktualisiert sein offenes MoE-Modell und hält den Abstand zu den proprietären Spitzenmodellen klein, zu einem Bruchteil der Kosten.
Mistral Large 3: Europas Spitzenmodell
Das Pariser Unternehmen Mistral veröffentlicht ein 675-Milliarden-MoE-Modell und hält die europäische Fahne im KI-Wettlauf hoch.
Claude Opus 4.5: neues Flaggschiff
Anthropic veröffentlicht Claude Opus 4.5 und festigt seine Position bei agentischen und Coding-Aufgaben.
Claude Sonnet 4.5: stundenlange Agentenläufe
Anthropic veröffentlicht Claude Sonnet 4.5, das laut eigenen Angaben über 30 Stunden hinweg eigenständig an komplexen Aufgaben arbeiten kann.
Sora 2 und die eigene Social-App
OpenAI bringt Sora 2 mit synchronem Ton und eine eigene App für KI-Videos. Cameos lassen Nutzer sich selbst in generierte Clips setzen.
GPT-5: ein Modell für alles
OpenAI bringt GPT-5, das schnelle Antworten und tiefes Reasoning automatisch je nach Aufgabe kombiniert. Der manuelle Wechsel zwischen Modellen entfällt.
Nano Banana: Bildbearbeitung per Sprache
Googles Bildmodell mit dem Spitznamen „Nano Banana“ bearbeitet Fotos konsistent über mehrere Schritte hinweg. Gezieltes Editieren statt Neugenerieren wird zum Standard.
Grok 4: xAI an der Benchmark-Spitze
xAI veröffentlicht Grok 4 und meldet Spitzenwerte bei mehreren Reasoning-Benchmarks. Der GPU-Cluster Colossus zahlt sich aus.
Claude Opus 4 und Sonnet 4: agentisches Coden
Anthropic veröffentlicht Claude Opus 4 und Sonnet 4, die über Stunden hinweg eigenständig an Code arbeiten können. Claude setzt sich beim Programmieren an die Spitze.
Google Veo 3: Video mit synchronem Ton
Veo 3 erzeugt erstmals Clips inklusive passender Geräusche und Dialoge. Generiertes Video wird von echtem Filmmaterial kaum noch zu unterscheiden.
Llama 4: Metas Mixture-of-Experts-Generation
Meta stellt Llama 4 Scout und Maverick als offene MoE-Modelle vor, Scout mit einem Kontextfenster von zehn Millionen Token.
OpenAI o3 und o4-mini: Reasoning mit Werkzeugen
OpenAI veröffentlicht o3 und o4-mini, die während des Denkens eigenständig Werkzeuge wie Websuche und Code nutzen. Agentisches Reasoning wird Standard.
ChatGPT-Bildgenerierung: der „Ghibli“-Moment
OpenAI integriert native Bildgenerierung in GPT-4o. Millionen verwandeln Fotos in Anime-Stile, die Server stoßen tagelang an ihre Grenzen.
Gemini 2.5 Pro: Google übernimmt die Spitze
Google veröffentlicht Gemini 2.5 Pro, das in vielen Ranglisten erstmals klar vorn liegt. Der Konzern ist zurück im Rennen um das beste Modell.
Claude 3.7 Sonnet: erstes Hybrid-Reasoning-Modell
Anthropic vereint schnelle Antworten und sichtbares Nachdenken in einem Modell. Nutzer steuern selbst, wie lange Claude für eine Aufgabe „denkt“.
Claude Code: agentisches Programmieren im Terminal
Anthropic stellt Claude Code vor, einen Agenten, der im Terminal ganze Aufgaben über viele Dateien hinweg übernimmt. Es wird zum Vorbild für agentisches Coden.
Häufige Fragen zur Geschichte der KI
Die wichtigsten Fragen zur Entwicklung von KI-Modellen und Tools.
Vorgeschichte & Zukunftsprognosen
- • Deep-Learning-Vorgeschichte ergänzt: Meilensteine von AlexNet (2012) bis AlphaGo und WaveNet (2016)
- • Neue Prognose-Sektion mit Trend-Extrapolation (METR-Aufgabenhorizont, Epoch-Compute) und Quellen
- • Zukunftsprognosen 2027-2040 als markierte Einträge in der Zeitleiste, mit Unsicherheitsbändern
Erstveröffentlichung
- • Interaktive Zeitleiste mit Meilensteinen der generativen KI von 2017 bis 2026
- • Filter nach Modalität, Lizenz, Entwickler und Jahr, plus Zeitstrahl- und Kachelansicht
- • Statistik-Dashboard mit Charts zur Intelligenz-Explosion (GPQA, SWE-bench, Parameter, Kontext)
- • Benchmark-Werte älterer Modelle einzeln mit Quelle belegt