Large Language Models sind das Herz der KI-Revolution. Aber wie viele gibt es eigentlich? Wer baut sie? Was kosten sie? Und welches Modell ist wirklich das beste?
Die ehrliche Antwort:
Es ist unübersichtlich geworden. Im Jahr 2026 erscheint im Schnitt jeden Monat ein neues Spitzenmodell, die Preise schwanken um den Faktor 600, und ausgerechnet die wichtigste Kennzahl der letzten Jahre, die Parameterzahl, geben die großen Labore gar nicht mehr heraus.
In diesem Artikel sortiere ich die Zahlen. Alle Werte stammen aus unserer zentral gepflegten LLM-Datenbank, die hinter Tools wie dem API-Kostenrechner steht, und sind auf dem Stand Juni 2026.
- In unserer Datenbank sind 93 LLMs von 16 Anbietern erfasst, davon 48 proprietär und 45 offen verfügbar.
- Bei Coding führen GPT-5.5 und Claude Opus 4.8 mit rund 88,6 % SWE-bench. Open-Weights-Modelle wie DeepSeek-V4-Pro liegen nur noch 8 Prozentpunkte zurück.
- Die Preise reichen von 0,05 USD (GPT-5 nano) bis 30 USD (GPT-5.5 Pro) pro 1 Million Input-Tokens. Parameterzahlen geben die Frontier-Labore nicht mehr an.
1. Wie viele große Sprachmodelle gibt es 2026?
In unserer Datenbank sind aktuell 93 große Sprachmodelle von 16 verschiedenen Anbietern erfasst, von GPT-2 aus dem Jahr 2019 bis zu den aktuellen Flaggschiffen vom Juni 2026. Das ist bewusst eine kuratierte Auswahl der wichtigsten Modelle und kein Anspruch auf Vollständigkeit.
Zur Einordnung:
Laut dem Stanford AI Index 2026 haben allein US-Labore im Jahr 2025 rund 50 nennenswerte Modelle veröffentlicht, chinesische Anbieter etwa 30. Über 90 % aller bedeutenden Frontier-Modelle stammen mittlerweile aus der Industrie, nicht mehr aus der akademischen Forschung. Der Markt hat sich also professionalisiert und konzentriert.
2. Die größten LLM-Anbieter nach Modellanzahl
Ein einfacher Indikator dafür, wie aktiv ein Labor ist, ist die Zahl der Modelle, die es pflegt. Die folgende Grafik zeigt, wie viele der von uns erfassten Modelle auf welchen Anbieter entfallen:
OpenAI führt mit 18 Modellen, gefolgt von Anthropic und Google mit jeweils 13. Diese Zahl misst allerdings nur die Pflegetiefe der Modellpalette, nicht die tatsächliche Nutzung. Bei den realen Marktanteilen sieht das Bild anders aus: Im Web-Traffic der KI-Chatbots dominiert ChatGPT, während Gemini und Claude dahinter folgen.
3. Parameter und Architektur: das Ende der Größenangaben
Jahrelang galt die Parameterzahl als wichtigste Kennzahl eines Modells. GPT-3 hatte 175 Milliarden, GPT-4 schätzungsweise 1,76 Billionen. Doch dann hörten die Labore auf, diese Zahl zu nennen.
Heute gilt:
Bei allen aktuellen Frontier-Modellen von OpenAI, Anthropic, Google und xAI ist die Parameterzahl offiziell unbekannt. Modellgröße ist zum Geschäftsgeheimnis geworden. Konkrete, bestätigte Zahlen gibt es nur noch bei Open-Weights-Modellen, und die sind riesig:
Auffällig ist die Architektur. Fast alle großen Modelle nutzen heute ein Mixture-of-Experts-Design (MoE), bei dem pro Anfrage nur ein Bruchteil der Parameter aktiv ist. DeepSeek-V4-Pro hat zwar 1,6 Billionen Parameter, aktiviert davon aber nur 49 Milliarden pro Token, also rund 3 %. Das macht riesige Modelle bezahlbar im Betrieb. Insgesamt sind 22 der erfassten Modelle als MoE gebaut.
Die vollständige Parameter-Datenbank kannst du hier nach Anbieter, Größe und Typ filtern und durchsuchen. Bei den meisten aktuellen Frontier-Modellen steht in der Spalte Parameter bewusst „unbekannt“:
Legende:
Zeige 93 Modelle
Modell | Entwickler | Parameter |
|---|---|---|
GPT-5.5 | OpenAI | Unbekannt |
GPT-5.5 Pro | OpenAI | Unbekannt |
GPT-5.5 Instant | OpenAI | Unbekannt |
GPT-5.4 | OpenAI | Unbekannt |
GPT-5.3-Codex | OpenAI | Unbekannt |
GPT-5.2 | OpenAI | Unbekannt |
GPT-5 | OpenAI | Unbekannt |
GPT-5 pro | OpenAI | Unbekannt |
GPT-5 mini | OpenAI | Unbekannt |
GPT-3.5 Turbo | OpenAI | Unbekannt |
o3 | OpenAI | Unbekannt |
o4-mini | OpenAI | Unbekannt |
o1 | OpenAI | Unbekannt |
Claude Fable 5 | Anthropic | Unbekannt |
Claude Mythos 5 | Anthropic | Unbekannt |
Claude Opus 4.8 | Anthropic | Unbekannt |
Claude Opus 4.7 | Anthropic | Unbekannt |
Claude Opus 4.6 | Anthropic | Unbekannt |
Claude Sonnet 4.6 | Anthropic | Unbekannt |
Claude Opus 4.5 | Anthropic | Unbekannt |
Claude Sonnet 4.5 | Anthropic | Unbekannt |
Claude Sonnet 4 | Anthropic | Unbekannt |
Gemini 3.5 Flash MoE | Unbekannt | |
Gemini 3.1 Pro MoE | Unbekannt | |
Gemini 3 Pro MoE | Unbekannt | |
Gemini 2.0 Flash MoE | Unbekannt | |
Gemini 1.5 Pro MoE | Unbekannt | |
Grok 4 | xAI | Unbekannt |
Grok 3 | xAI | Unbekannt |
Grok 2 | xAI | Unbekannt |
Claude 3 Opus | Anthropic | 2 Billionen* |
Llama 4 Behemoth MoE(288 Mrd. aktiv) | Meta | 2 Billionen |
GPT-4 MoE(220 Mrd. aktiv) | OpenAI | 1,76 Billionen* |
DeepSeek-V4-Pro MoE(49 Mrd. aktiv) | DeepSeek | 1,6 Billionen |
Kimi K2.6 MoE(32 Mrd. aktiv) | Moonshot AI | 1 Billionen |
Qwen 3.6 Max-Preview MoE | Alibaba | 1 Billionen* |
Yi-Large MoE | 01.AI | 1 Billionen |
DeepSeek-V3.2 MoE(37 Mrd. aktiv) | DeepSeek | 685 Mrd. |
Mistral Large 3 MoE(41 Mrd. aktiv) | Mistral AI | 675 Mrd. |
DeepSeek-V3 MoE(37 Mrd. aktiv) | DeepSeek | 671 Mrd. |
DeepSeek-R1 MoE(37 Mrd. aktiv) | DeepSeek | 671 Mrd. |
PaLM | 540 Mrd. | |
Megatron-Turing NLG | NVIDIA | 530 Mrd. |
Llama 3.1 405B | Meta | 405 Mrd. |
Llama 4 Maverick MoE(17 Mrd. aktiv) | Meta | 400 Mrd. |
Nemotron-4 340B | NVIDIA | 340 Mrd. |
PaLM 2 | 340 Mrd.* | |
Grok 1 MoE(86 Mrd. aktiv) | xAI | 314 Mrd. |
DeepSeek-V2 MoE(21 Mrd. aktiv) | DeepSeek | 236 Mrd. |
GPT-4o | OpenAI | 200 Mrd.* |
Falcon 180B | TII | 180 Mrd. |
Mixtral 8x22B MoE(44 Mrd. aktiv) | Mistral AI | 176 Mrd. |
BLOOM | BigScience | 176 Mrd. |
GPT-3 | OpenAI | 175 Mrd. |
Claude 3.5 Sonnet | Anthropic | 175 Mrd.* |
OPT-175B | Meta | 175 Mrd. |
LaMDA | 137 Mrd. | |
DBRX MoE(36 Mrd. aktiv) | Databricks | 132 Mrd. |
Mistral Large 2 | Mistral AI | 123 Mrd. |
Command A | Cohere | 111 Mrd. |
Llama 4 Scout MoE(17 Mrd. aktiv) | Meta | 109 Mrd. |
Command R+ | Cohere | 104 Mrd. |
Qwen 2.5 72B | Alibaba | 72 Mrd. |
Claude 3 Sonnet | Anthropic | 70 Mrd.* |
Llama 3.3 70B | Meta | 70 Mrd. |
Llama 3.1 70B | Meta | 70 Mrd. |
Llama 3 70B | Meta | 70 Mrd. |
Llama 2 70B | Meta | 70 Mrd. |
Mixtral 8x7B MoE(14 Mrd. aktiv) | Mistral AI | 56 Mrd. |
Falcon 40B | TII | 40 Mrd. |
Yi-34B | 01.AI | 34 Mrd. |
Qwen 2.5 32B | Alibaba | 32 Mrd. |
Command R | Cohere | 32 Mrd. |
Gemma 2 27B | 27 Mrd. | |
Claude 3 Haiku | Anthropic | 20 Mrd.* |
Qwen 2.5 14B | Alibaba | 14 Mrd. |
Phi-4 | Microsoft | 14 Mrd. |
Gemma 2 9B | 9 Mrd. | |
GPT-4o mini | OpenAI | 8 Mrd.* |
Llama 3.1 8B | Meta | 8 Mrd. |
Llama 3 8B | Meta | 8 Mrd. |
Ministral 8B | Mistral AI | 8 Mrd. |
Mistral 7B | Mistral AI | 7 Mrd. |
Qwen 2.5 7B | Alibaba | 7 Mrd. |
Phi-4 Multimodal | Microsoft | 5,6 Mrd. |
Phi-4 mini | Microsoft | 3,8 Mrd. |
Phi-3 mini | Microsoft | 3,8 Mrd. |
Gemini Nano 2 | 3,3 Mrd. | |
Ministral 3B | Mistral AI | 3 Mrd. |
Gemma 2 2B | 2 Mrd. | |
Gemini Nano 1 | 1,8 Mrd. | |
GPT-2 | OpenAI | 1,5 Mrd. |
Qwen 2.5 0.5B | Alibaba | 0,5 Mrd. |
Parameter-Größen bekannter Large Language Models (Stand: Mai 2026)
4. Kontextfenster: von 200.000 bis 10 Millionen Tokens
Das Kontextfenster bestimmt, wie viel Text ein Modell auf einmal verarbeiten kann. Hier haben sich die Größenordnungen in den letzten zwei Jahren vervielfacht. Die folgende Übersicht zeigt über 140 aktuelle Modelle, sortierbar und nach Anbieter filterbar:
Modell | Entwickler | Kontextfenster |
|---|---|---|
| Meta | 10 Mio. | |
| Alibaba | 10 Mio. | |
2 Mio. | ||
2 Mio. | ||
| xAI | 2 Mio. | |
| xAI | 2 Mio. | |
| Meta | 1 Mio. | |
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
1 Mio. | ||
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| Anthropic | 1 Mio. | |
| OpenAI | 1 Mio. | |
| OpenAI | 1 Mio. | |
| OpenAI | 1 Mio. | |
| OpenAI | 1 Mio. | |
| OpenAI | 1 Mio. | |
| DeepSeek | 1 Mio. | |
| Alibaba | 1 Mio. | |
| Alibaba | 1 Mio. | |
| Amazon | 1 Mio. | |
| Amazon | 1 Mio. | |
| Amazon | 1 Mio. | |
| MiniMax | 1 Mio. | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| OpenAI | 400.000 | |
| Amazon | 300.000 | |
| Amazon | 300.000 | |
| Moonshot AI | 262.144 | |
| Alibaba | 262.144 | |
| Alibaba | 262.144 | |
| xAI | 256.000 | |
| xAI | 256.000 | |
| Mistral | 256.000 | |
| Mistral | 256.000 | |
| Alibaba | 256.000 | |
| Cohere | 256.000 | |
| Cohere | 256.000 | |
| AI21 Labs | 256.000 | |
| AI21 Labs | 256.000 | |
| AI21 Labs | 256.000 | |
| MiniMax | 245.760 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| Anthropic | 200.000 | |
| OpenAI | 200.000 | |
| OpenAI | 200.000 | |
| OpenAI | 200.000 | |
| OpenAI | 200.000 | |
| 01.AI | 200.000 | |
| 01.AI | 200.000 | |
| xAI | 131.072 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
| Meta | 128.000 | |
128.000 | ||
128.000 | ||
128.000 | ||
| xAI | 128.000 | |
| OpenAI | 128.000 | |
| OpenAI | 128.000 | |
| OpenAI | 128.000 | |
| OpenAI | 128.000 | |
| OpenAI | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| DeepSeek | 128.000 | |
| Mistral | 128.000 | |
| Mistral | 128.000 | |
| Mistral | 128.000 | |
| Mistral | 128.000 | |
| Mistral | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Alibaba | 128.000 | |
| Cohere | 128.000 | |
| Cohere | 128.000 | |
| Amazon | 128.000 | |
| Microsoft | 128.000 | |
| Microsoft | 128.000 | |
| Microsoft | 128.000 | |
| Microsoft | 128.000 | |
| Microsoft | 128.000 | |
| Microsoft | 128.000 | |
| 01.AI | 128.000 | |
| 01.AI | 128.000 | |
| Nvidia | 128.000 | |
| Nvidia | 128.000 | |
| Nvidia | 128.000 | |
| Reka | 128.000 | |
| Reka | 128.000 | |
| Reka | 128.000 | |
| Zhipu AI | 128.000 | |
| Zhipu AI | 128.000 | |
| Baidu | 128.000 | |
| Mistral | 65.536 | |
| Microsoft | 64.000 | |
| Mistral | 32.768 | |
| Mistral | 32.768 | |
| Alibaba | 32.768 | |
| Alibaba | 32.768 | |
| Alibaba | 32.768 | |
| Microsoft | 32.768 | |
| Databricks | 32.768 | |
32.000 | ||
| 01.AI | 32.000 | |
| Microsoft | 16.384 | |
| 01.AI | 16.000 | |
8.192 | ||
8.192 | ||
| OpenAI | 8.192 | |
| AI21 Labs | 8.192 | |
| Zhipu AI | 8.192 | |
| Baidu | 8.000 | |
| Cohere | 4.096 | |
| Nvidia | 4.096 | |
| Stability AI | 4.096 | |
| Stability AI | 4.096 |
Kontextfenster-Größen aktueller KI-Sprachmodelle (Stand: Mai 2026)
Die Spitze bilden Llama 4 Scout und Qwen-Long mit jeweils 10 Millionen Tokens. Das entspricht etwa 30 Bänden Harry Potter in einem einzigen Prompt. Die aktuellen Allrounder wie GPT-5.5, Claude Opus 4.8 und Gemini 3.1 Pro liegen bei 1 Million Tokens, was für die meisten Anwendungen mehr als ausreicht. Mehr zu den einzelnen Modellfamilien findest du in unseren Übersichten zu den Claude-Modellen und Gemini-Modellen.
5. Was kostet ein LLM? Preise pro 1 Million Tokens
Bei den API-Preisen liegen Welten zwischen den Modellen. Das günstigste Modell mit API-Zugang ist GPT-5 nano mit 0,05 USD pro 1 Million Input-Tokens. Das teuerste ist GPT-5.5 Pro mit 30 USD, also dem 600-Fachen.
Spannender als der reine Preis ist aber das Verhältnis von Preis zu Leistung. Die folgende Grafik trägt den Input-Preis gegen die Coding-Leistung (SWE-bench Verified) ab. Modelle unten rechts sind ideal: stark und günstig.
Der heimliche Star dieser Grafik ist DeepSeek-V4-Pro. Mit 80,6 % SWE-bench bei nur 0,435 USD Input-Preis liegt das Modell auf der Effizienz-Grenze, kein anderes Modell ist gleichzeitig stärker und günstiger. Wer also nicht zwingend die letzten Prozentpunkte Coding-Leistung braucht, bekommt mit den offenen Modellen ein extrem gutes Preis-Leistungs-Verhältnis. Eine ausführliche Kostenrechnung für deine konkrete Nutzung liefert der API-Kostenrechner.
6. LLM-Leistung im Direktvergleich
Um die Stärken und Schwächen der Spitzenmodelle auf einen Blick sichtbar zu machen, vergleicht das folgende Radar fünf repräsentative Frontier-Modelle über vier Dimensionen: Reasoning, Coding, Kontextfenster und Preis-Effizienz. Jede Achse ist relativ zu den fünf Modellen skaliert, damit auch kleine Vorsprünge sichtbar werden. Die echten Werte erscheinen im Tooltip.
Das Muster ist klar erkennbar. Claude Opus 4.8 und GPT-5.5 dominieren bei der reinen Coding-Leistung, sind aber teuer. Gemini 3.5 Flash dreht das um, denn beim Reasoning liegt es fast auf Augenhöhe und nur beim Coding zurück, dafür die beste Preis-Effizienz im Feld. Auf diese eine Abwägung läuft jedes KI-Projekt am Ende hinaus, maximale Qualität gegen maximale Wirtschaftlichkeit.
7. Open Source gegen proprietär
Eine der wichtigsten Entwicklungen 2026 ist das Aufholen der offenen Modelle. Von den 93 erfassten Modellen sind 48 proprietär und 45 offen verfügbar, davon 40 mit offenen Gewichten und 5 vollständig quelloffen.
Aber an der absoluten Spitze:
Laut Stanford AI Index 2026 führte das beste geschlossene Modell Anfang 2026 mit 3,3 Prozentpunkten vor dem besten Open-Weights-Modell. Im August 2024 waren es nur 0,5 Prozentpunkte gewesen. An der Spitze ist der Abstand also nicht geschrumpft, sondern wieder gewachsen, denn sechs der zehn besten Modelle in der Chatbot Arena sind inzwischen wieder geschlossen. In unseren Daten zeigt sich derselbe Vorsprung beim Coding: DeepSeek-V4-Pro (80,6 % SWE-bench) und Kimi K2.6 (80,2 %) liegen rund 8 Prozentpunkte hinter dem geschlossenen Spitzenreiter GPT-5.5 (88,7 %). Eine Übersicht der besten freien Modelle findest du in unserem Artikel zu den Open-Source-LLMs.
8. Wissensstand: Wie aktuell sind die Modelle?
Jedes Modell hat einen Wissens-Stichtag, nach dem es nichts mehr über die Welt gelernt hat. Aktuell liegt der frischeste Stichtag in unserer Datenbank im Oktober 2025:
Zwischen dem Wissens-Stichtag und der Veröffentlichung liegen meist sechs bis acht Monate, in denen das Modell trainiert und getestet wird. Für aktuelle Ereignisse brauchen die Modelle deshalb fast immer eine Websuche. Reines Modellwissen ist immer ein paar Monate alt.
9. Release-Tempo: Die Schlagzahl der Labore
Wie schnell sich der Markt dreht, zeigt die Release-Timeline. Was 2024 noch im Quartalsrhythmus passierte, kommt 2026 fast monatlich:
Besonders dicht war der Dezember 2025, als Google, OpenAI und Mistral im selben Monat neue Flaggschiffe veröffentlichten. Und der April 2026, in dem mit GPT-5.5, Claude Opus 4.7, DeepSeek-V4-Pro, Kimi K2.6 und Qwen 3.6 Max gleich fünf Spitzenmodelle erschienen. Wer hier den Überblick behalten will, sollte sich nicht zu sehr an einzelne Versionsnummern klammern.
10. Modell-Status: aktiv, veraltet, Legacy
Nicht jedes Modell, das je veröffentlicht wurde, ist noch nutzbar. Über die drei großen Anbieter Anthropic, Google und OpenAI verfolgen wir den Lebenszyklus von 77 Modellen. So verteilen sie sich auf die einzelnen Status:
Gut die Hälfte der Modelle ist noch aktiv, knapp ein Drittel bereits veraltet. Und die Lebenszyklen werden kürzer. Ein gutes Beispiel ist Gemini 3 Pro, das nur rund drei Monate nach seiner Veröffentlichung schon wieder abgekündigt wurde, weil mit Gemini 3.1 Pro ein Nachfolger bereitstand. Wer produktiv auf einem Modell aufbaut, muss diese Abkündigungen aktiv im Blick behalten.
11. Marktposition und Fazit
Der LLM-Markt 2026 ist erwachsen geworden. Statt eines einzelnen dominierenden Modells gibt es ein knappes Spitzenfeld aus OpenAI, Anthropic und Google, dicht verfolgt von offenen Modellen aus China, allen voran DeepSeek und Moonshot.
Unterm Strich:
Die Leistung an der Spitze ist erstaunlich nah beieinander, der Wettbewerb verlagert sich auf Preis, Kontextlänge und Spezialisierung. Für die meisten Anwendungen kommt es 2026 weniger auf das absolut beste Modell an als auf das richtige für den jeweiligen Zweck und das Budget. Wer tiefer in einzelne Anbieter einsteigen will, findet die Details in unseren Statistiken zu OpenAI, Anthropic, Google Gemini, Grok und DeepSeek.






