Google Gemini hat sich seit dem Launch im Dezember 2023 als einer der stärksten Konkurrenten zu ChatGPT und Claude etabliert.
Die Evolution ist beeindruckend: Angefangen bei den ersten 1.0-Modellen, dann die großen 1.5-Versionen mit 2 Millionen Token Kontext, über die 2.5-Modelle bis zum neuesten Gemini 3.1 Pro. Jede Generation hat das Vorherige übertroffen.
Aber welches Gemini-Modell ist das richtige für deine Anwendung? Was unterscheidet Pro von Flash? Und wie schneidet Gemini im Vergleich zu ChatGPT und Claude ab?
In diesem Artikel erkläre ich dir alles Wichtige zu den verschiedenen Gemini-Modellen, ihren Features, Preisen und Verfügbarkeit.
- Gemini 3.1 Pro (Februar 2026) ist das neueste und leistungsstärkste Modell mit 94,3 % auf GPQA Diamond und 80,6 % auf SWE-bench, ein 2x Reasoning-Sprung gegenüber Vorgängern
- Gemini 2.5 Flash-Lite bleibt das günstigste leistungsstarke LLM am Markt (0,10 $/0,40 $ pro Million Token) mit bester Balance aus Geschwindigkeit, Kosten und Qualität
- Alle modernen Gemini-Modelle (ab 1.5) sind nativ multimodal und verarbeiten Text, Bilder, Audio und Video gleichzeitig mit bis zu 1 Million Token Kontext
Was sind Gemini-Modelle?
Gemini-Modelle sind Googles fortschrittliche Large Language Models, die von DeepMind und Google Research entwickelt wurden.
Was macht Gemini anders? Ein paar Dinge fallen sofort auf:
Zum einen: Native Multimodalität von Anfang an. Google hat Gemini mit Text, Bildern, Audio und Video trainiert – nicht wie andere Anbieter, die das nachträglich reingepatcht haben. Das gibt Gemini ein viel tieferes Verständnis für alle diese Modalitäten zusammen.
Dann das Kontextfenster: Gemini 2.5 Pro verarbeitet bis zu 1 Million Token (experimentell auch 2 Millionen). Das sind ungefähr 700.000 Wörter oder über 1.400 Buchseiten. In einem einzigen Request. Das ist... sehr groß.
Google hat auch keine Ein-Modell-Strategie. Stattdessen: Nano für Smartphones, Flash für die meisten Standard-Aufgaben, Pro für anspruchsvolle Sachen. Jedes hat seinen Platz. Und weil Gemini tief in Google Search, Workspace und Android integriert ist, funktioniert es da besonders gut.
Google hat mit Gemini einen anderen Ansatz als OpenAI gewählt: Statt auf maximale Benchmark-Performance zu setzen, liegt der Fokus auf praktischer Vielseitigkeit, Multimodalität und Integration in das Google-Ökosystem.
Vergleich aller Gemini-Modelle
Hier ist eine detaillierte Übersicht aller Gemini-Modelle mit ihren wichtigsten Eigenschaften:
Modell | Veröffentlichung | Kontextfenster | Multimodal | Status |
|---|---|---|---|---|
| Gemini 1.0 Pro | 12/2023 | 32.000 Token | Nein | Eingestellt |
| Gemini 1.0 Ultra | 12/2023 | 32.000 Token | Nein | Eingestellt |
| Gemini 1.5 Pro | 02/2024 | 2 Mio. Token | Ja | Eingestellt |
| Gemini 1.5 Flash | 05/2024 | 1 Mio. Token | Ja | Eingestellt |
| Gemini 2.0 Flash | 09/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Flash-Lite | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Flash | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Pro | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 3 Flash | 12/2025 | 1 Mio. Token | Ja | Aktiv |
| Gemini 3 Pro | 12/2025 | 1 Mio. Token | Ja | Aktiv |
| Gemini 3.1 Pro | 02/2026 | 1 Mio. Token | Ja | Aktiv |
| Gemini Nano-1 | 12/2023 | 4.000 Token | Nein | Aktiv |
| Gemini Nano-2 | 05/2024 | 4.000 Token | Ja | Aktiv |
Gemini 3.1 Pro
Veröffentlicht: Februar 2026Gemini 3.1 Pro ist Googles leistungsstärkstes Modell und markiert einen massiven Reasoning-Sprung gegenüber allen Vorgängern. Seit Februar 2026 ist es allgemein verfügbar über die Gemini API, Google AI Studio und Vertex AI.
Hauptmerkmale:
- 2x Reasoning-Sprung gegenüber Gemini 3 Pro in komplexen Aufgaben
- 94,3 % auf GPQA Diamond (PhD-Level Reasoning), neuer Bestwert
- 80,6 % auf SWE-bench Verified (agentic Coding)
- 1 Million Token Input, bis zu 64.000 Token Output
- Multimodal: Text, Bilder, Audio, Video und PDF
- Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
- Context Caching: 75 % Rabatt auf gecachte Input-Tokens (0,50 $)
- API-String: gemini-3.1-pro
Was macht Gemini 3.1 Pro besonders?
Gemini 3.1 Pro setzt neue Maßstäbe im Reasoning: Mit 94,3 % auf GPQA Diamond übertrifft es alle bisherigen Gemini-Modelle deutlich. Der 2x Reasoning-Sprung gegenüber Gemini 3 Pro zeigt sich besonders bei komplexen wissenschaftlichen Fragestellungen, mehrstufigen Programmieraufgaben und analytischen Herausforderungen.
Auch beim agentic Coding liefert Gemini 3.1 Pro mit 80,6 % auf SWE-bench Verified eine neue Bestmarke. Es kann eigenständig komplexe Software-Probleme lösen, Code refactoren und Multi-File-Änderungen durchführen.
Verfügbarkeit: Gemini 3.1 Pro ist seit Februar 2026 allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es wird als Premium-Modell für anspruchsvolle Research-, Code- und Analyse-Aufgaben positioniert.
Gemini 3 Flash
Veröffentlicht: Dezember 2025Gemini 3 Flash ist Googles ausgewogenes Modell, das Frontier-Intelligenz mit hoher Geschwindigkeit und niedrigen Kosten kombiniert. Seit Dezember 2025 allgemein verfügbar, ist es das Standard-Modell in der Gemini-App.
Hauptmerkmale:
- Frontier-Performance: 90,4 % auf GPQA Diamond (PhD-Level Reasoning), 81,2 % auf MMMU Pro
- Agentic Coding: 78 % auf SWE-bench Verified
- 3x schneller als Gemini 2.5 Pro bei vergleichbarer Qualität
- 15 % besser als Gemini 2.5 Flash in der Gesamtgenauigkeit
- 1 Million Token Input, bis zu 64.000 Token Output
- Multimodal: Text, Bilder, Audio, Video und PDF
- Preis: 0,50 $ Input / 3,00 $ Output pro Million Token
- Context Caching: 90 % Kostenreduktion auf gecachte Tokens (0,05 $ Input)
- API-String: gemini-3-flash
Was macht Gemini 3 Flash besonders?
Gemini 3 Flash bringt Frontier-Intelligenz in ein schnelles, kosteneffizientes Paket. In Benchmarks erreicht es PhD-Level-Reasoning (90,4 % GPQA Diamond) und rivalisiert damit deutlich teurere Modelle.
Google hat Gemini 3 Flash mit neuen Features ausgestattet: Ein "Thinking Level"-Parameter steuert, wie viel internes Reasoning das Modell verwendet. Der "Media Resolution"-Parameter (low bis ultra-high) optimiert die Verarbeitung von Bildern und Videos für verschiedene Anwendungsfälle.
Verfügbarkeit: Gemini 3 Flash ist allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es ist das Standard-Modell in der Gemini-App und AI Mode in Google Search. Unternehmen wie JetBrains, Bridgewater Associates und Figma setzen es produktiv ein.
Gemini 3 Pro
Veröffentlicht: Dezember 2025Gemini 3 Pro ist die dritte Generation von Googles Premium-KI-Modell mit Frontier-Intelligenz, Deep Research und Premium-Performance. Seit Dezember 2025 allgemein verfügbar.
Hauptmerkmale:
- Frontier-Intelligenz von Google DeepMind
- Verbesserte Reasoning-Fähigkeiten gegenüber Gemini 2.5 Pro
- Deep Research für komplexe, mehrstufige Analysen
- Multimodale Verbesserungen besonders bei Video-Verständnis
- 1 Million Token Kontextfenster (Input), bis zu 64.000 Token Output
- Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
- API-String: gemini-3-pro
Verfügbarkeit: Gemini 3 Pro ist allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es wurde inzwischen von Gemini 3.1 Pro als leistungsstärkstes Modell abgelöst, bleibt aber eine solide Wahl für Premium-Aufgaben.
Gemini 2.5 Pro
Veröffentlicht: November 2024Gemini 2.5 Pro war bis Ende 2025 Googles Premium-Variante und bleibt eine solide Wahl für anspruchsvolle Aufgaben. (Mehr zur Gemini API findest du in unserem separaten Guide.)
Was bietet Pro konkret?
- State-of-the-art Performance bei komplizierten Reasoning- und Code-Aufgaben
- 1 Million Token Kontextfenster (experimentell auch 2 Millionen)
- Gestaffelte Preise: 1,25 $ / 10 $ für Standard-Prompts (≤ 128K Token), 2,50 $ / 15 $ für längere
- Native Multimodalität – Text, Bilder, Audio, Video zusammen verarbeiten
- Prompt Caching mit 75 % Rabatt auf gecachte Inputs (0,3125 $ statt 1,25–2,50 $)
- API-Model-String: gemini-2.5-pro
Was macht Gemini 2.5 Pro besonders?
Gemini 2.5 Pro ist Googles Antwort auf Claude 4 Opus und GPT-4o. Es bietet vergleichbare Performance bei komplexen Reasoning-Aufgaben und übertrifft beide Konkurrenten bei der Verarbeitung sehr langer Kontexte. Das 1-Million-Token-Fenster ermöglicht die Analyse kompletter Bücher, großer Codebasen oder stundenlanger Video-Transkripte in einem einzigen API-Call.
Die gestaffelte Preisstruktur macht es wirtschaftlich: Für die meisten Standard-Prompts (≤ 128K Tokens) zahlst du nur 1,25 $ / 10 $ – deutlich günstiger als Claude 4 Opus (15 $ / 75 $) bei vergleichbarer Leistung.
Wo bekommst du es? Die Google AI API, Google AI Studio, Vertex AI oder Google Cloud.
Wann brauchst du Pro? Wenn du ganze Codebases analysieren, lange Research-Paper durchforsten, dickwandige Verträge zusammenfassen oder Stunden-Videos in einem Shot verarbeiten willst. Das ist nicht für Chatbots gedacht – dafür ist Flash da und günstiger.
Gemini 2.5 Flash
Veröffentlicht: November 2024Gemini 2.5 Flash ist die ausgewogene Variante – der Modell-Evergreen der 2.5-Serie. Es liefert 90 % der Pro-Leistung, kostet aber einen Bruchteil und ist deutlich schneller.
Die Eckdaten:
- 90 % der Pro-Performance bei einem Bruchteil der Kosten
- 2–3x schneller als Pro (Inferenz-Speed)
- 1 Million Token Kontext
- 0,30 $ Input / 2,50 $ Output pro Million Token
- Prompt Caching: 0,075 $ für gecachte Inputs
- Multimodal: Text, Bilder, Audio, Video
- API-String: gemini-2.5-flash
Was macht Gemini 2.5 Flash besonders?
Gemini 2.5 Flash ist das ideale Produktionsmodell für 90 % aller Anwendungsfälle. Es bietet nahezu die gleiche Qualität wie Pro (90 % Performance) bei 80 % niedrigeren Kosten und 2-3x schnellerer Response-Zeit. Dies macht es perfekt für Chatbots, Content-Generierung und Automatisierungs-Workflows, wo schnelle Antworten wichtiger sind als die absolut höchste Präzision.
Im Vergleich zu ChatGPT GPT-4o (15 $ / 60 $ pro Million Token) bietet Gemini 2.5 Flash bei ähnlicher Qualität 98 % Kostenersparnis – ein unschlagbares Preis-Leistungs-Verhältnis.
Du findest Flash über Google AI API, Google AI Studio, Vertex AI, Google Cloud – und es ist das Backend-Modell für viele Google-Produkte.
Konkrete Nutzung: Chatbots, die schnell antworten müssen. Content-Generierung (Artikel, Marketing-Texte, Social Posts). Datenextraktion aus ungeordneten Quellen. E-Mail-Klassifizierung, Sentiment-Analysen, Zusammenfassungen. Screenshot-Verständnis und OCR. Für all das brauchst du nicht Pro, Flash reicht aus und spart Geld.
Gemini 2.5 Flash-Lite
Veröffentlicht: November 2024Gemini 2.5 Flash-Lite ist was Sache: Das billigste brauchbare LLM am Markt. Und gleichzeitig extrem schnell.
Die wichtigsten Zahlen:
- 0,10 $ Input / 0,40 $ Output pro Million Token (billigste am Markt)
- 5x schneller als Pro-Modelle
- Trotzdem 70–80 % der Flash-Performance
- 1 Million Token Kontext
- Prompt Caching: 0,025 $ für gecachte Inputs
- Multimodal: Text, Bilder, Audio, Video
- API-String: gemini-2.5-flash-lite
Warum ist das so interessant? Es ist 50–60 % billiger als GPT-4o-mini (0,15 $ / 0,60 $) oder Claude 3 Haiku (0,25 $ / 1,25 $). Und es ist nicht langsam – eher das Gegenteil.
Die Qualität? 70–80 % der Flash-Performance für Chatbot-Responses, einfache Textgenerierung und Klassifizierung. Wenn du Millionen von API-Calls täglich brauchst, sind die Kostenersparnisse enorm.
Wo findest du es? Google AI API, Google AI Studio, Vertex AI.
Einsatzszenarien: Chatbots mit Millionen täglich. Content-Moderation im großen Stil. Sentiment-Analysen, Kategorisierung, Tags. Echtzeitanwendungen, wo low Latency wichtig ist. Massive Batch-Processing mit kleinem Budget.
Gemini 2.0 Flash
Veröffentlicht: September 2024Gemini 2.0 Flash ist die ältere Version von Flash. Der Vorteil: Kostenlos mit Rate Limits.
Kurzinfo:
- 100 % kostenlos (Rate Limits: 15 req./min, 1.500 /Tag, 1 Mio /Monat)
- ~80 % der 2.5-Flash-Performance
- 1 Million Token Kontext
- Multimodal: Text, Bilder, Audio
- API-String: gemini-2.0-flash
Einsatz: Prototyping, schnelle Tests, Low-Volume-Anwendungen. Wenn du wirklich Production brauchst ohne Rate Limits, upgrade auf 2.5 Flash.
Gemini 1.5 Pro
Veröffentlicht: Februar 2024Gemini 1.5 Pro war 2024 ein großes Ding: Erstes Modell mit 2 Millionen Token Kontext. Das war damals Weltrekord.
Heute: Es wird am 30. April 2025 abgeschaltet. Wenn du noch 1.5 Pro nutzt, migriere auf 2.5 Pro – bessere Performance, weniger Ärger.
Was 1.5 hatte: 2 Millionen Token (beeindruckend damals). Native Multimodalität. Starke Video- und Dokumentanalyse. Aber das war 2024.
Gemini 1.5 Flash
Veröffentlicht: Mai 2024Gemini 1.5 Flash war quasi die günstigere, schnellere Version von 1.5 Pro. Auch deprecated.
Die Facts: 1 Million Token Kontext. Schnell, niedrige Kosten. Multimodal. Aber auch am 30. April 2025 offline. Nutzer sollten auf 2.5 Flash wechseln.
Gemini 1.0 Pro und Ultra
Veröffentlicht: Dezember 2023Gemini 1.0 war der erste Versuch. Heute: Nicht mehr relevant.
Was war's? 32.000 Token Kontext. Text-only, keine Bilder/Videos. Pro war Standard, Ultra war Premium. Beide sind längst weg. Google hat sie schnell durch 1.5 und 2.x ersetzt – viel bessere Modelle.
Gemini Nano
Veröffentlicht: Dezember 2023 / Mai 2024Gemini Nano ist anders: On-Device KI für Smartphones. Läuft lokal, keine Cloud.
Was wichtig ist:
- On-Device: Direkt auf Smartphones, kein Cloud-Call
- Zwei Varianten: Nano-1 (text-only) und Nano-2 (multimodal)
- 4.000 Token Kontext (klein, aber reicht für Smartphone-Aufgaben)
- Datenschutz: Alles bleibt lokal
- Hardware: Pixel Smartphones, Samsung Galaxy S24+, weitere Android-Devices
- Einsatz: Smart Reply, Live-Transkription, Offline-Übersetzung, Foto-Bearbeitung
Verfügbar: Bereits in verschiedenen Android-Phones integriert. Google rollt es per System-Update aus. Entwickler können AICore API nutzen.
Preisvergleich aller Gemini-Modelle
Die folgende Tabelle zeigt eine detaillierte Übersicht aller Gemini-Preise (alle Angaben in $ pro Million Token). Für eine ausführliche Analyse empfehlen wir unseren API-Kostenrechner:
Modell | Status | Input (Standard) | Output (Standard) | Input (Cached) | Output (Cached) |
|---|---|---|---|---|---|
| Gemini 3.1 Pro | Aktiv | 2,00 $ / 4,00 $ ≤ 200K / > 200K | 12,00 $ / 18,00 $ ≤ 200K / > 200K | 0,50 $ | 12,00 $ / 18,00 $ |
| Gemini 3 Pro | Aktiv | 2,00 $ / 4,00 $ ≤ 200K / > 200K | 12,00 $ / 18,00 $ ≤ 200K / > 200K | 0,50 $ | 12,00 $ / 18,00 $ |
| Gemini 3 Flash | Aktiv | 0,50 $ | 3,00 $ | 0,05 $ | 3,00 $ |
| Gemini 2.5 Pro | Aktiv | 1,25 $ / 2,50 $ ≤ 128K / > 128K | 10 $ / 15 $ ≤ 128K / > 128K | 0,3125 $ | 10 $ / 15 $ |
| Gemini 2.5 Flash | Aktiv | 0,30 $ | 2,50 $ | 0,075 $ | 2,50 $ |
| Gemini 2.5 Flash-Lite | Aktiv | 0,10 $ | 0,40 $ | 0,025 $ | 0,40 $ |
| Gemini 2.0 Flash | Aktiv | Kostenlos (Rate Limits) | Kostenlos (Rate Limits) | — | — |
Wichtige Hinweise zur Preistabelle:
- Gemini 3.1 Pro und 3 Pro haben gestaffelte Preise: Günstigere Preise für Prompts ≤ 200.000 Token (2,00 $ / 12,00 $), höhere Preise für längere Prompts (größer als 200.000 Token: 4,00 $ / 18,00 $)
- Gemini 2.5 Pro hat ebenfalls gestaffelte Preise: 1,25 $ / 10 $ für Prompts ≤ 128.000 Token, 2,50 $ / 15 $ für längere Prompts
- Context Caching (Prompt Caching) ermöglicht 75 % Rabatt auf gecachte Input-Tokens bei wiederholter Nutzung. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $
- Gemini 2.0 Flash ist komplett kostenlos mit Rate Limits: 15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat
- Output-Preise bei Cached Prompts bleiben gleich wie Standard (kein Rabatt auf Output)






