Google Gemini hat sich seit dem Launch im Dezember 2023 als einer der stärksten Konkurrenten zu ChatGPT und Claude etabliert.
Die Evolution ist beeindruckend: Angefangen bei den ersten 1.0-Modellen, dann die großen 1.5-Versionen mit 2 Millionen Token Kontext, bis zu den aktuellen 2.5-Modellen. Jede Generation hat das Vorherige übertroffen.
Aber welches Gemini-Modell ist das richtige für deine Anwendung? Was unterscheidet Pro von Flash? Und wie schneidet Gemini im Vergleich zu ChatGPT und Claude ab?
In diesem Artikel erkläre ich dir alles Wichtige zu den verschiedenen Gemini-Modellen, ihren Features, Preisen und Verfügbarkeit.
- Gemini 2.5 Pro ist das neueste Premium-Modell (November 2024) mit 1 Million Token Kontext und starker Performance bei Code und Analyse für 1,25-2,50 $/10-15 $ pro Million Token
- Gemini 2.5 Flash-Lite ist das günstigste leistungsstarke LLM am Markt (0,10 $/0,40 $ pro Million Token) und bietet beste Balance aus Geschwindigkeit, Kosten und Qualität
- Alle modernen Gemini-Modelle (ab 1.5) sind nativ multimodal und verarbeiten Text, Bilder, Audio und Video gleichzeitig mit bis zu 1 Million Token Kontext
Was sind Gemini-Modelle?
Gemini-Modelle sind Googles fortschrittliche Large Language Models, die von DeepMind und Google Research entwickelt wurden.
Was macht Gemini anders? Ein paar Dinge fallen sofort auf:
Zum einen: Native Multimodalität von Anfang an. Google hat Gemini mit Text, Bildern, Audio und Video trainiert – nicht wie andere Anbieter, die das nachträglich reingepatcht haben. Das gibt Gemini ein viel tieferes Verständnis für alle diese Modalitäten zusammen.
Dann das Kontextfenster: Gemini 2.5 Pro verarbeitet bis zu 1 Million Token (experimentell auch 2 Millionen). Das sind ungefähr 700.000 Wörter oder über 1.400 Buchseiten. In einem einzigen Request. Das ist... sehr groß.
Google hat auch keine Ein-Modell-Strategie. Stattdessen: Nano für Smartphones, Flash für die meisten Standard-Aufgaben, Pro für anspruchsvolle Sachen. Jedes hat seinen Platz. Und weil Gemini tief in Google Search, Workspace und Android integriert ist, funktioniert es da besonders gut.
Google hat mit Gemini einen anderen Ansatz als OpenAI gewählt: Statt auf maximale Benchmark-Performance zu setzen, liegt der Fokus auf praktischer Vielseitigkeit, Multimodalität und Integration in das Google-Ökosystem.
Vergleich aller Gemini-Modelle
Hier ist eine detaillierte Übersicht aller Gemini-Modelle mit ihren wichtigsten Eigenschaften:
Modell | Veröffentlichung | Kontextfenster | Multimodal | Status |
|---|---|---|---|---|
| Gemini 1.0 Pro | 12/2023 | 32.000 Token | Nein | Eingestellt |
| Gemini 1.0 Ultra | 12/2023 | 32.000 Token | Nein | Eingestellt |
| Gemini 1.5 Pro | 02/2024 | 2 Mio. Token | Ja | Eingestellt · 04/2025 |
| Gemini 1.5 Flash | 05/2024 | 1 Mio. Token | Ja | Eingestellt · 04/2025 |
| Gemini 2.0 Flash | 09/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Flash-Lite | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Flash | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 2.5 Pro | 11/2024 | 1 Mio. Token | Ja | Aktiv |
| Gemini 3.0 Pro Preview | 11/2025 | 1 Mio. Token | Ja | Preview |
| Gemini Nano-1 | 12/2023 | 4.000 Token | Nein | Aktiv |
| Gemini Nano-2 | 05/2024 | 4.000 Token | Ja | Aktiv |
Gemini 3.0 Pro Preview
Veröffentlicht: November 2025Gemini 3.0 Pro Preview ist die neueste Generation von Googles KI-Modellen und befindet sich derzeit im Early Access.
Hauptmerkmale:
- Neueste KI-Generation von Google DeepMind
- Vorschau-Zugang für ausgewählte Entwickler und Unternehmen
- Verbesserte Reasoning-Fähigkeiten gegenüber Gemini 2.5
- Multimodale Verbesserungen besonders bei Video-Verständnis
- 1 Million Token Kontextfenster (Input), bis zu 64.000 Token Output
- Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200k Kontext), 4,00 $ / 18,00 $ (über 200k Kontext)
- Zugang über Google AI Studio Early Access Program
Verfügbarkeit: Gemini 3.0 Pro ist derzeit nur als Preview für ausgewählte Partner verfügbar. Die vollständige öffentliche Veröffentlichung wird für Anfang 2026 erwartet. Während der Preview-Phase könnte Google die API-Nutzung für Testzwecke kostenlos anbieten.
Gemini 2.5 Pro
Veröffentlicht: November 2024Gemini 2.5 Pro ist Googles aktuelle Premium-Variante. Es hat die höchste Performance der gesamten Familie – wenn du komplexe Aufgaben lösen musst, ist das dein Modell. (Mehr zur Gemini API findest du in unserem separate Guide.)
Was bietet Pro konkret?
- State-of-the-art Performance bei komplizierten Reasoning- und Code-Aufgaben
- 1 Million Token Kontextfenster (experimentell auch 2 Millionen)
- Gestaffelte Preise: 1,25 $ / 10 $ für Standard-Prompts (≤ 128K Token), 2,50 $ / 15 $ für längere
- Native Multimodalität – Text, Bilder, Audio, Video zusammen verarbeiten
- Prompt Caching mit 75 % Rabatt auf gecachte Inputs (0,3125 $ statt 1,25–2,50 $)
- API-Model-String: gemini-2.5-pro
Was macht Gemini 2.5 Pro besonders?
Gemini 2.5 Pro ist Googles Antwort auf Claude 4 Opus und GPT-4o. Es bietet vergleichbare Performance bei komplexen Reasoning-Aufgaben und übertrifft beide Konkurrenten bei der Verarbeitung sehr langer Kontexte. Das 1-Million-Token-Fenster ermöglicht die Analyse kompletter Bücher, großer Codebasen oder stundenlanger Video-Transkripte in einem einzigen API-Call.
Die gestaffelte Preisstruktur macht es wirtschaftlich: Für die meisten Standard-Prompts (≤ 128K Tokens) zahlst du nur 1,25 $ / 10 $ – deutlich günstiger als Claude 4 Opus (15 $ / 75 $) bei vergleichbarer Leistung.
Wo bekommst du es? Die Google AI API, Google AI Studio, Vertex AI oder Google Cloud.
Wann brauchst du Pro? Wenn du ganze Codebases analysieren, lange Research-Paper durchforsten, dickwandige Verträge zusammenfassen oder Stunden-Videos in einem Shot verarbeiten willst. Das ist nicht für Chatbots gedacht – dafür ist Flash da und günstiger.
Gemini 2.5 Flash
Veröffentlicht: November 2024Gemini 2.5 Flash ist die ausgewogene Variante – der Modell-Evergreen der 2.5-Serie. Es liefert 90 % der Pro-Leistung, kostet aber einen Bruchteil und ist deutlich schneller.
Die Eckdaten:
- 90 % der Pro-Performance bei einem Bruchteil der Kosten
- 2–3x schneller als Pro (Inferenz-Speed)
- 1 Million Token Kontext
- 0,30 $ Input / 2,50 $ Output pro Million Token
- Prompt Caching: 0,075 $ für gecachte Inputs
- Multimodal: Text, Bilder, Audio, Video
- API-String: gemini-2.5-flash
Was macht Gemini 2.5 Flash besonders?
Gemini 2.5 Flash ist das ideale Produktionsmodell für 90 % aller Anwendungsfälle. Es bietet nahezu die gleiche Qualität wie Pro (90 % Performance) bei 80 % niedrigeren Kosten und 2-3x schnellerer Response-Zeit. Dies macht es perfekt für Chatbots, Content-Generierung und Automatisierungs-Workflows, wo schnelle Antworten wichtiger sind als die absolut höchste Präzision.
Im Vergleich zu ChatGPT GPT-4o (15 $ / 60 $ pro Million Token) bietet Gemini 2.5 Flash bei ähnlicher Qualität 98 % Kostenersparnis – ein unschlagbares Preis-Leistungs-Verhältnis.
Du findest Flash über Google AI API, Google AI Studio, Vertex AI, Google Cloud – und es ist das Backend-Modell für viele Google-Produkte.
Konkrete Nutzung: Chatbots, die schnell antworten müssen. Content-Generierung (Artikel, Marketing-Texte, Social Posts). Datenextraktion aus ungeordneten Quellen. E-Mail-Klassifizierung, Sentiment-Analysen, Zusammenfassungen. Screenshot-Verständnis und OCR. Für all das brauchst du nicht Pro, Flash reicht aus und spart Geld.
Gemini 2.5 Flash-Lite
Veröffentlicht: November 2024Gemini 2.5 Flash-Lite ist was Sache: Das billigste brauchbare LLM am Markt. Und gleichzeitig extrem schnell.
Die wichtigsten Zahlen:
- 0,10 $ Input / 0,40 $ Output pro Million Token (billigste am Markt)
- 5x schneller als Pro-Modelle
- Trotzdem 70–80 % der Flash-Performance
- 1 Million Token Kontext
- Prompt Caching: 0,025 $ für gecachte Inputs
- Multimodal: Text, Bilder, Audio, Video
- API-String: gemini-2.5-flash-lite
Warum ist das so interessant? Es ist 50–60 % billiger als GPT-4o-mini (0,15 $ / 0,60 $) oder Claude 3 Haiku (0,25 $ / 1,25 $). Und es ist nicht langsam – eher das Gegenteil.
Die Qualität? 70–80 % der Flash-Performance für Chatbot-Responses, einfache Textgenerierung und Klassifizierung. Wenn du Millionen von API-Calls täglich brauchst, sind die Kostenersparnisse enorm.
Wo findest du es? Google AI API, Google AI Studio, Vertex AI.
Einsatzszenarien: Chatbots mit Millionen täglich. Content-Moderation im großen Stil. Sentiment-Analysen, Kategorisierung, Tags. Echtzeitanwendungen, wo low Latency wichtig ist. Massive Batch-Processing mit kleinem Budget.
Gemini 2.0 Flash
Veröffentlicht: September 2024Gemini 2.0 Flash ist die ältere Version von Flash. Der Vorteil: Kostenlos mit Rate Limits.
Kurzinfo:
- 100 % kostenlos (Rate Limits: 15 req./min, 1.500 /Tag, 1 Mio /Monat)
- ~80 % der 2.5-Flash-Performance
- 1 Million Token Kontext
- Multimodal: Text, Bilder, Audio
- API-String: gemini-2.0-flash
Einsatz: Prototyping, schnelle Tests, Low-Volume-Anwendungen. Wenn du wirklich Production brauchst ohne Rate Limits, upgrade auf 2.5 Flash.
Gemini 1.5 Pro
Veröffentlicht: Februar 2024Gemini 1.5 Pro war 2024 ein großes Ding: Erstes Modell mit 2 Millionen Token Kontext. Das war damals Weltrekord.
Heute: Es wird am 30. April 2025 abgeschaltet. Wenn du noch 1.5 Pro nutzt, migriere auf 2.5 Pro – bessere Performance, weniger Ärger.
Was 1.5 hatte: 2 Millionen Token (beeindruckend damals). Native Multimodalität. Starke Video- und Dokumentanalyse. Aber das war 2024.
Gemini 1.5 Flash
Veröffentlicht: Mai 2024Gemini 1.5 Flash war quasi die günstigere, schnellere Version von 1.5 Pro. Auch deprecated.
Die Facts: 1 Million Token Kontext. Schnell, niedrige Kosten. Multimodal. Aber auch am 30. April 2025 offline. Nutzer sollten auf 2.5 Flash wechseln.
Gemini 1.0 Pro und Ultra
Veröffentlicht: Dezember 2023Gemini 1.0 war der erste Versuch. Heute: Nicht mehr relevant.
Was war's? 32.000 Token Kontext. Text-only, keine Bilder/Videos. Pro war Standard, Ultra war Premium. Beide sind längst weg. Google hat sie schnell durch 1.5 und 2.x ersetzt – viel bessere Modelle.
Gemini Nano
Veröffentlicht: Dezember 2023 / Mai 2024Gemini Nano ist anders: On-Device KI für Smartphones. Läuft lokal, keine Cloud.
Was wichtig ist:
- On-Device: Direkt auf Smartphones, kein Cloud-Call
- Zwei Varianten: Nano-1 (text-only) und Nano-2 (multimodal)
- 4.000 Token Kontext (klein, aber reicht für Smartphone-Aufgaben)
- Datenschutz: Alles bleibt lokal
- Hardware: Pixel Smartphones, Samsung Galaxy S24+, weitere Android-Devices
- Einsatz: Smart Reply, Live-Transkription, Offline-Übersetzung, Foto-Bearbeitung
Verfügbar: Bereits in verschiedenen Android-Phones integriert. Google rollt es per System-Update aus. Entwickler können AICore API nutzen.
Preisvergleich aller Gemini-Modelle
Die folgende Tabelle zeigt eine detaillierte Übersicht aller Gemini-Preise (alle Angaben in $ pro Million Token). Für eine ausführliche Analyse empfehlen wir unseren API-Kostenrechner:
Modell | Status | Input (Standard) | Output (Standard) | Input (Cached) | Output (Cached) |
|---|---|---|---|---|---|
| Gemini 2.5 Pro | Aktiv | 1,25 $ / 2,50 $ ≤ 128K / > 128K | 10 $ / 15 $ ≤ 128K / > 128K | 0,3125 $ | 10 $ / 15 $ |
| Gemini 2.5 Flash | Aktiv | 0,30 $ | 2,50 $ | 0,075 $ | 2,50 $ |
| Gemini 2.5 Flash-Lite | Aktiv | 0,10 $ | 0,40 $ | 0,025 $ | 0,40 $ |
| Gemini 2.0 Flash | Aktiv | Kostenlos (Rate Limits) | Kostenlos (Rate Limits) | — | — |
Wichtige Hinweise zur Preistabelle:
- Gemini 2.5 Pro hat gestaffelte Preise: Günstigere Preise für Prompts ≤ 128.000 Token (1,25 $ / 10 $), höhere Preise für längere Prompts (größer als 128.000 Token: 2,50 $ / 15 $)
- Context Caching (Prompt Caching) ermöglicht 75 % Rabatt auf gecachte Input-Tokens bei wiederholter Nutzung. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $
- Gemini 2.0 Flash ist komplett kostenlos mit Rate Limits: 15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat
- Output-Preise bei Cached Prompts bleiben gleich wie Standard (kein Rabatt auf Output)






