Was ist der Unterschied zwischen Gemini und ChatGPT?

Gemini wurde von Google entwickelt und bietet native multimodale Fähigkeiten (Text, Bilder, Audio, Video) bereits seit Generation 1.5. Der größte Unterschied: Gemini 3.1 Pro erreicht 94,3 % auf GPQA Diamond und unterstützt bis zu 1 Million Token Kontextfenster (vs. 128.000 bei GPT-4o), was die Verarbeitung sehr langer Dokumente ermöglicht. Gemini ist tief mit Google-Services integriert (Search, Workspace, Android) und bietet mit 2.5 Flash-Lite das derzeit günstigste leistungsstarke LLM am Markt (0,10 $ / 0,40 $ pro Million Token). ChatGPT hat dagegen eine ausgereiftere Nutzer-Community und breiteres Plugin-Ökosystem.

Welches Gemini-Modell sollte ich für Programmierung verwenden?

Gemini 3.1 Pro ist das beste Gemini-Modell für komplexe Programmieraufgaben mit 80,6 % auf SWE-bench Verified und starker Performance in Code-Generierung, Debugging und Refactoring. Es bietet 1 Million Token Kontext für große Codebasen. Für schnelle Code-Snippets und Standard-Aufgaben ist Gemini 3 Flash die bessere Wahl (deutlich günstiger bei 0,50 $ / 3,00 $). Für einfache Code-Formatierung oder Syntax-Checks reicht Gemini 2.5 Flash-Lite (nur 0,10 $ / 0,40 $).

Wie viel kostet die Gemini API?

Die Gemini API hat gestaffelte Preise: Gemini 2.5 Flash-Lite ist das günstigste (0,10 $ / 0,40 $ pro Million Tokens), Gemini 3 Flash kostet 0,50 $ / 3,00 $ (beste Balance aus Leistung und Kosten), und Gemini 2.5 Pro kostet 1,25–2,50 $ / 10–15 $ mit gestaffelten Preisen nach Kontext-Länge. Gemini 3.1 Pro und Gemini 3 Pro verwenden ein zweistufiges Preismodell: unter 200.000 Token kostet es 2,00 $ / 12,00 $ pro Million Tokens, über 200.000 Token steigt der Preis auf 4,00 $ / 18,00 $. Gemini 2.0 Flash ist aktuell kostenlos mit Rate Limits verfügbar. Alle Modelle bieten zusätzlich Prompt Caching mit 75 % Rabatt auf gecachte Input-Tokens.

Was ist Gemini Nano und wofür wird es verwendet?

Gemini Nano ist Googles On-Device KI-Modell, das direkt auf Smartphones und Edge-Geräten läuft ohne Cloud-Verbindung. Es gibt zwei Varianten: Nano-1 (4.000 Token Kontext, text-only) und Nano-2 (4.000 Token, multimodal). Gemini Nano wird für datenschutzsensitive Aufgaben verwendet wie Offline-Übersetzung, Smart Reply in Messaging-Apps, Live-Transkription und Foto-Bearbeitung direkt auf dem Gerät. Es ist bereits in Pixel-Smartphones, Samsung Galaxy S24+ und anderen Android-Geräten integriert.

Ist Gemini kostenlos nutzbar?

Ja, teilweise. Gemini 2.0 Flash ist aktuell kostenlos über die API nutzbar mit Rate Limits (15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat). Über Google AI Studio und die kostenlose API-Tier können Entwickler Gemini-Modelle testen. Für Production-Anwendungen empfiehlt Google jedoch die kostenpflichtigen Modelle ohne Rate Limits. Die Web-Version über google.com/gemini bietet ebenfalls kostenlosen Zugang mit Einschränkungen.

Was ist der Unterschied zwischen Gemini Pro und Flash?

Gemini Pro (aktuell: 3.1 Pro) ist die Premium-Variante mit höchster Leistung, optimiert für komplexe Reasoning-, Code- und Analyse-Aufgaben. Es kostet mehr (2,00–4,00 $ / 12–18 $ vs. 0,50 $ / 3,00 $) und ist langsamer, liefert aber präzisere Ergebnisse bei schwierigen Problemen. Gemini Flash (aktuell: 3 Flash) ist die ausgewogene Variante mit schnellerer Performance und deutlich niedrigeren Kosten, ideal für 90 % aller Standard-Anwendungsfälle. Pro eignet sich für Wissenschaft, komplexe Code-Reviews und tiefe Analysen, Flash für Chatbots, Content-Erstellung und Standard-Automatisierung.

Wie groß ist das Kontextfenster von Gemini-Modellen?

Die aktuellen Gemini-Modelle bieten unterschiedliche Kontextfenster: Gemini 2.5 Pro unterstützt 1 Million Token (experimentell bis 2 Millionen möglich), Gemini 2.5 Flash und Flash-Lite ebenfalls 1 Million Token, und Gemini 2.0 Flash 1 Million Token. Das entspricht etwa 700.000 Wörtern oder 1.400+ Seiten Text. Gemini Nano (On-Device) hat nur 4.000 Token. Die älteren Modelle 1.5 Pro hatte 2 Millionen Token (damals Rekord), während 1.0 nur 32.000 Token unterstützte.

Welche Gemini-Versionen gibt es aktuell?

Aktuell verfügbar sind: Gemini 3.1 Pro (neuestes und leistungsstärkstes Modell, Februar 2026), Gemini 3 Pro (Dezember 2025), Gemini 3 Flash (Dezember 2025, Standard in Gemini-App), Gemini 2.5 Pro (Premium, November 2024), Gemini 2.5 Flash (ausgewogen, November 2024), Gemini 2.5 Flash-Lite (günstig/schnell, November 2024), und Gemini 2.0 Flash (kostenlos, September 2024). Die älteren Modelle Gemini 1.5 Pro und 1.5 Flash wurden eingestellt. Gemini Nano-1 und Nano-2 sind weiterhin für On-Device Nutzung verfügbar.

Kann Gemini Bilder und Videos verstehen?

Ja, alle Gemini-Modelle ab Version 1.5 sind nativ multimodal und können Bilder, Videos, Audio und Text gleichzeitig verarbeiten. Gemini kann Bilder analysieren, Objekte erkennen, Screenshots verstehen, Diagramme interpretieren, Videos zusammenfassen und sogar Audio transkribieren. Diese native Multimodalität (trainiert von Anfang an mit allen Modalitäten) unterscheidet Gemini von Konkurrenten wie GPT-4, die Text und Vision separat hinzugefügt haben. Besonders stark ist Gemini bei der Analyse von langen Videos (bis zu 60 Minuten).

Was sind die multimodalen Fähigkeiten von Gemini?

Gemini unterstützt vier Modalitäten gleichzeitig: Text, Bilder (PNG, JPEG, WEBP), Audio (MP3, WAV, FLAC) und Video (MP4, MOV). Das Modell kann: Screenshots analysieren und erklären, Code aus Bildern extrahieren, Diagramme in Text umwandeln, lange Videos zusammenfassen (bis 60 Min.), Audio transkribieren und übersetzen, mehrere Dokumente gleichzeitig vergleichen, und komplexe multimodale Prompts verarbeiten (z. B. Bild + Text + Audio). Diese native Multimodalität macht Gemini ideal für Content-Analyse, Accessibility-Tools und EdTech-Anwendungen.

Wann erscheint Gemini 3.0?

Gemini 3 ist bereits vollständig verfügbar: Gemini 3 Flash und Gemini 3 Pro sind seit Dezember 2025 allgemein zugänglich über Google AI Studio und Vertex AI. Gemini 3 Flash ist das Standard-Modell in der Gemini-App. Seit Februar 2026 gibt es außerdem Gemini 3.1 Pro als leistungsstärkstes Modell mit 94,3 % auf GPQA Diamond und 80,6 % auf SWE-bench Verified.

Was ist der Unterschied zwischen Gemini 1.5 und 2.5?

Gemini 2.5 (November 2024) bringt signifikante Verbesserungen gegenüber 1.5: 40 % bessere Performance bei Reasoning-Aufgaben, 30 % schnellere Inferenz-Geschwindigkeit, verbesserte Code-Generierung mit spezialisiertem Training, effizientere Kontext-Nutzung trotz reduziertem Maximum (1M statt 2M Token), und deutlich bessere Multimodalität besonders bei Videos und Audio. Die Pricing-Struktur wurde vereinfacht mit Prompt Caching Support. Gemini 1.5 wird am 30. April 2025 vollständig eingestellt und durch 2.5 ersetzt.

Welches ist das günstigste Gemini-Modell?

Gemini 2.5 Flash-Lite ist das günstigste verfügbare Modell mit 0,10 $ für Input und 0,40 $ für Output pro Million Tokens – das macht es zu einem der preiswertesten leistungsstarken LLMs am Markt. Für komplett kostenlosen Zugang bietet Gemini 2.0 Flash freien API-Zugang mit Rate Limits (15 req./min, 1.500 /Tag). Zum Vergleich: ChatGPT GPT-4o-mini kostet 0,15 $ / 0,60 $, Claude 3 Haiku 0,25 $ / 1,25 $ – Gemini Flash-Lite ist also 50–60 % günstiger als die nächste Konkurrenz.

Unterstützt Gemini Prompt Caching?

Ja, alle aktuellen Gemini-Modelle (2.5 Pro, Flash, Flash-Lite) unterstützen Context Caching (Prompt Caching). Gecachte Input-Tokens kosten nur 25 % des Standard-Preises (75 % Rabatt). Dies ist besonders wertvoll bei langen System-Prompts, großen Dokumenten oder wiederholten Anfragen mit gleichem Kontext. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $ pro Million Tokens. Der Cache bleibt bis zu 60 Minuten aktiv und wird automatisch verwaltet.

Wie schneidet Gemini in Benchmarks ab?

Gemini 3.1 Pro ist das stärkste Gemini-Modell in Benchmarks (Stand Februar 2026): 94,3 % auf GPQA Diamond (PhD-Level Reasoning) und 80,6 % auf SWE-bench Verified (agentic Coding). Gemini 3 Flash erreicht 90,4 % auf GPQA Diamond und 78 % auf SWE-bench Verified. Gemini 2.5 Pro erreicht MMLU 85,9 %, HumanEval 84,1 % und GSM8K 91,7 %. In Video-Verständnis und langem Kontext führt Gemini die Benchmarks an. Gemini 3 Flash bietet dabei ein herausragendes Preis-Leistungs-Verhältnis mit Frontier-Intelligenz zu Flash-Preisen.

Gemini-Modelle: Alle Modelle von Google im Überblick

Google Gemini hat sich seit dem Launch im Dezember 2023 als einer der stärksten Konkurrenten zu ChatGPT und Claude etabliert.

Die Evolution ist beeindruckend: Angefangen bei den ersten 1.0-Modellen, dann die großen 1.5-Versionen mit 2 Millionen Token Kontext, über die 2.5-Modelle bis zum neuesten Gemini 3.1 Pro. Jede Generation hat das Vorherige übertroffen.

Aber welches Gemini-Modell ist das richtige für deine Anwendung? Was unterscheidet Pro von Flash? Und wie schneidet Gemini im Vergleich zu ChatGPT und Claude ab?

In diesem Artikel erkläre ich dir alles Wichtige zu den verschiedenen Gemini-Modellen, ihren Features, Preisen und Verfügbarkeit.

TL;DRDas Wichtigste in Kürze

Gemini 3.1 Pro (Februar 2026) ist das neueste und leistungsstärkste Modell mit 94,3 % auf GPQA Diamond und 80,6 % auf SWE-bench, ein 2x Reasoning-Sprung gegenüber Vorgängern
Gemini 2.5 Flash-Lite bleibt das günstigste leistungsstarke LLM am Markt (0,10 $/0,40 $ pro Million Token) mit bester Balance aus Geschwindigkeit, Kosten und Qualität
Alle modernen Gemini-Modelle (ab 1.5) sind nativ multimodal und verarbeiten Text, Bilder, Audio und Video gleichzeitig mit bis zu 1 Million Token Kontext

Was sind Gemini-Modelle?

Gemini-Modelle sind Googles fortschrittliche Large Language Models, die von DeepMind und Google Research entwickelt wurden.

Was macht Gemini anders? Ein paar Dinge fallen sofort auf:

Zum einen: Native Multimodalität von Anfang an. Google hat Gemini mit Text, Bildern, Audio und Video trainiert – nicht wie andere Anbieter, die das nachträglich reingepatcht haben. Das gibt Gemini ein viel tieferes Verständnis für alle diese Modalitäten zusammen.

Dann das Kontextfenster: Gemini 2.5 Pro verarbeitet bis zu 1 Million Token (experimentell auch 2 Millionen). Das sind ungefähr 700.000 Wörter oder über 1.400 Buchseiten. In einem einzigen Request. Das ist... sehr groß.

Google hat auch keine Ein-Modell-Strategie. Stattdessen: Nano für Smartphones, Flash für die meisten Standard-Aufgaben, Pro für anspruchsvolle Sachen. Jedes hat seinen Platz. Und weil Gemini tief in Google Search, Workspace und Android integriert ist, funktioniert es da besonders gut.

Google hat mit Gemini einen anderen Ansatz als OpenAI gewählt: Statt auf maximale Benchmark-Performance zu setzen, liegt der Fokus auf praktischer Vielseitigkeit, Multimodalität und Integration in das Google-Ökosystem.

Tipp

Wenn du das Maximum aus Gemini herausholen möchtest, empfehle ich dir unsere Guides zu Prompting-Techniken und unseren Vergleich der besten KI-Tools.

Vergleich aller Gemini-Modelle

Hier ist eine detaillierte Übersicht aller Gemini-Modelle mit ihren wichtigsten Eigenschaften:

Modell	Veröffentlichung	Kontextfenster	Multimodal	Status
Gemini 1.0 Pro	12/2023	32.000 Token	Nein	Eingestellt
Gemini 1.0 Ultra	12/2023	32.000 Token	Nein	Eingestellt
Gemini 1.5 Pro	02/2024	2 Mio. Token	Ja	Eingestellt
Gemini 1.5 Flash	05/2024	1 Mio. Token	Ja	Eingestellt
Gemini 2.0 Flash	09/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Flash-Lite	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Flash	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Pro	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 3 Flash	12/2025	1 Mio. Token	Ja	Aktiv
Gemini 3 Pro	12/2025	1 Mio. Token	Ja	Aktiv
Gemini 3.1 Pro	02/2026	1 Mio. Token	Ja	Aktiv
Gemini Nano-1	12/2023	4.000 Token	Nein	Aktiv
Gemini Nano-2	05/2024	4.000 Token	Ja	Aktiv

Gemini 3.1 Pro

Veröffentlicht: Februar 2026

Gemini 3.1 Pro ist Googles leistungsstärkstes Modell und markiert einen massiven Reasoning-Sprung gegenüber allen Vorgängern. Seit Februar 2026 ist es allgemein verfügbar über die Gemini API, Google AI Studio und Vertex AI.

Hauptmerkmale:

2x Reasoning-Sprung gegenüber Gemini 3 Pro in komplexen Aufgaben
94,3 % auf GPQA Diamond (PhD-Level Reasoning), neuer Bestwert
80,6 % auf SWE-bench Verified (agentic Coding)
1 Million Token Input, bis zu 64.000 Token Output
Multimodal: Text, Bilder, Audio, Video und PDF
Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
Context Caching: 75 % Rabatt auf gecachte Input-Tokens (0,50 $)
API-String: gemini-3.1-pro

Was macht Gemini 3.1 Pro besonders?

Gemini 3.1 Pro setzt neue Maßstäbe im Reasoning: Mit 94,3 % auf GPQA Diamond übertrifft es alle bisherigen Gemini-Modelle deutlich. Der 2x Reasoning-Sprung gegenüber Gemini 3 Pro zeigt sich besonders bei komplexen wissenschaftlichen Fragestellungen, mehrstufigen Programmieraufgaben und analytischen Herausforderungen.

Auch beim agentic Coding liefert Gemini 3.1 Pro mit 80,6 % auf SWE-bench Verified eine neue Bestmarke. Es kann eigenständig komplexe Software-Probleme lösen, Code refactoren und Multi-File-Änderungen durchführen.

Verfügbarkeit: Gemini 3.1 Pro ist seit Februar 2026 allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es wird als Premium-Modell für anspruchsvolle Research-, Code- und Analyse-Aufgaben positioniert.

Gemini 3 Flash

Veröffentlicht: Dezember 2025

Gemini 3 Flash ist Googles ausgewogenes Modell, das Frontier-Intelligenz mit hoher Geschwindigkeit und niedrigen Kosten kombiniert. Seit Dezember 2025 allgemein verfügbar, ist es das Standard-Modell in der Gemini-App.

Hauptmerkmale:

Frontier-Performance: 90,4 % auf GPQA Diamond (PhD-Level Reasoning), 81,2 % auf MMMU Pro
Agentic Coding: 78 % auf SWE-bench Verified
3x schneller als Gemini 2.5 Pro bei vergleichbarer Qualität
15 % besser als Gemini 2.5 Flash in der Gesamtgenauigkeit
1 Million Token Input, bis zu 64.000 Token Output
Multimodal: Text, Bilder, Audio, Video und PDF
Preis: 0,50 $ Input / 3,00 $ Output pro Million Token
Context Caching: 90 % Kostenreduktion auf gecachte Tokens (0,05 $ Input)
API-String: gemini-3-flash

Was macht Gemini 3 Flash besonders?

Gemini 3 Flash bringt Frontier-Intelligenz in ein schnelles, kosteneffizientes Paket. In Benchmarks erreicht es PhD-Level-Reasoning (90,4 % GPQA Diamond) und rivalisiert damit deutlich teurere Modelle.

Google hat Gemini 3 Flash mit neuen Features ausgestattet: Ein "Thinking Level"-Parameter steuert, wie viel internes Reasoning das Modell verwendet. Der "Media Resolution"-Parameter (low bis ultra-high) optimiert die Verarbeitung von Bildern und Videos für verschiedene Anwendungsfälle.

Verfügbarkeit: Gemini 3 Flash ist allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es ist das Standard-Modell in der Gemini-App und AI Mode in Google Search. Unternehmen wie JetBrains, Bridgewater Associates und Figma setzen es produktiv ein.

Gemini 3 Pro

Veröffentlicht: Dezember 2025

Gemini 3 Pro ist die dritte Generation von Googles Premium-KI-Modell mit Frontier-Intelligenz, Deep Research und Premium-Performance. Seit Dezember 2025 allgemein verfügbar.

Hauptmerkmale:

Frontier-Intelligenz von Google DeepMind
Verbesserte Reasoning-Fähigkeiten gegenüber Gemini 2.5 Pro
Deep Research für komplexe, mehrstufige Analysen
Multimodale Verbesserungen besonders bei Video-Verständnis
1 Million Token Kontextfenster (Input), bis zu 64.000 Token Output
Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
API-String: gemini-3-pro

Verfügbarkeit: Gemini 3 Pro ist allgemein über die Gemini API in Google AI Studio, Vertex AI und Gemini Enterprise verfügbar. Es wurde inzwischen von Gemini 3.1 Pro als leistungsstärkstes Modell abgelöst, bleibt aber eine solide Wahl für Premium-Aufgaben.

Gemini 2.5 Pro

Veröffentlicht: November 2024

Gemini 2.5 Pro war bis Ende 2025 Googles Premium-Variante und bleibt eine solide Wahl für anspruchsvolle Aufgaben. (Mehr zur Gemini API findest du in unserem separaten Guide.)

Was bietet Pro konkret?

State-of-the-art Performance bei komplizierten Reasoning- und Code-Aufgaben
1 Million Token Kontextfenster (experimentell auch 2 Millionen)
Gestaffelte Preise: 1,25 $ / 10 $ für Standard-Prompts (≤ 128K Token), 2,50 $ / 15 $ für längere
Native Multimodalität – Text, Bilder, Audio, Video zusammen verarbeiten
Prompt Caching mit 75 % Rabatt auf gecachte Inputs (0,3125 $ statt 1,25–2,50 $)
API-Model-String: gemini-2.5-pro

Was macht Gemini 2.5 Pro besonders?

Gemini 2.5 Pro ist Googles Antwort auf Claude 4 Opus und GPT-4o. Es bietet vergleichbare Performance bei komplexen Reasoning-Aufgaben und übertrifft beide Konkurrenten bei der Verarbeitung sehr langer Kontexte. Das 1-Million-Token-Fenster ermöglicht die Analyse kompletter Bücher, großer Codebasen oder stundenlanger Video-Transkripte in einem einzigen API-Call.

Die gestaffelte Preisstruktur macht es wirtschaftlich: Für die meisten Standard-Prompts (≤ 128K Tokens) zahlst du nur 1,25 $ / 10 $ – deutlich günstiger als Claude 4 Opus (15 $ / 75 $) bei vergleichbarer Leistung.

Wo bekommst du es? Die Google AI API, Google AI Studio, Vertex AI oder Google Cloud.

Wann brauchst du Pro? Wenn du ganze Codebases analysieren, lange Research-Paper durchforsten, dickwandige Verträge zusammenfassen oder Stunden-Videos in einem Shot verarbeiten willst. Das ist nicht für Chatbots gedacht – dafür ist Flash da und günstiger.

Gemini 2.5 Flash

Veröffentlicht: November 2024

Gemini 2.5 Flash ist die ausgewogene Variante – der Modell-Evergreen der 2.5-Serie. Es liefert 90 % der Pro-Leistung, kostet aber einen Bruchteil und ist deutlich schneller.

Die Eckdaten:

90 % der Pro-Performance bei einem Bruchteil der Kosten
2–3x schneller als Pro (Inferenz-Speed)
1 Million Token Kontext
0,30 $ Input / 2,50 $ Output pro Million Token
Prompt Caching: 0,075 $ für gecachte Inputs
Multimodal: Text, Bilder, Audio, Video
API-String: gemini-2.5-flash

Was macht Gemini 2.5 Flash besonders?

Gemini 2.5 Flash ist das ideale Produktionsmodell für 90 % aller Anwendungsfälle. Es bietet nahezu die gleiche Qualität wie Pro (90 % Performance) bei 80 % niedrigeren Kosten und 2-3x schnellerer Response-Zeit. Dies macht es perfekt für Chatbots, Content-Generierung und Automatisierungs-Workflows, wo schnelle Antworten wichtiger sind als die absolut höchste Präzision.

Im Vergleich zu ChatGPT GPT-4o (15 $ / 60 $ pro Million Token) bietet Gemini 2.5 Flash bei ähnlicher Qualität 98 % Kostenersparnis – ein unschlagbares Preis-Leistungs-Verhältnis.

Du findest Flash über Google AI API, Google AI Studio, Vertex AI, Google Cloud – und es ist das Backend-Modell für viele Google-Produkte.

Konkrete Nutzung: Chatbots, die schnell antworten müssen. Content-Generierung (Artikel, Marketing-Texte, Social Posts). Datenextraktion aus ungeordneten Quellen. E-Mail-Klassifizierung, Sentiment-Analysen, Zusammenfassungen. Screenshot-Verständnis und OCR. Für all das brauchst du nicht Pro, Flash reicht aus und spart Geld.

Tipp

Bevor du dich für ein Gemini-Modell entscheidest, nutze unseren API-Kostenrechner, um die tatsächlichen Kosten für deine Anwendung zu berechnen.

Gemini 2.5 Flash-Lite

Veröffentlicht: November 2024

Gemini 2.5 Flash-Lite ist was Sache: Das billigste brauchbare LLM am Markt. Und gleichzeitig extrem schnell.

Die wichtigsten Zahlen:

0,10 $ Input / 0,40 $ Output pro Million Token (billigste am Markt)
5x schneller als Pro-Modelle
Trotzdem 70–80 % der Flash-Performance
1 Million Token Kontext
Prompt Caching: 0,025 $ für gecachte Inputs
Multimodal: Text, Bilder, Audio, Video
API-String: gemini-2.5-flash-lite

Warum ist das so interessant? Es ist 50–60 % billiger als GPT-4o-mini (0,15 $ / 0,60 $) oder Claude 3 Haiku (0,25 $ / 1,25 $). Und es ist nicht langsam – eher das Gegenteil.

Die Qualität? 70–80 % der Flash-Performance für Chatbot-Responses, einfache Textgenerierung und Klassifizierung. Wenn du Millionen von API-Calls täglich brauchst, sind die Kostenersparnisse enorm.

Wo findest du es? Google AI API, Google AI Studio, Vertex AI.

Einsatzszenarien: Chatbots mit Millionen täglich. Content-Moderation im großen Stil. Sentiment-Analysen, Kategorisierung, Tags. Echtzeitanwendungen, wo low Latency wichtig ist. Massive Batch-Processing mit kleinem Budget.

Gemini 2.0 Flash

Veröffentlicht: September 2024

Gemini 2.0 Flash ist die ältere Version von Flash. Der Vorteil: Kostenlos mit Rate Limits.

Kurzinfo:

100 % kostenlos (Rate Limits: 15 req./min, 1.500 /Tag, 1 Mio /Monat)
~80 % der 2.5-Flash-Performance
1 Million Token Kontext
Multimodal: Text, Bilder, Audio
API-String: gemini-2.0-flash

Einsatz: Prototyping, schnelle Tests, Low-Volume-Anwendungen. Wenn du wirklich Production brauchst ohne Rate Limits, upgrade auf 2.5 Flash.

Gemini 1.5 Pro

Veröffentlicht: Februar 2024

Gemini 1.5 Pro war 2024 ein großes Ding: Erstes Modell mit 2 Millionen Token Kontext. Das war damals Weltrekord.

Heute: Es wird am 30. April 2025 abgeschaltet. Wenn du noch 1.5 Pro nutzt, migriere auf 2.5 Pro – bessere Performance, weniger Ärger.

Was 1.5 hatte: 2 Millionen Token (beeindruckend damals). Native Multimodalität. Starke Video- und Dokumentanalyse. Aber das war 2024.

Gemini 1.5 Flash

Veröffentlicht: Mai 2024

Gemini 1.5 Flash war quasi die günstigere, schnellere Version von 1.5 Pro. Auch deprecated.

Die Facts: 1 Million Token Kontext. Schnell, niedrige Kosten. Multimodal. Aber auch am 30. April 2025 offline. Nutzer sollten auf 2.5 Flash wechseln.

Gemini 1.0 Pro und Ultra

Veröffentlicht: Dezember 2023

Gemini 1.0 war der erste Versuch. Heute: Nicht mehr relevant.

Was war's? 32.000 Token Kontext. Text-only, keine Bilder/Videos. Pro war Standard, Ultra war Premium. Beide sind längst weg. Google hat sie schnell durch 1.5 und 2.x ersetzt – viel bessere Modelle.

Gemini Nano

Veröffentlicht: Dezember 2023 / Mai 2024

Gemini Nano ist anders: On-Device KI für Smartphones. Läuft lokal, keine Cloud.

Was wichtig ist:

On-Device: Direkt auf Smartphones, kein Cloud-Call
Zwei Varianten: Nano-1 (text-only) und Nano-2 (multimodal)
4.000 Token Kontext (klein, aber reicht für Smartphone-Aufgaben)
Datenschutz: Alles bleibt lokal
Hardware: Pixel Smartphones, Samsung Galaxy S24+, weitere Android-Devices
Einsatz: Smart Reply, Live-Transkription, Offline-Übersetzung, Foto-Bearbeitung

Verfügbar: Bereits in verschiedenen Android-Phones integriert. Google rollt es per System-Update aus. Entwickler können AICore API nutzen.

Preisvergleich aller Gemini-Modelle

Die folgende Tabelle zeigt eine detaillierte Übersicht aller Gemini-Preise (alle Angaben in $ pro Million Token). Für eine ausführliche Analyse empfehlen wir unseren API-Kostenrechner:

Modell	Status	Input (Standard)	Output (Standard)	Input (Cached)	Output (Cached)
Gemini 3.1 Pro	Aktiv	2,00 $ / 4,00 $ ≤ 200K / > 200K	12,00 $ / 18,00 $ ≤ 200K / > 200K	0,50 $	12,00 $ / 18,00 $
Gemini 3 Pro	Aktiv	2,00 $ / 4,00 $ ≤ 200K / > 200K	12,00 $ / 18,00 $ ≤ 200K / > 200K	0,50 $	12,00 $ / 18,00 $
Gemini 3 Flash	Aktiv	0,50 $	3,00 $	0,05 $	3,00 $
Gemini 2.5 Pro	Aktiv	1,25 $ / 2,50 $ ≤ 128K / > 128K	10 $ / 15 $ ≤ 128K / > 128K	0,3125 $	10 $ / 15 $
Gemini 2.5 Flash	Aktiv	0,30 $	2,50 $	0,075 $	2,50 $
Gemini 2.5 Flash-Lite	Aktiv	0,10 $	0,40 $	0,025 $	0,40 $
Gemini 2.0 Flash	Aktiv	Kostenlos (Rate Limits)	Kostenlos (Rate Limits)	—	—

Wichtige Hinweise zur Preistabelle:

Gemini 3.1 Pro und 3 Pro haben gestaffelte Preise: Günstigere Preise für Prompts ≤ 200.000 Token (2,00 $ / 12,00 $), höhere Preise für längere Prompts (größer als 200.000 Token: 4,00 $ / 18,00 $)
Gemini 2.5 Pro hat ebenfalls gestaffelte Preise: 1,25 $ / 10 $ für Prompts ≤ 128.000 Token, 2,50 $ / 15 $ für längere Prompts
Context Caching (Prompt Caching) ermöglicht 75 % Rabatt auf gecachte Input-Tokens bei wiederholter Nutzung. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $
Gemini 2.0 Flash ist komplett kostenlos mit Rate Limits: 15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat
Output-Preise bei Cached Prompts bleiben gleich wie Standard (kein Rabatt auf Output)

Häufig gestellte Fragen zu Gemini-Modellen

Google Gemini hat sich seit dem Launch im Dezember 2023 als einer der stärksten Konkurrenten zu ChatGPT und Claude etabliert.

Aber welches Gemini-Modell ist das richtige für deine Anwendung? Was unterscheidet Pro von Flash? Und wie schneidet Gemini im Vergleich zu ChatGPT und Claude ab?

In diesem Artikel erkläre ich dir alles Wichtige zu den verschiedenen Gemini-Modellen, ihren Features, Preisen und Verfügbarkeit.

TL;DRDas Wichtigste in Kürze

Gemini 3.1 Pro (Februar 2026) ist das neueste und leistungsstärkste Modell mit 94,3 % auf GPQA Diamond und 80,6 % auf SWE-bench, ein 2x Reasoning-Sprung gegenüber Vorgängern
Gemini 2.5 Flash-Lite bleibt das günstigste leistungsstarke LLM am Markt (0,10 $/0,40 $ pro Million Token) mit bester Balance aus Geschwindigkeit, Kosten und Qualität
Alle modernen Gemini-Modelle (ab 1.5) sind nativ multimodal und verarbeiten Text, Bilder, Audio und Video gleichzeitig mit bis zu 1 Million Token Kontext

Was sind Gemini-Modelle?

Gemini-Modelle sind Googles fortschrittliche Large Language Models, die von DeepMind und Google Research entwickelt wurden.

Was macht Gemini anders? Ein paar Dinge fallen sofort auf:

Tipp

Wenn du das Maximum aus Gemini herausholen möchtest, empfehle ich dir unsere Guides zu Prompting-Techniken und unseren Vergleich der besten KI-Tools.

Vergleich aller Gemini-Modelle

Hier ist eine detaillierte Übersicht aller Gemini-Modelle mit ihren wichtigsten Eigenschaften:

Modell	Veröffentlichung	Kontextfenster	Multimodal	Status
Gemini 1.0 Pro	12/2023	32.000 Token	Nein	Eingestellt
Gemini 1.0 Ultra	12/2023	32.000 Token	Nein	Eingestellt
Gemini 1.5 Pro	02/2024	2 Mio. Token	Ja	Eingestellt
Gemini 1.5 Flash	05/2024	1 Mio. Token	Ja	Eingestellt
Gemini 2.0 Flash	09/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Flash-Lite	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Flash	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 2.5 Pro	11/2024	1 Mio. Token	Ja	Aktiv
Gemini 3 Flash	12/2025	1 Mio. Token	Ja	Aktiv
Gemini 3 Pro	12/2025	1 Mio. Token	Ja	Aktiv
Gemini 3.1 Pro	02/2026	1 Mio. Token	Ja	Aktiv
Gemini Nano-1	12/2023	4.000 Token	Nein	Aktiv
Gemini Nano-2	05/2024	4.000 Token	Ja	Aktiv

Gemini 3.1 Pro

Veröffentlicht: Februar 2026

Hauptmerkmale:

2x Reasoning-Sprung gegenüber Gemini 3 Pro in komplexen Aufgaben
94,3 % auf GPQA Diamond (PhD-Level Reasoning), neuer Bestwert
80,6 % auf SWE-bench Verified (agentic Coding)
1 Million Token Input, bis zu 64.000 Token Output
Multimodal: Text, Bilder, Audio, Video und PDF
Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
Context Caching: 75 % Rabatt auf gecachte Input-Tokens (0,50 $)
API-String: gemini-3.1-pro

Was macht Gemini 3.1 Pro besonders?

Gemini 3 Flash

Veröffentlicht: Dezember 2025

Hauptmerkmale:

Frontier-Performance: 90,4 % auf GPQA Diamond (PhD-Level Reasoning), 81,2 % auf MMMU Pro
Agentic Coding: 78 % auf SWE-bench Verified
3x schneller als Gemini 2.5 Pro bei vergleichbarer Qualität
15 % besser als Gemini 2.5 Flash in der Gesamtgenauigkeit
1 Million Token Input, bis zu 64.000 Token Output
Multimodal: Text, Bilder, Audio, Video und PDF
Preis: 0,50 $ Input / 3,00 $ Output pro Million Token
Context Caching: 90 % Kostenreduktion auf gecachte Tokens (0,05 $ Input)
API-String: gemini-3-flash

Was macht Gemini 3 Flash besonders?

Gemini 3 Pro

Veröffentlicht: Dezember 2025

Gemini 3 Pro ist die dritte Generation von Googles Premium-KI-Modell mit Frontier-Intelligenz, Deep Research und Premium-Performance. Seit Dezember 2025 allgemein verfügbar.

Hauptmerkmale:

Frontier-Intelligenz von Google DeepMind
Verbesserte Reasoning-Fähigkeiten gegenüber Gemini 2.5 Pro
Deep Research für komplexe, mehrstufige Analysen
Multimodale Verbesserungen besonders bei Video-Verständnis
1 Million Token Kontextfenster (Input), bis zu 64.000 Token Output
Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200K Kontext), 4,00 $ / 18,00 $ (über 200K Kontext)
API-String: gemini-3-pro

Gemini 2.5 Pro

Veröffentlicht: November 2024

Gemini 2.5 Pro war bis Ende 2025 Googles Premium-Variante und bleibt eine solide Wahl für anspruchsvolle Aufgaben. (Mehr zur Gemini API findest du in unserem separaten Guide.)

Was bietet Pro konkret?

State-of-the-art Performance bei komplizierten Reasoning- und Code-Aufgaben
1 Million Token Kontextfenster (experimentell auch 2 Millionen)
Gestaffelte Preise: 1,25 $ / 10 $ für Standard-Prompts (≤ 128K Token), 2,50 $ / 15 $ für längere
Native Multimodalität – Text, Bilder, Audio, Video zusammen verarbeiten
Prompt Caching mit 75 % Rabatt auf gecachte Inputs (0,3125 $ statt 1,25–2,50 $)
API-Model-String: gemini-2.5-pro

Was macht Gemini 2.5 Pro besonders?

Wo bekommst du es? Die Google AI API, Google AI Studio, Vertex AI oder Google Cloud.

Gemini 2.5 Flash

Veröffentlicht: November 2024

Gemini 2.5 Flash ist die ausgewogene Variante – der Modell-Evergreen der 2.5-Serie. Es liefert 90 % der Pro-Leistung, kostet aber einen Bruchteil und ist deutlich schneller.

Die Eckdaten:

90 % der Pro-Performance bei einem Bruchteil der Kosten
2–3x schneller als Pro (Inferenz-Speed)
1 Million Token Kontext
0,30 $ Input / 2,50 $ Output pro Million Token
Prompt Caching: 0,075 $ für gecachte Inputs
Multimodal: Text, Bilder, Audio, Video
API-String: gemini-2.5-flash

Was macht Gemini 2.5 Flash besonders?

Im Vergleich zu ChatGPT GPT-4o (15 $ / 60 $ pro Million Token) bietet Gemini 2.5 Flash bei ähnlicher Qualität 98 % Kostenersparnis – ein unschlagbares Preis-Leistungs-Verhältnis.

Du findest Flash über Google AI API, Google AI Studio, Vertex AI, Google Cloud – und es ist das Backend-Modell für viele Google-Produkte.

Tipp

Bevor du dich für ein Gemini-Modell entscheidest, nutze unseren API-Kostenrechner, um die tatsächlichen Kosten für deine Anwendung zu berechnen.

Gemini 2.5 Flash-Lite

Veröffentlicht: November 2024

Gemini 2.5 Flash-Lite ist was Sache: Das billigste brauchbare LLM am Markt. Und gleichzeitig extrem schnell.

Die wichtigsten Zahlen:

0,10 $ Input / 0,40 $ Output pro Million Token (billigste am Markt)
5x schneller als Pro-Modelle
Trotzdem 70–80 % der Flash-Performance
1 Million Token Kontext
Prompt Caching: 0,025 $ für gecachte Inputs
Multimodal: Text, Bilder, Audio, Video
API-String: gemini-2.5-flash-lite

Warum ist das so interessant? Es ist 50–60 % billiger als GPT-4o-mini (0,15 $ / 0,60 $) oder Claude 3 Haiku (0,25 $ / 1,25 $). Und es ist nicht langsam – eher das Gegenteil.

Wo findest du es? Google AI API, Google AI Studio, Vertex AI.

Gemini 2.0 Flash

Veröffentlicht: September 2024

Gemini 2.0 Flash ist die ältere Version von Flash. Der Vorteil: Kostenlos mit Rate Limits.

Kurzinfo:

100 % kostenlos (Rate Limits: 15 req./min, 1.500 /Tag, 1 Mio /Monat)
~80 % der 2.5-Flash-Performance
1 Million Token Kontext
Multimodal: Text, Bilder, Audio
API-String: gemini-2.0-flash

Einsatz: Prototyping, schnelle Tests, Low-Volume-Anwendungen. Wenn du wirklich Production brauchst ohne Rate Limits, upgrade auf 2.5 Flash.

Gemini 1.5 Pro

Veröffentlicht: Februar 2024

Gemini 1.5 Pro war 2024 ein großes Ding: Erstes Modell mit 2 Millionen Token Kontext. Das war damals Weltrekord.

Heute: Es wird am 30. April 2025 abgeschaltet. Wenn du noch 1.5 Pro nutzt, migriere auf 2.5 Pro – bessere Performance, weniger Ärger.

Was 1.5 hatte: 2 Millionen Token (beeindruckend damals). Native Multimodalität. Starke Video- und Dokumentanalyse. Aber das war 2024.

Gemini 1.5 Flash

Veröffentlicht: Mai 2024

Gemini 1.5 Flash war quasi die günstigere, schnellere Version von 1.5 Pro. Auch deprecated.

Die Facts: 1 Million Token Kontext. Schnell, niedrige Kosten. Multimodal. Aber auch am 30. April 2025 offline. Nutzer sollten auf 2.5 Flash wechseln.

Gemini 1.0 Pro und Ultra

Veröffentlicht: Dezember 2023

Gemini 1.0 war der erste Versuch. Heute: Nicht mehr relevant.

Gemini Nano

Veröffentlicht: Dezember 2023 / Mai 2024

Gemini Nano ist anders: On-Device KI für Smartphones. Läuft lokal, keine Cloud.

Was wichtig ist:

On-Device: Direkt auf Smartphones, kein Cloud-Call
Zwei Varianten: Nano-1 (text-only) und Nano-2 (multimodal)
4.000 Token Kontext (klein, aber reicht für Smartphone-Aufgaben)
Datenschutz: Alles bleibt lokal
Hardware: Pixel Smartphones, Samsung Galaxy S24+, weitere Android-Devices
Einsatz: Smart Reply, Live-Transkription, Offline-Übersetzung, Foto-Bearbeitung

Verfügbar: Bereits in verschiedenen Android-Phones integriert. Google rollt es per System-Update aus. Entwickler können AICore API nutzen.

Preisvergleich aller Gemini-Modelle

Die folgende Tabelle zeigt eine detaillierte Übersicht aller Gemini-Preise (alle Angaben in $ pro Million Token). Für eine ausführliche Analyse empfehlen wir unseren API-Kostenrechner:

Modell	Status	Input (Standard)	Output (Standard)	Input (Cached)	Output (Cached)
Gemini 3.1 Pro	Aktiv	2,00 $ / 4,00 $ ≤ 200K / > 200K	12,00 $ / 18,00 $ ≤ 200K / > 200K	0,50 $	12,00 $ / 18,00 $
Gemini 3 Pro	Aktiv	2,00 $ / 4,00 $ ≤ 200K / > 200K	12,00 $ / 18,00 $ ≤ 200K / > 200K	0,50 $	12,00 $ / 18,00 $
Gemini 3 Flash	Aktiv	0,50 $	3,00 $	0,05 $	3,00 $
Gemini 2.5 Pro	Aktiv	1,25 $ / 2,50 $ ≤ 128K / > 128K	10 $ / 15 $ ≤ 128K / > 128K	0,3125 $	10 $ / 15 $
Gemini 2.5 Flash	Aktiv	0,30 $	2,50 $	0,075 $	2,50 $
Gemini 2.5 Flash-Lite	Aktiv	0,10 $	0,40 $	0,025 $	0,40 $
Gemini 2.0 Flash	Aktiv	Kostenlos (Rate Limits)	Kostenlos (Rate Limits)	—	—

Wichtige Hinweise zur Preistabelle:

Gemini 3.1 Pro und 3 Pro haben gestaffelte Preise: Günstigere Preise für Prompts ≤ 200.000 Token (2,00 $ / 12,00 $), höhere Preise für längere Prompts (größer als 200.000 Token: 4,00 $ / 18,00 $)
Gemini 2.5 Pro hat ebenfalls gestaffelte Preise: 1,25 $ / 10 $ für Prompts ≤ 128.000 Token, 2,50 $ / 15 $ für längere Prompts
Context Caching (Prompt Caching) ermöglicht 75 % Rabatt auf gecachte Input-Tokens bei wiederholter Nutzung. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $
Gemini 2.0 Flash ist komplett kostenlos mit Rate Limits: 15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat
Output-Preise bei Cached Prompts bleiben gleich wie Standard (kein Rabatt auf Output)

Was sind Gemini-Modelle?

Vergleich aller Gemini-Modelle

Gemini 3.1 Pro

Gemini 3 Flash

Gemini 3 Pro

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 2.5 Flash-Lite

Gemini 2.0 Flash

Gemini 1.5 Pro

Gemini 1.5 Flash

Gemini 1.0 Pro und Ultra

Gemini Nano

Preisvergleich aller Gemini-Modelle

Häufig gestellte Fragen zu Gemini-Modellen

Was ist der Unterschied zwischen Gemini und ChatGPT?

Welches Gemini-Modell sollte ich für Programmierung verwenden?

Wie viel kostet die Gemini API?

Was ist Gemini Nano und wofür wird es verwendet?

Ist Gemini kostenlos nutzbar?

Was ist der Unterschied zwischen Gemini Pro und Flash?

Wie groß ist das Kontextfenster von Gemini-Modellen?

Welche Gemini-Versionen gibt es aktuell?

Kann Gemini Bilder und Videos verstehen?

Was sind die multimodalen Fähigkeiten von Gemini?

Wann erscheint Gemini 3.0?

Was ist der Unterschied zwischen Gemini 1.5 und 2.5?

Welches ist das günstigste Gemini-Modell?

Unterstützt Gemini Prompt Caching?

Wie schneidet Gemini in Benchmarks ab?

Finn Hillebrandt

Ähnliche Artikel

Claude-Modelle: Alle 22 Modelle im Überblick

ChatGPT-Statistiken 2026: Spannende Zahlen, Daten & Fakten

Google Gemini API: Wie du einen API Key erstellst (und nutzt)

GPT-3.5 vs. GPT-4: Was ist der Unterschied?

GPT-4 kostenlos nutzen: 7 Wege ohne ChatGPT Plus

ChatGPT-Versionen: Alle 28 GPT-Modelle im Überblick

Was sind Gemini-Modelle?

Vergleich aller Gemini-Modelle

Gemini 3.1 Pro

Gemini 3 Flash

Gemini 3 Pro

Gemini 2.5 Pro

Gemini 2.5 Flash

Gemini 2.5 Flash-Lite

Gemini 2.0 Flash

Gemini 1.5 Pro

Gemini 1.5 Flash

Gemini 1.0 Pro und Ultra

Gemini Nano

Preisvergleich aller Gemini-Modelle

Häufig gestellte Fragen zu Gemini-Modellen

Was ist der Unterschied zwischen Gemini und ChatGPT?

Welches Gemini-Modell sollte ich für Programmierung verwenden?

Wie viel kostet die Gemini API?

Was ist Gemini Nano und wofür wird es verwendet?

Ist Gemini kostenlos nutzbar?

Was ist der Unterschied zwischen Gemini Pro und Flash?

Wie groß ist das Kontextfenster von Gemini-Modellen?

Welche Gemini-Versionen gibt es aktuell?

Kann Gemini Bilder und Videos verstehen?

Was sind die multimodalen Fähigkeiten von Gemini?

Wann erscheint Gemini 3.0?

Was ist der Unterschied zwischen Gemini 1.5 und 2.5?

Welches ist das günstigste Gemini-Modell?

Unterstützt Gemini Prompt Caching?

Wie schneidet Gemini in Benchmarks ab?

Finn Hillebrandt

Ähnliche Artikel

Claude-Modelle: Alle 22 Modelle im Überblick

ChatGPT-Statistiken 2026: Spannende Zahlen, Daten & Fakten

Google Gemini API: Wie du einen API Key erstellst (und nutzt)

GPT-3.5 vs. GPT-4: Was ist der Unterschied?

GPT-4 kostenlos nutzen: 7 Wege ohne ChatGPT Plus

ChatGPT-Versionen: Alle 28 GPT-Modelle im Überblick