Zum Hauptinhalt springen

Gemini-Modelle: Alle Modelle von Google im Überblick

Alle Google Gemini-Modelle im Vergleich: Von Gemini 1.0 bis 3.0 mit Preisen, Kontextfenstern und Use Cases – finde das beste Modell 2025.

FHFinn Hillebrandt
KI-Technik
Gemini-Modelle: Alle Modelle von Google im Überblick
Mit * gekennzeichnete Links sind Affiliate-Links. Kommt über solche Links ein Kauf zustande, bekommen wir eine Provision.

Google Gemini hat sich seit dem Launch im Dezember 2023 als einer der stärksten Konkurrenten zu ChatGPT und Claude etabliert.

Die Evolution ist beeindruckend: Angefangen bei den ersten 1.0-Modellen, dann die großen 1.5-Versionen mit 2 Millionen Token Kontext, bis zu den aktuellen 2.5-Modellen. Jede Generation hat das Vorherige übertroffen.

Aber welches Gemini-Modell ist das richtige für deine Anwendung? Was unterscheidet Pro von Flash? Und wie schneidet Gemini im Vergleich zu ChatGPT und Claude ab?

In diesem Artikel erkläre ich dir alles Wichtige zu den verschiedenen Gemini-Modellen, ihren Features, Preisen und Verfügbarkeit.

TL;DRDas Wichtigste in Kürze
  • Gemini 2.5 Pro ist das neueste Premium-Modell (November 2024) mit 1 Million Token Kontext und starker Performance bei Code und Analyse für 1,25-2,50 $/10-15 $ pro Million Token
  • Gemini 2.5 Flash-Lite ist das günstigste leistungsstarke LLM am Markt (0,10 $/0,40 $ pro Million Token) und bietet beste Balance aus Geschwindigkeit, Kosten und Qualität
  • Alle modernen Gemini-Modelle (ab 1.5) sind nativ multimodal und verarbeiten Text, Bilder, Audio und Video gleichzeitig mit bis zu 1 Million Token Kontext

Was sind Gemini-Modelle?

Gemini-Modelle sind Googles fortschrittliche Large Language Models, die von DeepMind und Google Research entwickelt wurden.

Was macht Gemini anders? Ein paar Dinge fallen sofort auf:

Zum einen: Native Multimodalität von Anfang an. Google hat Gemini mit Text, Bildern, Audio und Video trainiert – nicht wie andere Anbieter, die das nachträglich reingepatcht haben. Das gibt Gemini ein viel tieferes Verständnis für alle diese Modalitäten zusammen.

Dann das Kontextfenster: Gemini 2.5 Pro verarbeitet bis zu 1 Million Token (experimentell auch 2 Millionen). Das sind ungefähr 700.000 Wörter oder über 1.400 Buchseiten. In einem einzigen Request. Das ist... sehr groß.

Google hat auch keine Ein-Modell-Strategie. Stattdessen: Nano für Smartphones, Flash für die meisten Standard-Aufgaben, Pro für anspruchsvolle Sachen. Jedes hat seinen Platz. Und weil Gemini tief in Google Search, Workspace und Android integriert ist, funktioniert es da besonders gut.

Google hat mit Gemini einen anderen Ansatz als OpenAI gewählt: Statt auf maximale Benchmark-Performance zu setzen, liegt der Fokus auf praktischer Vielseitigkeit, Multimodalität und Integration in das Google-Ökosystem.

Vergleich aller Gemini-Modelle

Hier ist eine detaillierte Übersicht aller Gemini-Modelle mit ihren wichtigsten Eigenschaften:

Modell
Veröffentlichung
Kontextfenster
Multimodal
Status
Gemini 1.0 Pro12/202332.000 TokenNeinEingestellt
Gemini 1.0 Ultra12/202332.000 TokenNeinEingestellt
Gemini 1.5 Pro02/20242 Mio. TokenJaEingestellt · 04/2025
Gemini 1.5 Flash05/20241 Mio. TokenJaEingestellt · 04/2025
Gemini 2.0 Flash09/20241 Mio. TokenJaAktiv
Gemini 2.5 Flash-Lite11/20241 Mio. TokenJaAktiv
Gemini 2.5 Flash11/20241 Mio. TokenJaAktiv
Gemini 2.5 Pro11/20241 Mio. TokenJaAktiv
Gemini 3.0 Pro Preview11/20251 Mio. TokenJaPreview
Gemini Nano-112/20234.000 TokenNeinAktiv
Gemini Nano-205/20244.000 TokenJaAktiv

Gemini 3.0 Pro Preview

Veröffentlicht: November 2025

Gemini 3.0 Pro Preview ist die neueste Generation von Googles KI-Modellen und befindet sich derzeit im Early Access.

Hauptmerkmale:

  • Neueste KI-Generation von Google DeepMind
  • Vorschau-Zugang für ausgewählte Entwickler und Unternehmen
  • Verbesserte Reasoning-Fähigkeiten gegenüber Gemini 2.5
  • Multimodale Verbesserungen besonders bei Video-Verständnis
  • 1 Million Token Kontextfenster (Input), bis zu 64.000 Token Output
  • Gestaffelte API-Preise: 2,00 $ / 12,00 $ pro Million Tokens (unter 200k Kontext), 4,00 $ / 18,00 $ (über 200k Kontext)
  • Zugang über Google AI Studio Early Access Program

Verfügbarkeit: Gemini 3.0 Pro ist derzeit nur als Preview für ausgewählte Partner verfügbar. Die vollständige öffentliche Veröffentlichung wird für Anfang 2026 erwartet. Während der Preview-Phase könnte Google die API-Nutzung für Testzwecke kostenlos anbieten.

Gemini 2.5 Pro

Veröffentlicht: November 2024

Gemini 2.5 Pro ist Googles aktuelle Premium-Variante. Es hat die höchste Performance der gesamten Familie – wenn du komplexe Aufgaben lösen musst, ist das dein Modell. (Mehr zur Gemini API findest du in unserem separate Guide.)

Was bietet Pro konkret?

  • State-of-the-art Performance bei komplizierten Reasoning- und Code-Aufgaben
  • 1 Million Token Kontextfenster (experimentell auch 2 Millionen)
  • Gestaffelte Preise: 1,25 $ / 10 $ für Standard-Prompts (≤ 128K Token), 2,50 $ / 15 $ für längere
  • Native Multimodalität – Text, Bilder, Audio, Video zusammen verarbeiten
  • Prompt Caching mit 75 % Rabatt auf gecachte Inputs (0,3125 $ statt 1,25–2,50 $)
  • API-Model-String: gemini-2.5-pro

Was macht Gemini 2.5 Pro besonders?

Gemini 2.5 Pro ist Googles Antwort auf Claude 4 Opus und GPT-4o. Es bietet vergleichbare Performance bei komplexen Reasoning-Aufgaben und übertrifft beide Konkurrenten bei der Verarbeitung sehr langer Kontexte. Das 1-Million-Token-Fenster ermöglicht die Analyse kompletter Bücher, großer Codebasen oder stundenlanger Video-Transkripte in einem einzigen API-Call.

Die gestaffelte Preisstruktur macht es wirtschaftlich: Für die meisten Standard-Prompts (≤ 128K Tokens) zahlst du nur 1,25 $ / 10 $ – deutlich günstiger als Claude 4 Opus (15 $ / 75 $) bei vergleichbarer Leistung.

Wo bekommst du es? Die Google AI API, Google AI Studio, Vertex AI oder Google Cloud.

Wann brauchst du Pro? Wenn du ganze Codebases analysieren, lange Research-Paper durchforsten, dickwandige Verträge zusammenfassen oder Stunden-Videos in einem Shot verarbeiten willst. Das ist nicht für Chatbots gedacht – dafür ist Flash da und günstiger.

Gemini 2.5 Flash

Veröffentlicht: November 2024

Gemini 2.5 Flash ist die ausgewogene Variante – der Modell-Evergreen der 2.5-Serie. Es liefert 90 % der Pro-Leistung, kostet aber einen Bruchteil und ist deutlich schneller.

Die Eckdaten:

  • 90 % der Pro-Performance bei einem Bruchteil der Kosten
  • 2–3x schneller als Pro (Inferenz-Speed)
  • 1 Million Token Kontext
  • 0,30 $ Input / 2,50 $ Output pro Million Token
  • Prompt Caching: 0,075 $ für gecachte Inputs
  • Multimodal: Text, Bilder, Audio, Video
  • API-String: gemini-2.5-flash

Was macht Gemini 2.5 Flash besonders?

Gemini 2.5 Flash ist das ideale Produktionsmodell für 90 % aller Anwendungsfälle. Es bietet nahezu die gleiche Qualität wie Pro (90 % Performance) bei 80 % niedrigeren Kosten und 2-3x schnellerer Response-Zeit. Dies macht es perfekt für Chatbots, Content-Generierung und Automatisierungs-Workflows, wo schnelle Antworten wichtiger sind als die absolut höchste Präzision.

Im Vergleich zu ChatGPT GPT-4o (15 $ / 60 $ pro Million Token) bietet Gemini 2.5 Flash bei ähnlicher Qualität 98 % Kostenersparnis – ein unschlagbares Preis-Leistungs-Verhältnis.

Du findest Flash über Google AI API, Google AI Studio, Vertex AI, Google Cloud – und es ist das Backend-Modell für viele Google-Produkte.

Konkrete Nutzung: Chatbots, die schnell antworten müssen. Content-Generierung (Artikel, Marketing-Texte, Social Posts). Datenextraktion aus ungeordneten Quellen. E-Mail-Klassifizierung, Sentiment-Analysen, Zusammenfassungen. Screenshot-Verständnis und OCR. Für all das brauchst du nicht Pro, Flash reicht aus und spart Geld.

Gemini 2.5 Flash-Lite

Veröffentlicht: November 2024

Gemini 2.5 Flash-Lite ist was Sache: Das billigste brauchbare LLM am Markt. Und gleichzeitig extrem schnell.

Die wichtigsten Zahlen:

  • 0,10 $ Input / 0,40 $ Output pro Million Token (billigste am Markt)
  • 5x schneller als Pro-Modelle
  • Trotzdem 70–80 % der Flash-Performance
  • 1 Million Token Kontext
  • Prompt Caching: 0,025 $ für gecachte Inputs
  • Multimodal: Text, Bilder, Audio, Video
  • API-String: gemini-2.5-flash-lite

Warum ist das so interessant? Es ist 50–60 % billiger als GPT-4o-mini (0,15 $ / 0,60 $) oder Claude 3 Haiku (0,25 $ / 1,25 $). Und es ist nicht langsam – eher das Gegenteil.

Die Qualität? 70–80 % der Flash-Performance für Chatbot-Responses, einfache Textgenerierung und Klassifizierung. Wenn du Millionen von API-Calls täglich brauchst, sind die Kostenersparnisse enorm.

Wo findest du es? Google AI API, Google AI Studio, Vertex AI.

Einsatzszenarien: Chatbots mit Millionen täglich. Content-Moderation im großen Stil. Sentiment-Analysen, Kategorisierung, Tags. Echtzeitanwendungen, wo low Latency wichtig ist. Massive Batch-Processing mit kleinem Budget.

Gemini 2.0 Flash

Veröffentlicht: September 2024

Gemini 2.0 Flash ist die ältere Version von Flash. Der Vorteil: Kostenlos mit Rate Limits.

Kurzinfo:

  • 100 % kostenlos (Rate Limits: 15 req./min, 1.500 /Tag, 1 Mio /Monat)
  • ~80 % der 2.5-Flash-Performance
  • 1 Million Token Kontext
  • Multimodal: Text, Bilder, Audio
  • API-String: gemini-2.0-flash

Einsatz: Prototyping, schnelle Tests, Low-Volume-Anwendungen. Wenn du wirklich Production brauchst ohne Rate Limits, upgrade auf 2.5 Flash.

Gemini 1.5 Pro

Veröffentlicht: Februar 2024

Gemini 1.5 Pro war 2024 ein großes Ding: Erstes Modell mit 2 Millionen Token Kontext. Das war damals Weltrekord.

Heute: Es wird am 30. April 2025 abgeschaltet. Wenn du noch 1.5 Pro nutzt, migriere auf 2.5 Pro – bessere Performance, weniger Ärger.

Was 1.5 hatte: 2 Millionen Token (beeindruckend damals). Native Multimodalität. Starke Video- und Dokumentanalyse. Aber das war 2024.

Gemini 1.5 Flash

Veröffentlicht: Mai 2024

Gemini 1.5 Flash war quasi die günstigere, schnellere Version von 1.5 Pro. Auch deprecated.

Die Facts: 1 Million Token Kontext. Schnell, niedrige Kosten. Multimodal. Aber auch am 30. April 2025 offline. Nutzer sollten auf 2.5 Flash wechseln.

Gemini 1.0 Pro und Ultra

Veröffentlicht: Dezember 2023

Gemini 1.0 war der erste Versuch. Heute: Nicht mehr relevant.

Was war's? 32.000 Token Kontext. Text-only, keine Bilder/Videos. Pro war Standard, Ultra war Premium. Beide sind längst weg. Google hat sie schnell durch 1.5 und 2.x ersetzt – viel bessere Modelle.

Gemini Nano

Veröffentlicht: Dezember 2023 / Mai 2024

Gemini Nano ist anders: On-Device KI für Smartphones. Läuft lokal, keine Cloud.

Was wichtig ist:

  • On-Device: Direkt auf Smartphones, kein Cloud-Call
  • Zwei Varianten: Nano-1 (text-only) und Nano-2 (multimodal)
  • 4.000 Token Kontext (klein, aber reicht für Smartphone-Aufgaben)
  • Datenschutz: Alles bleibt lokal
  • Hardware: Pixel Smartphones, Samsung Galaxy S24+, weitere Android-Devices
  • Einsatz: Smart Reply, Live-Transkription, Offline-Übersetzung, Foto-Bearbeitung

Verfügbar: Bereits in verschiedenen Android-Phones integriert. Google rollt es per System-Update aus. Entwickler können AICore API nutzen.

Preisvergleich aller Gemini-Modelle

Die folgende Tabelle zeigt eine detaillierte Übersicht aller Gemini-Preise (alle Angaben in $ pro Million Token). Für eine ausführliche Analyse empfehlen wir unseren API-Kostenrechner:

Modell
Status
Input (Standard)
Output (Standard)
Input (Cached)
Output (Cached)
Gemini 2.5 ProAktiv1,25 $ / 2,50 $ ≤ 128K / > 128K10 $ / 15 $ ≤ 128K / > 128K0,3125 $10 $ / 15 $
Gemini 2.5 FlashAktiv0,30 $2,50 $0,075 $2,50 $
Gemini 2.5 Flash-LiteAktiv0,10 $0,40 $0,025 $0,40 $
Gemini 2.0 FlashAktivKostenlos (Rate Limits)Kostenlos (Rate Limits)

Wichtige Hinweise zur Preistabelle:

  • Gemini 2.5 Pro hat gestaffelte Preise: Günstigere Preise für Prompts ≤ 128.000 Token (1,25 $ / 10 $), höhere Preise für längere Prompts (größer als 128.000 Token: 2,50 $ / 15 $)
  • Context Caching (Prompt Caching) ermöglicht 75 % Rabatt auf gecachte Input-Tokens bei wiederholter Nutzung. Beispiel: Gemini 2.5 Flash Input kostet normal 0,30 $, gecacht nur 0,075 $
  • Gemini 2.0 Flash ist komplett kostenlos mit Rate Limits: 15 Anfragen pro Minute, 1.500 pro Tag, 1 Million pro Monat
  • Output-Preise bei Cached Prompts bleiben gleich wie Standard (kein Rabatt auf Output)

Häufig gestellte Fragen zu Gemini-Modellen

FH

Finn Hillebrandt

KI-Experte & Blogger

Finn Hillebrandt ist der Gründer von Gradually AI, SEO- und KI-Experte. Er hilft Online-Unternehmern, ihre Prozesse und ihr Marketing mit KI zu vereinfachen und zu automatisieren. Finn teilt sein Wissen hier auf dem Blog in 50+ Fachartikeln sowie über seinen ChatGPT-Kurs und den KI Business Club.

Erfahre mehr über Finn und das Team, folge Finn bei LinkedIn, tritt seiner Facebook-Gruppe zu ChatGPT, OpenAI & KI-Tools bei oder mache es wie 17.500+ andere und abonniere seinen KI-Newsletter mit Tipps, News und Angeboten rund um KI-Tools und Online-Business. Besuche auch seinen anderen Blog, Blogmojo, auf dem es um WordPress, Bloggen und SEO geht.