Deep Research ist aktuell ein großer Trend bei KI-Chatbots.
Und das nicht ohne Grund:
Die Funktion, dass ein KI-Chatbot tiefe Internet-Recherche durchführt, also selbstständig nach vielen (!), passenden Quellen im Internet sucht und diese von selbst auswertet, ist einer der ersten wirklich gut funktionierenden Use Cases für autonome KI-Agenten.
Ich habe die Deep-Research-Funktionen vieler verschiedener Chatbots für dich getestet. Das ist dabei herausgekommen:
1. ChatGPT Plus & Pro
Um Deep Research von ChatGPT ausführlich testen zu können, habe ich mir extra ChatGPT Pro geholt (das teuerste Abo für 200 $ / Monat):

Denn im Gegensatz zu ChatGPT Plus bietet es nicht nur 10 Mal im Monat die Möglichkeit Deep Research zu nutzen, sondern unbegrenzt.
Vor allem hat mich der Deep Research mit o1 pro, OpenAIs aktuell bestem Reasoning-Modell, interessiert.
Und Letzteres ist wirklich gut. Deutlich besser, als ich dachte.
Es eignet sich super, um einen tieferen Überblick über ein Thema zu bekommen, Newsletter oder Blogartikel zu schreiben. Auch für wissenschaftliche Arbeiten eignet es sich super, denn es kann Quellen sehr genau angeben (auch mit der entsprechenden Zitierweise, wenn man danach fragt):

Was leider manchmal nicht so gut funktioniert, ist das Nachfassen oder Überarbeiten von generierter Recherche.
Die erste Version meines KI-Newsletters (siehe Ausschnitt oben) war z. B. super. Danach wollte ich einige Änderungen vornehmen und Dinge ergänzen, was nicht so gut geklappt hat:

Was mir auch nicht so gut gefällt, ist die Formatierung der Recherche. Während mir Deep Research in manch anderen Tools zu viele „Bullet Points“ enthält, bekommt man bei ChatGPT Deep Research oft eine Textwüste mit sehr langen Absätzen:

Ich vermute, dass das dadurch kommt, dass Deep Research bei ChatGPT primär oder ursprünglich für Wissenschaftler entwickelt wurde.
Und nein:
Die Neigung zu sehr langen und unstrukturierten Texten ist gleich, unabhängig, ob man GPT-4o, o1-pro oder GPT-4.5 Preview verwendet. 😄
2. Perplexity Deep Research
Perplexity Deep Research ist mit 20 $ pro Monat viel günstiger als ChatGPT Pro und dafür nicht viel schlechter.
Zwar ist die „erste Recherche“ nicht so ausführlich und genau wie die von ChatGPT Pro (ChatGPT bezieht in der Regel mehr Quellen mit ein).
Dafür ist Perplexity deutlich schneller, gibt besser strukturierten Output und ist genauso gut darin, den Textausschnitten Quellen zuzuweisen:

Der große Vorteil von Perplexity ist, dass es besser darin ist, nachzufassen und weiter zu recherchieren als ChatGPT (warum, weiß ich nicht genau, aber ich vermute, es hat was mit dem Context Window zu tun):

Super hilfreich ist auch, dass Perplexity nach jeder Antwort mögliche weiterführende Fragen anbietet:

Was schade ist:
Leider kann man für Deep Research das Modell nicht selbst auswählen. Ich vermute, dass entweder Claude 3.7 Sonnet oder eine modifizierte Variante von DeepSeek R1 zum Einsatz kommt (letzteres halte ich für wahrscheinlicher, da Perplexity DeepSeek R1 selbst hostet, was deutlich günstiger ist als die Nutzung von Claude 3.7 Sonnet über API).
3. Grok 3 Deep Research
Man kann von Elon Musk halten, was man möchte. Aber Grok 3 und dessen Deep-Research-Funktion sind wirklich gut.
Die Ergebnisse sind ausführlich, enthalten viele Quell-Links (direkt im Text), sind größtenteils akkurat und, im Gegensatz zu o1 pro Deep Research, besser strukturiert:

Einziger Nachteil:
Grok 3 ist am besten auf Englisch. Auf Deutsch neigt er, mehr als andere KI-Modelle/Chatbots zu „Denglisch“.
4. Gemini Deep Research
Die Deep-Research-Funktion von Google Gemini (verfügbar in Gemini Advanced) landet bei mir auf dem letzten Platz.
Sie ist an sich nicht schlecht und würde sich wahrscheinlich irgendwo zwischen dem zweiten und dritten Platz einordnen.
Es werden sehr viele Quellen durchsucht und die Rechercheberichte sind sehr gut formatiert und stimmig (was auch kein Wunder ist, denn Google ist in Sachen Suchmaschinentechnologie Spitzenreiter):

Das Problem ist aktuell leider:
Sie funktioniert aktuell leider noch nicht gut und ist stark fehlerbehaftet. Ich habe 4 Versuche gebraucht, damit Deep Research angesprungen ist. Beim Versuch, der funktioniert hat, habe ich sage und schreibe 5 Prompts gebraucht.
So wird der allererste Prompt z. B. immer nur wiederholt (ohne, dass die Recherche gestartet wird):

Sehr hohes Frustrationspotenzial also. Schade…
Deep Research Vergleichstabelle
ChatGPT Plus | ChatGPT Pro | Perplexity Pro | Grok | Gemini Advanced | |
---|---|---|---|---|---|
Abfragen | 10 / Monat | ∞ | 300 / Tag | unbekannt | unbekannt |
KI-Modelle | GPT-4o, GPT-4.5, o3-mini | GPT-4o, GPT-4.5, o3-mini, o1, o1-pro | DeepSeek R1 | Grok 3 | Gemini 2.0 Flash |
Quellenanzahl | viele | sehr viele | viele | viele | sehr viele |
Zitate | gut | sehr gut | sehr gut | okay | okay |
Qualität | gut bis sehr gut | sehr gut | sehr gut | gut | gut |