Wie du die Crawler von OpenAI/ChatGPT, Anthropic & Co. per robots.txt blockierst

Als Online-Unternehmer oder Blogger stehst du vor einer neuen Herausforderung:

Webcrawler von OpenAI, Anthropic oder Google durchsuchen das Web und sammeln Trainingsdaten für LLMs und andere KI-Modelle.

Deine wertvollen Blogbeiträge, die du mit viel Mühe erstellt hast, könnten so ohne dein Wissen und deine Zustimmung zur für KI-generierte Texte in ChatGPT & Co. verwendet werden.

Das kann nicht nur deine Urheberrechte verletzen, sondern auch deine Wettbewerbsposition gefährden. Irgendwie beunruhigend, oder?

Vielleicht fragst du dich schon: Wie kann ich meine Arbeit schützen? Wie verhindere ich, dass meine Inhalte ohne mein Einverständnis für KI-Training verwendet werden?

Kein Problem!

In diesem Artikel zeige ich dir einfach und Schritt für Schritt, wie du deine robots.txt konfigurierst, um deine Inhalte zu schützen.

Inhaltsverzeichnis Anzeigen

1. Vorbereitung

Bevor wir loslegen und deine Website vor neugierigen KI-Crawlern schützen, musst du ein paar Vorbereitungen treffen. Keine Sorge, es ist einfacher, als du vielleicht denkst!

Zugriff auf den Webserver

Zunächst brauchst du Zugang zu deinem Webserver. Das klingt technisch, ist aber oft nur ein Login in dein Hosting-Konto.

Wenn du WordPress nutzt, kannst du über FTP oder das File Manager Plugin direkt auf deine Dateien zugreifen.

Backup der bestehenden robots.txt

Sicherheit geht vor! Falls du schon eine robots.txt-Datei hast, mach unbedingt eine Kopie davon. So kannst du im Notfall immer zur alten Version zurückkehren:

Suche die robots.txt-Datei im Hauptverzeichnis deiner Website
Lade sie auf deinen Computer herunter oder kopiere den Inhalt in ein Textdokument
Speichere diese Sicherung an einem sicheren Ort

2. Erstellung/Bearbeitung der robots.txt

Du kein Programmiergenie sein, um deine robots.txt-Datei zu erstellen oder zu bearbeiten.

Dafür sind nur wenige Schritte erforderlich:

2.1 Öffnen oder Erstellen der Datei

Zunächst musst du prüfen, ob auf deiner Website bereits eine robots.txt existiert. Dafür gibt’s einen einfachen Trick:

Öffne deinen Browser
Gib deine Domain ein, gefolgt von „/robots.txt“ (z. B. www.deinewebsite.de/robots.txt)
Siehst du Text? Super, die Datei existiert bereits. Wenn nicht, erstellen wir eine neue.

Falls du eine neue Datei anlegen musst:

Öffne einen einfachen Texteditor (Notepad, TextEdit, etc.)
Erstelle ein neues, leeres Dokument
Speichere es als „robots.txt“ (Achtung: keine Dateiendung wie .txt anhängen!)

2.2 Grundstruktur anlegen

Die robots.txt folgt einer bestimmten Syntax (Aufbau). Hier die Basics:

User-agent: [Name des Crawlers]
Disallow: [Pfad, der blockiert werden soll]

Für den Anfang könntest du so etwas schreiben:

User-agent: *
Disallow:

Das bedeutet: Alle Crawler (*) dürfen alles crawlen (leeres „Disallow”). Das ist unser Ausgangspunkt, von dem aus wir die Datei weiter anpassen werden.

Achtung: Jede Änderung an der robots.txt kann Auswirkungen auf die Indexierung deiner Website haben. Geh also behutsam vor und teste deine Änderungen sorgfältig.

3. Blockieren spezifischer KI-Crawler

Um gängige KI-Crawler zu blockieren, musst du folgende Blöcke in deine robots.txt einfügen:

OpenAI (ChatGPT)

OpenAI hat insgesamt drei verschiedene Crawler, die verschiedene Funktionen erfüllen. Um Content-Diebstahl möglich effektiv zu verhindern, solltest du alle ausschließen:

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: GPTBot
Disallow: /

Anthropic (Claude)

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

Google (Bard/Gemini)

User-agent: Google-Extended
Disallow: /

Common Crawl

User-agent: CCBot
Disallow: /

Perplexity

User-agent: PerplexityBot
Disallow: /

Meta AI / Facebook

User-agent: FacebookBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Meta-ExternalFetcher
Disallow: /

Webz.io

User-agent: OmgiliBot
Disallow: /

Cohere

User-agent: cohere-ai
Disallow: /

Hinweis: Obwohl viele seriöse Unternehmen die robots.txt-Regeln respektieren, gibt es keine Garantie, dass alle Crawler sich daran halten.

5. Selektives Blockieren

Manchmal willst du KI-Crawler nicht komplett aussperren, sondern nur bestimmte Bereiche deiner Website schützen.

Kein Problem!

Bestimmte Verzeichnisse/Seiten für KI-Crawler sperren

Wenn du einen Bereich mit exklusiven Inhalten hast, kannst du diesen mit folgendem Code von Crawlern ausschließen:

User-agent: GPTBot
Disallow: /exklusiv/

User-agent: anthropic-ai
Disallow: /premium-content/

In diesem Beispiel blockierst du GPTBot von deinem „/exklusiv/“ Verzeichnis und Anthropic’s Crawler von „/premium-content/“.

Ausnahmen definieren

Manchmal möchtest du vielleicht den Großteil deiner Seite blockieren, aber bestimmte Bereiche für KI-Crawler zugänglich machen. Hier ein Beispiel:

User-agent: GPTBot
Disallow: /
Allow: /blog/

User-agent: anthropic-ai
Disallow: /
Allow: /oeffentlich/

In diesem Fall blockierst du zunächst alles mit Disallow: /, erlaubst dann aber spezifische Bereiche mit Allow.

GPTBot darf also deinen Blog crawlen, während Anthropica Crawler nur auf den öffentlichen Bereich zugreifen kann.

6. Überprüfung und Testen

Alles eingerichtet? Super!

Aber bevor du dich zurücklehnst, solltest du sicherstellen, dass deine robots.txt auch wirklich das tut, was sie soll.

Google stellt dir dafür ein tolles Werkzeug zur Verfügung: Den robots.txt-Tester in der Google Search Console.

Hier kannst du sehen, ob deine robots.txt richtig von Google abgerufen kann und ob sie Fehler beinhaltet.

Über den Autor

Finn Hillebrandt ist der Gründer von Gradually AI (ehemals Blogmojo) und Blogmojo.ai, SEO-Experte mit 13+ Jahren Erfahrung und KI-Nerd.

Er hilft Online-Unternehmern mehr Kunden über Google zu bekommen und ihre Prozesse mit KI-Tools zu vereinfachen und zu automatisieren.

Finn teilt sein Wissen hier auf dem Blog in 170+ Fachartikeln zu KI-Tools, WordPress und SEO sowie über seinen ChatGPT-Kurs und den SEO-Kurs New Level SEO mit zusammengenommen 600+ Teilnehmern.

Erfahre mehr über Finn und das Team, folge Gradually AI auf Instagram und bei Threads, tritt seiner Facebook-Gruppe zu ChatGPT, OpenAI & KI-Tools bei oder mache es wie 17.500+ andere und abonniere seinen KI-Newsletter mit Tipps, News und Angeboten rund um KI-Tools und Online-Business.

Wie du die Crawler von OpenAI/ChatGPT, Anthropic & Co. per robots.txt blockierst

1. Vorbereitung

2. Erstellung/Bearbeitung der robots.txt

2.1 Öffnen oder Erstellen der Datei

2.2 Grundstruktur anlegen

3. Blockieren spezifischer KI-Crawler

5. Selektives Blockieren

6. Überprüfung und Testen

Das könnte dich auch interessieren...

Die 10 besten KI-Tools 2024 (4 davon kostenlos)

10 Prompting-Techniken, um das Beste aus ChatGPT, Claude & Co. herauszuholen

Google Gemini API: Wie du einen API Key erstellst (und nutzt)

KI-Text erkennen: 13 Tools im ausführlichen Vergleich

ChatGPT-Prompts schreiben: 9 Tipps für bessere Resultate

11 ChatGPT-Alternativen für 2024, die teilweise besser sind

3 Wege, um GPT-4 kostenlos zu nutzen (ohne Abo)

Die 7 besten KI-Avatargeneratoren (4 davon kostenlos)

Wie du YouTube-Videos in Shorts umwandelst (Schritt für Schritt mit KI)

Über den Autor

Wie du die Crawler von OpenAI/ChatGPT, Anthropic & Co. per robots.txt blockierst

1. Vorbereitung

2. Erstellung/Bearbeitung der robots.txt

2.1 Öffnen oder Erstellen der Datei

2.2 Grundstruktur anlegen

3. Blockieren spezifischer KI-Crawler

5. Selektives Blockieren

6. Überprüfung und Testen

Das könnte dich auch interessieren...

Über den Autor

Werbehinweis für Links mit Sternchen (*)

Wie hat dir dieser Artikel gefallen?