Als Online-Unternehmer oder Blogger stehst du vor einer neuen Herausforderung:
Webcrawler von OpenAI, Anthropic oder Google durchsuchen das Web und sammeln Trainingsdaten für LLMs und andere KI-Modelle.
Deine wertvollen Blogbeiträge, die du mit viel Mühe erstellt hast, könnten so ohne dein Wissen und deine Zustimmung zur für KI-generierte Texte in ChatGPT & Co. verwendet werden.
Das kann nicht nur deine Urheberrechte verletzen, sondern auch deine Wettbewerbsposition gefährden. Irgendwie beunruhigend, oder?
Vielleicht fragst du dich schon: Wie kann ich meine Arbeit schützen? Wie verhindere ich, dass meine Inhalte ohne mein Einverständnis für KI-Training verwendet werden?
Kein Problem!
In diesem Artikel zeige ich dir einfach und Schritt für Schritt, wie du deine robots.txt konfigurierst, um deine Inhalte zu schützen.
1. Vorbereitung
Bevor wir loslegen und deine Website vor neugierigen KI-Crawlern schützen, musst du ein paar Vorbereitungen treffen. Keine Sorge, es ist einfacher, als du vielleicht denkst!
Zugriff auf den Webserver
Zunächst brauchst du Zugang zu deinem Webserver. Das klingt technisch, ist aber oft nur ein Login in dein Hosting-Konto.
Wenn du WordPress nutzt, kannst du über FTP oder das File Manager Plugin direkt auf deine Dateien zugreifen.
Backup der bestehenden robots.txt
Sicherheit geht vor! Falls du schon eine robots.txt-Datei hast, mach unbedingt eine Kopie davon. So kannst du im Notfall immer zur alten Version zurückkehren:
- Suche die robots.txt-Datei im Hauptverzeichnis deiner Website
- Lade sie auf deinen Computer herunter oder kopiere den Inhalt in ein Textdokument
- Speichere diese Sicherung an einem sicheren Ort
2. Erstellung/Bearbeitung der robots.txt
Du kein Programmiergenie sein, um deine robots.txt-Datei zu erstellen oder zu bearbeiten.
Dafür sind nur wenige Schritte erforderlich:
2.1 Öffnen oder Erstellen der Datei
Zunächst musst du prüfen, ob auf deiner Website bereits eine robots.txt existiert. Dafür gibt’s einen einfachen Trick:
- Öffne deinen Browser
- Gib deine Domain ein, gefolgt von „/robots.txt“ (z. B. www.deinewebsite.de/robots.txt)
- Siehst du Text? Super, die Datei existiert bereits. Wenn nicht, erstellen wir eine neue.
Falls du eine neue Datei anlegen musst:
- Öffne einen einfachen Texteditor (Notepad, TextEdit, etc.)
- Erstelle ein neues, leeres Dokument
- Speichere es als „robots.txt“ (Achtung: keine Dateiendung wie .txt anhängen!)
2.2 Grundstruktur anlegen
Die robots.txt folgt einer bestimmten Syntax (Aufbau). Hier die Basics:
User-agent: [Name des Crawlers]
Disallow: [Pfad, der blockiert werden soll]
Für den Anfang könntest du so etwas schreiben:
User-agent: *
Disallow:
Das bedeutet: Alle Crawler (*) dürfen alles crawlen (leeres „Disallow”). Das ist unser Ausgangspunkt, von dem aus wir die Datei weiter anpassen werden.
3. Blockieren spezifischer KI-Crawler
Um gängige KI-Crawler zu blockieren, musst du folgende Blöcke in deine robots.txt einfügen:
OpenAI (ChatGPT)
OpenAI hat insgesamt drei verschiedene Crawler, die verschiedene Funktionen erfüllen. Um Content-Diebstahl möglich effektiv zu verhindern, solltest du alle ausschließen:
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /
Anthropic (Claude)
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
Google (Bard/Gemini)
User-agent: Google-Extended
Disallow: /
Common Crawl
User-agent: CCBot
Disallow: /
Perplexity
User-agent: PerplexityBot
Disallow: /
Meta AI / Facebook
User-agent: FacebookBot
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Meta-ExternalFetcher
Disallow: /
Webz.io
User-agent: OmgiliBot
Disallow: /
Cohere
User-agent: cohere-ai
Disallow: /
5. Selektives Blockieren
Manchmal willst du KI-Crawler nicht komplett aussperren, sondern nur bestimmte Bereiche deiner Website schützen.
Kein Problem!
Bestimmte Verzeichnisse/Seiten für KI-Crawler sperren
Wenn du einen Bereich mit exklusiven Inhalten hast, kannst du diesen mit folgendem Code von Crawlern ausschließen:
User-agent: GPTBot
Disallow: /exklusiv/
User-agent: anthropic-ai
Disallow: /premium-content/
In diesem Beispiel blockierst du GPTBot von deinem „/exklusiv/“ Verzeichnis und Anthropic’s Crawler von „/premium-content/“.
Ausnahmen definieren
Manchmal möchtest du vielleicht den Großteil deiner Seite blockieren, aber bestimmte Bereiche für KI-Crawler zugänglich machen. Hier ein Beispiel:
User-agent: GPTBot
Disallow: /
Allow: /blog/
User-agent: anthropic-ai
Disallow: /
Allow: /oeffentlich/
In diesem Fall blockierst du zunächst alles mit Disallow: /
, erlaubst dann aber spezifische Bereiche mit Allow.
GPTBot darf also deinen Blog crawlen, während Anthropica Crawler nur auf den öffentlichen Bereich zugreifen kann.
6. Überprüfung und Testen
Alles eingerichtet? Super!
Aber bevor du dich zurücklehnst, solltest du sicherstellen, dass deine robots.txt auch wirklich das tut, was sie soll.
Google stellt dir dafür ein tolles Werkzeug zur Verfügung: Den robots.txt-Tester in der Google Search Console.
Hier kannst du sehen, ob deine robots.txt richtig von Google abgerufen kann und ob sie Fehler beinhaltet.