robots.txt für KI-Crawler: GPTBot, ClaudeBot & Co. richtig konfigurieren

Das Wichtigste in Kürze

  • 158 KI-Crawler sind aktuell dokumentiert (ai.robots.txt GitHub). Die wichtigsten für deine Sichtbarkeit: GPTBot, OAI-SearchBot, ChatGPT-User (OpenAI), ClaudeBot, Claude-SearchBot, Claude-User (Anthropic), PerplexityBot, Google-Extended und Meta-ExternalAgent.
  • 5,6 Mio. Websites blockieren GPTBot — ein Anstieg von 70 % in einem Jahr (Search Engine Journal, 2025). 79 % der Top-Nachrichtenseiten blockieren mindestens einen KI-Bot. Aber: Die Blocking-Welle hat Anfang 2026 ein Plateau erreicht.
  • Training und Suche sind getrennt blockierbar. GPTBot blockieren = kein Training, aber ChatGPT-Suche bleibt aktiv. Google-Extended blockieren = kein Gemini-Training, aber Google Search und AI Overviews bleiben unberührt.
  • KI-Referral-Traffic wächst um +527 % pro Jahr. ChatGPT-Traffic konvertiert mit 15,9 %, Perplexity mit 10,5 %. Wer Such-Bots blockiert, verliert diesen Traffic — ohne Einfluss auf das Training-Problem.
  • Dieser Artikel enthält eine fertige robots.txt-Konfiguration zum Kopieren: Training blockieren, Suche erlauben, aggressive Bots aussperren. Getestet, dokumentiert, sofort einsetzbar.

158 KI-Crawler — und deine robots.txt kennt vermutlich 3 davon

158 dokumentierte Bots.

So viele KI-Crawler listet das ai.robots.txt GitHub-Repository im März 2026. Von GPTBot über ClaudeBot bis zu Bytespider, Meta-ExternalAgent und Dutzenden weiteren. Jeder will deine Inhalte — aber nicht jeder gibt etwas zurück. Manche trainieren Modelle mit deinem Content. Andere liefern dir qualifizierten Traffic. Und einige tun beides.

Das Problem: Die meisten robots.txt-Konfigurationen sind veraltet. Sie kennen GPTBot, vielleicht ClaudeBot — und ignorieren die restlichen 155 Crawler. Das Ergebnis ist entweder ein offenes Tor für KI-Training oder eine Mauer, die auch die Suche blockiert. Beides kostet dich Geld.

5,6 Millionen Websites blockieren GPTBot — ein Anstieg von 70 % in einem Jahr (Search Engine Journal). 79 % der Top-Nachrichtenseiten sperren mindestens einen KI-Bot aus (BuzzStream). Aber die entscheidende Frage ist nicht „blockieren oder nicht“. Die Frage ist: Welche Bots blockierst du — und welche lässt du rein?

Die detaillierten Nutzerzahlen aller KI-Suchmaschinen findest du in unserem GEO-Statistiken-Artikel. Wie KI-Suchmaschinen technisch funktionieren, erklärt unser vollständiger GEO-Guide. Dieser Artikel zeigt dir, wie du deine robots.txt so konfigurierst, dass du KI-Training kontrollierst, ohne KI-Sichtbarkeit zu verlieren.

Alle KI-Crawler im Überblick: Wer crawlt — und warum

Drei Kategorien.

KI-Crawler lassen sich in drei Gruppen einteilen — und diese Unterscheidung ist die Basis jeder sinnvollen robots.txt-Konfiguration:

Kategorie Zweck Blockieren =
Training-Crawler Sammeln Inhalte für das Training von KI-Modellen Kein Training mit deinem Content
Such-Crawler Indexieren Inhalte für KI-Suchergebnisse Unsichtbar in ChatGPT Search, Claude, Perplexity
User-Crawler Rufen Seiten ab, wenn ein Nutzer danach fragt Seite kann nicht geladen werden bei Nutzeranfragen

OpenAI: 3 separate Bots

Bot User-Agent-Token Zweck robots.txt?
GPTBot GPTBot Training für GPT-Modelle Ja
OAI-SearchBot OAI-SearchBot ChatGPT-Suchfunktionen (NICHT Training) Ja
ChatGPT-User ChatGPT-User Nutzer-ausgelöste Abfragen Bedingt*

*ChatGPT-User wird durch echte Nutzeranfragen ausgelöst — robots.txt-Regeln gelten laut OpenAI „möglicherweise nicht“. Wichtig: OAI-SearchBot und GPTBot teilen Informationen. Wenn du beide erlaubst, crawlt OpenAI nur einmal für beide Zwecke — weniger Serverlast.

Die ChatGPT-spezifische Optimierung haben wir in unserem ChatGPT SEO Guide detailliert behandelt.

Anthropic: 3 separate Bots (seit Februar 2026)

Bot User-Agent-Token Zweck robots.txt?
ClaudeBot ClaudeBot Training für Claude-Modelle Ja (+ Crawl-delay)
Claude-SearchBot Claude-SearchBot Indexierung für Claude-Suche Ja
Claude-User Claude-User Nutzer-ausgelöste Abfragen Ja

Anthropic hat im Februar 2026 als erster Anbieter ein klares 3-Bot-Framework eingeführt. Jeder Bot ist einzeln blockierbar. ClaudeBot unterstützt als einer der wenigen KI-Crawler auch Crawl-delay.

Google: Die kritische Unterscheidung

Bot User-Agent-Token Zweck Blockieren =
Google-Extended Google-Extended Gemini/Vertex AI Training Kein Gemini-Training. Google Search + AI Overviews BLEIBEN.
Googlebot Googlebot Google Search + ALLES ALLES weg — Search, AI Overviews, Maps, alles.
GoogleOther GoogleOther Interne Forschung Kein Einfluss auf Search

Google-Extended vs Googlebot: Google-Extended blockieren verhindert nur Gemini-Training, Googlebot blockieren zerstört die gesamte Google-Sichtbarkeit

Der häufigste Fehler: Googlebot statt Google-Extended blockieren. Das zerstört deine gesamte Google-Sichtbarkeit — Rankings, AI Overviews, Featured Snippets, alles. Google-Extended blockiert NUR das Training für Gemini. Google Search bleibt unberührt. Das haben wir in unserem AI Overviews Guide ausführlich erklärt.

Perplexity: 2 Bots

Bot User-Agent-Token Zweck robots.txt?
PerplexityBot PerplexityBot Automatische Indexierung Offiziell ja — aber kontrovers
Perplexity-User Perplexity-User Nutzer-ausgelöste Abfragen Ignoriert robots.txt

Perplexitys Crawler-Verhalten ist umstritten. Cloudflare hat dokumentiert, dass Perplexity undeklierte Crawler nutzt, die sich als Chrome-Browser tarnen (Cloudflare Blog, August 2025). Die BBC blockiert PerplexityBot — und wird trotzdem am häufigsten von Perplexity zitiert (Press Gazette). Details dazu in unserem Perplexity Optimierung Guide.

Weitere KI-Crawler die du kennen musst

Bot Betreiber Zweck Warnung
Meta-ExternalAgent Meta LLaMA-Training, Meta AI ~52 % des gesamten KI-Crawler-Traffics. Nur 2 % der Websites blockieren ihn.
Bytespider ByteDance (TikTok) LLM-Training 25× aggressiver als GPTBot. Bis zu 1,4 Mio. Requests/Tag. ~90 % des KI-Crawler-Traffics bei manchen Hosts.
Applebot-Extended Apple Apple Intelligence Training Blockieren hat keinen Einfluss auf Siri/Spotlight.
CCBot Common Crawl Open-Source-Webarchiv Von vielen KI-Firmen für Training genutzt.
Amazonbot Amazon Alexa, Rufus KI
Bingbot Microsoft Bing Search + Copilot NICHT separat für Suche/KI blockierbar. Blockieren = keine Bing-Sichtbarkeit.
GrokBot xAI (Elon Musk) Grok-Training Nutzt iPhone User-Agent zur Umgehung. Nicht zuverlässig blockierbar.

Training vs. Suche: Die eine Entscheidung die alles ändert

Blockierst du alles oder nichts?

Die meisten Websites machen einen von zwei Fehlern: Entweder sie blockieren alle KI-Crawler — und verlieren KI-Sichtbarkeit. Oder sie blockieren keinen — und ihr Content trainiert Modelle ohne Gegenleistung. Die Lösung liegt dazwischen.

Seit 2025/2026 trennen OpenAI, Anthropic und Google ihre Crawler sauber in Training und Suche. Das bedeutet: Du kannst das Training blockieren und die Suche erlauben. Das ist die Konfiguration, die für die meisten Unternehmen am meisten Sinn ergibt.

Was passiert wenn du blockierst — Plattform für Plattform

Was du blockierst Auswirkung
GPTBot Kein Training. ChatGPT-Suche bleibt aktiv.
OAI-SearchBot Unsichtbar in ChatGPT Search.
ClaudeBot Kein Training. Claude-Suche bleibt aktiv.
Claude-SearchBot Reduzierte Sichtbarkeit in Claude-Suchergebnissen.
Google-Extended Kein Gemini-Training. Google Search + AI Overviews bleiben.
Googlebot ALLES weg. Nie blockieren.
PerplexityBot Sollte Indexierung verhindern — aber BBC wird trotzdem zitiert.

robots.txt KI-Crawler Entscheidungsmatrix: Training-Bots blockieren, Such-Bots erlauben, User-Bots erlauben — optimale Konfiguration für KI-Sichtbarkeit

Warum die Trennung funktioniert

Pixelmojo hat es getestet: 12 Training-Crawler blockiert, Such-Bots erlaubt. Ergebnis: „Citations kept growing“ und „server load dropped.“ Die Bestätigung: Training-Bots blockieren schadet der Suchsichtbarkeit NICHT (Pixelmojo Case Study).

KI-Referral-Traffic wächst mit +527 % pro Jahr. ChatGPT macht 77,97 % dieses Traffics aus, Perplexity 15,10 %, Gemini 6,40 % (Conductor). Und dieser Traffic konvertiert: 15,9 % bei ChatGPT, 10,5 % bei Perplexity — deutlich höher als organischer Google-Traffic (SuperPrompt/Coalition Technologies). Wer Such-Bots blockiert, verliert diesen Traffic.

Die Princeton-GEO-Studie hat gezeigt, welche Content-Methoden die Zitationswahrscheinlichkeit steigern. Den vollständigen Überblick findest du in unserem Artikel zur Princeton-Studie.

Die fertige robots.txt-Konfiguration zum Kopieren

Copy. Paste. Fertig.

Hier ist die robots.txt-Konfiguration, die wir empfehlen — basierend auf den aktuellen Bot-Dokumentationen, der Drei-Tier-Strategie und den Daten aus 200+ Projekten:

Tier 1: Such-Crawler ERLAUBEN (Sichtbarkeit)

# ===== KI-SUCH-CRAWLER (ERLAUBEN für Sichtbarkeit) =====

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: Claude-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: DuckAssistBot
Allow: /

User-agent: MistralAI-User
Allow: /

Tier 2: Training-Crawler BLOCKIEREN

# ===== KI-TRAINING-CRAWLER (BLOCKIEREN) =====

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Meta-ExternalFetcher
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: cohere-training-data-crawler
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: AI2Bot
Disallow: /

User-agent: AI2Bot-Dolma
Disallow: /

Tier 3: Aggressive/Problematische Bots BLOCKIEREN

# ===== AGGRESSIVE BOTS (IMMER BLOCKIEREN) =====

User-agent: Bytespider
Disallow: /

User-agent: TikTokSpider
Disallow: /

User-agent: ImagesiftBot
Disallow: /

User-agent: img2dataset
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: omgili
Disallow: /

User-agent: ICC-Crawler
Disallow: /

User-agent: Timpibot
Disallow: /

User-agent: VelenPublicWebCrawler
Disallow: /

User-agent: PanguBot
Disallow: /

User-agent: Kangaroo Bot
Disallow: /

robots.txt 3-Tier-Strategie für KI-Crawler: Tier 1 Such-Bots erlauben, Tier 2 Training-Bots blockieren, Tier 3 aggressive Bots blockieren

Wichtig: Die Konfiguration geht davon aus, dass du Googlebot und Bingbot NICHT blockierst. Falls deine robots.txt ein generisches User-agent: * / Disallow: / enthält, überschreibt das ALLES — auch die spezifischen Allow-Regeln. Prüfe deine bestehende robots.txt bevor du diese Einträge hinzufügst.

Du willst nicht nur die richtigen Bots konfigurieren, sondern deine gesamte KI-Sichtbarkeit optimieren?
In unserer kostenlosen GEO-Analyse prüfen wir deine robots.txt, dein Schema Markup und deine Sichtbarkeit über alle KI-Plattformen — mit konkreten Maßnahmen.

→ Jetzt kostenlose GEO-Analyse anfordern

5,6 Millionen Websites blockieren GPTBot — die Zahlen im Detail

70 % Anstieg in einem Jahr.

Die Blocking-Statistiken zeigen ein klares Bild — und eine überraschende Entwicklung (Paul Calvano/HTTP Archive, Search Engine Journal, BuzzStream):

Metrik Wert Quelle
Websites die GPTBot blockieren 5,6 Mio. Search Engine Journal, 2025
Anstieg in 1 Jahr +70 % (von 3,3 Mio.) Search Engine Journal
GPTBot Blocking-Rate (alle Domains) 5,14 % Paul Calvano/HTTP Archive
Top-1000-Websites mit GPTBot-Block 21 % (312 Domains) Paul Calvano, Juli 2025
Top-News-Sites mit mind. 1 KI-Block 79 % BuzzStream
KI-Crawler-Blocking gesamt (Anstieg) +336 % in einem Jahr engagecoders.com

robots.txt KI-Crawler Blocking-Statistiken: 5,6 Millionen Websites blockieren GPTBot, 79 Prozent der Top-News-Sites blockieren mindestens einen KI-Bot

Training vs. Such-Bots: News-Sites unterscheiden

Bot Blocking-Rate (News-Sites) Typ
ClaudeBot (Training) 69 % Training
GPTBot (Training) 62 % Training
OAI-SearchBot (Suche) 49 % Suche
ChatGPT-User 40 % User

Der Trend ist klar: Training-Bots werden häufiger blockiert als Such-Bots. Verlage unterscheiden bereits — und verlieren dadurch weniger KI-Sichtbarkeit als Websites, die alles blockieren.

Deutsche News-Sites: 60 % blockieren OpenAI

Laut Reuters Institute blockieren 60 % der deutschen Nachrichtenseiten sowohl OpenAI als auch Google AI Crawler. Zum Vergleich: In den USA sind es 79 % für OpenAI, in Mexiko nur 20 %. Deutsche Verlage gehören zu den restriktivsten weltweit — was Chancen für Unternehmen eröffnet, die ihre KI-Sichtbarkeit bewusst aufbauen.

Das Fazit aus den GEO vs. SEO Unterschieden: Wer heute die robots.txt strategisch konfiguriert, hat einen Wettbewerbsvorteil gegenüber der Mehrheit, die entweder alles blockiert oder die Konfiguration ignoriert.

robots.txt, Meta Tags und HTTP Headers: Welche Methode wann

Drei Schutzschichten.

robots.txt ist nicht die einzige Möglichkeit, KI-Crawler zu steuern. Für umfassende Kontrolle gibt es drei Methoden — jede mit eigenen Stärken:

Methode Ebene Wann gelesen Vorteil
robots.txt Domain/Pfade VOR dem Seitenaufruf Effizienteste Methode — verhindert Crawling komplett
Meta Robots Tag Einzelne Seite NACH dem Seitenaufruf Granulare Kontrolle pro Seite
X-Robots-Tag HTTP Header Bei jedem Request Funktioniert auch für PDFs, Bilder, Nicht-HTML

Meta Tags: noai und noimageai

DeviantArt hat im November 2022 zwei Meta Tags eingeführt, die von mehreren KI-Crawlern respektiert werden:

<meta name="robots" content="noai, noimageai">

noai signalisiert: Kein Inhalt dieser Seite soll für KI-Training genutzt werden. noimageai gilt speziell für Bilder. Wichtig: Diese Tags sind kein offizieller Webstandard. Die Beachtung ist freiwillig. Laut AmIcited respektieren GPTBot, ClaudeBot, PerplexityBot, Amazonbot, Google-Extended und weitere diese Tags — aber eine Garantie gibt es nicht.

Empfehlung: Alle drei kombinieren

  1. robots.txt als erste Verteidigungslinie — verhindert das Crawling
  2. Meta Tags als zusätzliche Absicherung auf Seitenebene
  3. X-Robots-Tag / Server-Level-Blocking für Nicht-HTML und als Fallback

Keine einzelne Methode ist 100 % sicher. robots.txt ist freiwillig — aggressive Bots wie Bytespider oder GrokBot umgehen sie nachweislich. Für echte Durchsetzung brauchst du Server-Level-Blocking über Cloudflare, .htaccess oder Nginx-Regeln.

Server-Last: Wenn KI-Crawler deine Website lahmlegen

1,4 Millionen Requests. Pro Tag. Von einem einzigen Bot.

Das ist Bytespider — TikToks Mutterkonzern ByteDance. Bei HAProxy machte Bytespider „nahezu 90 % des gesamten KI-Crawler-Traffics“ aus. Und er ist 25× aggressiver als GPTBot (NusaPixel). Das ist kein Edge Case — das ist Realität für viele mittelgroße Websites.

Metrik Wert Quelle
GPTBot monatliche Requests 569 Mio. Vercel
ClaudeBot monatliche Requests 370 Mio. Vercel
KI-Crawler Anteil am HTML-Traffic ~8,7 % Cloudflare 2025
Read the Docs: Traffic nach Blocking -75 % (800→200 GB/Tag) Read the Docs Blog

Read the Docs hat KI-Crawler blockiert und die Bandbreite von ~800 GB/Tag auf ~200 GB/Tag reduziert — eine Einsparung von ~1.500 $/Monat. Publisher berichten von 20-40 % der gesamten Bandbreite durch KI-Crawler.

Was du dagegen tun kannst:

  • robots.txt: Erste Verteidigung — aber nicht alle halten sich dran
  • Cloudflare AI Crawl Control: Ein-Klick-Blockierung, über 1 Mio. Kunden nutzen es
  • Rate Limiting: Auf Server-Ebene (Nginx, Apache, Cloudflare)
  • IP-Blocking: Über veröffentlichte IP-Listen (OpenAI, Anthropic, Perplexity publizieren JSON-Dateien)
  • WAF-Regeln: Für fortgeschrittene Kontrolle — User-Agent + IP kombiniert

llms.txt: Der neue Standard — oder nur Hype?

Zero Besuche.

Semrush hat llms.txt auf Search Engine Land implementiert und die Server-Logs von August bis Oktober 2025 analysiert. Das Ergebnis: Kein einziger KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) hat die Datei besucht. Null. Google John Mueller bestätigte: „FWIW no AI system currently uses llms.txt.“

llms.txt ist ein Vorschlag von Jeremy Howard (Co-Founder Answer.AI, September 2024). Eine Markdown-Datei im Root-Verzeichnis, die KI-Systemen eine kuratierte Übersicht der Website bietet — wie eine Landkarte für LLMs. ~844.000 Websites haben sie implementiert (BuiltWith, Oktober 2025).

Format

# Firmenname

> Kurze Beschreibung der Website

## Hauptinhalte
- [Seite 1](https://url): Beschreibung
- [Seite 2](https://url): Beschreibung

## Optional
- [Weitere Seite](https://url): Beschreibung

Bewertung

Pro: Niedrige Implementierungskosten, zukunftssicher falls der Standard adoptiert wird. Contra: Kein einziger großer KI-Anbieter (OpenAI, Google, Anthropic) nutzt llms.txt offiziell in Produkten. Keine messbaren Auswirkungen auf KI-Sichtbarkeit nachgewiesen.

Unsere Empfehlung: Nice-to-have für Developer und SaaS. Aber investiere deine Zeit lieber in robots.txt-Konfiguration und Content-Optimierung — das hat nachweislich Impact. Wie genau du zitierfähigen Content erstellst, zeigt die Princeton-GEO-Studie.

Der rechtliche Rahmen: EU AI Act und robots.txt

Seit August 2025 quasi-verbindlich.

robots.txt war 30 Jahre lang ein freiwilliges Protokoll. Der EU AI Act hat das geändert. Artikel 53 verpflichtet Anbieter von General Purpose AI (GPAI) Modellen, Copyright-Policies zu implementieren und Rechtsvorbehalte zu respektieren — inklusive robots.txt-Dateien gemäß RFC 9309 (GPAI Code of Practice, finalisiert Juli 2025).

Was das konkret bedeutet: Wenn du in deiner robots.txt GPTBot: Disallow: / einträgst, sind OpenAI, Anthropic und andere GPAI-Anbieter in der EU rechtlich verpflichtet, das zu respektieren. Zum ersten Mal hat robots.txt damit tatsächliche rechtliche Bedeutung.

Wichtige Urteile und Klagen

Fall Status Relevanz für robots.txt
NYT vs. OpenAI Discovery-Phase (seit 2023) Gericht: robots.txt ist „eher ein Schild als eine Barriere“ — kein technischer Schutz
LG Hamburg (LAION) Klage abgewiesen (Nov. 2025) Wissenschaftliches TDM ohne robots.txt-Beachtung kann zulässig sein
Reddit vs. Perplexity Laufend (seit Okt. 2025) Umgehung von robots.txt als Klagegrund

Fazit: robots.txt allein schützt nicht rechtlich. Aber in Kombination mit dem EU AI Act, DSGVO und expliziten Copyright-Hinweisen auf deiner Website hast du eine deutlich stärkere Position als ohne. Die Kombination aus technischer Blockierung (robots.txt + Server-Level) und rechtlicher Dokumentation (Copyright-Notice, TDM-Opt-out) ist die sicherste Strategie.

Ob SEO insgesamt noch relevant ist oder KI-Suche alles verändert, haben wir datenbasiert in unserem Artikel Ist SEO tot? analysiert.

Deine robots.txt-Strategie in 5 Schritten

Nicht raten — systematisch vorgehen.

  1. Bestehende robots.txt prüfen: Öffne deine-domain.de/robots.txt im Browser. Gibt es bereits KI-Crawler-Einträge? Gibt es ein generisches Disallow: / das alles blockiert? Fehler in der Syntax?
  2. Ziel definieren: Willst du maximale KI-Sichtbarkeit (alles erlauben), maximalen Schutz (alles blockieren) oder die Balance (Training blockieren, Suche erlauben)? Für die meisten Unternehmen ist die Balance die richtige Wahl.
  3. Konfiguration kopieren: Nutze unsere 3-Tier-Konfiguration oben. Füge sie zu deiner bestehenden robots.txt hinzu — NICHT ersetzen, sondern ergänzen.
  4. Server-Level absichern: Für aggressive Bots, die robots.txt ignorieren: Cloudflare AI Crawl Control aktivieren, oder IP-Blocking über .htaccess/Nginx einrichten.
  5. Quartalsweise aktualisieren: Neue Crawler erscheinen ständig. Prüfe alle 3 Monate das ai.robots.txt GitHub-Repository auf neue Einträge.

robots.txt für KI-Crawler: 5-Schritte-Checkliste — bestehende Datei prüfen, Ziel definieren, Konfiguration kopieren, Server-Level absichern, quartalsweise aktualisieren

Die robots.txt-Konfiguration ist ein wichtiger Teil deiner GEO-Strategie — aber nur ein Teil. Schema Markup, Content-Optimierung und Plattform-spezifische Maßnahmen gehören ebenfalls dazu. Den vollständigen Überblick findest du in unserem kompletten GEO-Guide. Und wenn du das nicht allein umsetzen willst: Mehr zu unserer GEO-Agentur.

Häufige Fragen zu robots.txt und KI-Crawlern

Muss ich KI-Crawler in meiner robots.txt konfigurieren?

Nicht zwingend — ohne Einträge crawlen KI-Bots deine Website automatisch. Aber ohne Konfiguration verlierst du die Kontrolle darüber, welche Crawler deine Inhalte für Training nutzen. Seit dem EU AI Act (August 2025) sind GPAI-Anbieter verpflichtet, robots.txt gemäß RFC 9309 zu respektieren. Eine bewusste Konfiguration ist also empfehlenswert.

Was ist der Unterschied zwischen GPTBot und OAI-SearchBot?

GPTBot crawlt für das Training von GPT-Modellen. OAI-SearchBot indexiert für ChatGPT-Suchfunktionen — ohne die Daten für Training zu nutzen. Du kannst GPTBot blockieren (kein Training) und OAI-SearchBot erlauben (Sichtbarkeit in ChatGPT Search behalten). Beide teilen Informationen: Wenn du beide erlaubst, crawlt OpenAI nur einmal für beide Zwecke.

Was passiert wenn ich Google-Extended blockiere?

Google-Extended blockieren verhindert, dass deine Inhalte für Gemini/Vertex AI Training genutzt werden. Es hat KEINEN Einfluss auf Google Search, AI Overviews oder andere Google-Produkte. Googlebot ist der Crawler für Search — Google-Extended ist nur ein Token für Training-Kontrolle. NIEMALS Googlebot blockieren, wenn du Google-Sichtbarkeit behalten willst.

Respektieren alle KI-Crawler die robots.txt?

Die meisten großen Anbieter (OpenAI, Anthropic, Google, Apple, Amazon) respektieren robots.txt offiziell. Problematisch sind: Bytespider (TikTok/ByteDance) — Berichte über Missachtung und User-Agent-Fälschung. GrokBot (xAI) — nutzt iPhone User-Agent zur Umgehung. Perplexity — Cloudflare hat undeclared Crawler dokumentiert. Für diese Bots brauchst du Server-Level-Blocking.

Wie oft muss ich meine robots.txt aktualisieren?

Mindestens quartalsweise. Neue KI-Crawler erscheinen ständig — allein 2025/2026 wurden Claude-SearchBot, Claude-User, Meta-WebIndexer, Gemini-Deep-Research, MistralAI-User und weitere eingeführt. Das ai.robots.txt GitHub-Repository (158 Einträge, Stand März 2026) ist die beste Quelle für aktuelle Bot-Listen.

Kann ich nur bestimmte Seiten für KI-Crawler freigeben?

Ja — mit pfadbasierten Regeln. Beispiel: User-agent: GPTBot / Allow: /blog/ / Disallow: / — erlaubt GPTBot nur den Blog-Bereich und blockiert alles andere. So kannst du z.B. Blog-Content für Training freigeben, aber Produktseiten oder geschützte Bereiche sperren.

Was ist llms.txt und brauche ich das?

llms.txt ist ein vorgeschlagener Standard (Jeremy Howard, September 2024) — eine Markdown-Datei die KI-Systemen eine kuratierte Übersicht deiner Website bietet. ~844.000 Websites haben sie implementiert. Aber: Kein einziger großer KI-Anbieter nutzt llms.txt offiziell. Semrush testete es und fand null Crawler-Besuche. Unsere Empfehlung: Nice-to-have, aber investiere deine Zeit lieber in robots.txt und Content-Optimierung.

Schadet robots.txt-Blocking meiner KI-Sichtbarkeit?

Nur wenn du die Such-Bots blockierst. Training-Bots (GPTBot, ClaudeBot, Google-Extended) blockieren hat KEINEN negativen Einfluss auf deine Sichtbarkeit in ChatGPT Search, Claude oder Google AI Overviews. Pixelmojo hat es getestet: Nach Blockierung von 12 Training-Crawlern wuchsen die Citations weiter und die Server-Last sank.

Wie blockiere ich Bytespider effektiv?

robots.txt allein reicht bei Bytespider oft nicht. Zusätzlich: (1) Cloudflare AI Crawl Control aktivieren, (2) IP-Blocking über .htaccess oder Nginx, (3) User-Agent-basierte Firewall-Regeln. Bytespider ist bis zu 25× aggressiver als GPTBot und machte bei manchen Hosts 90 % des KI-Crawler-Traffics aus (HAProxy).

Beeinflusst robots.txt mein Google-Ranking?

Direkt: Nein — robots.txt ist kein Ranking-Faktor. Indirekt: Ja — wenn du versehentlich Googlebot blockierst, verlierst du alle Google-Rankings. Und wenn du Google-Extended blockierst, hat das keinen Einfluss auf Rankings oder AI Overviews. Die häufigste Falle: Ein generisches 'Disallow: /' für alle User-Agents, das auch Googlebot trifft.

Wie überprüfe ich ob meine robots.txt funktioniert?

Drei Methoden: (1) Google Search Console → robots.txt-Tester — zeigt ob Googlebot blockiert ist. (2) Direkt im Browser aufrufen: deine-domain.de/robots.txt — prüfe die Syntax manuell. (3) Server-Logs analysieren — schaue ob blockierte Bots trotzdem crawlen (besonders Bytespider und GrokBot). Tools wie Cloudflare Dashboard zeigen dir den Bot-Traffic in Echtzeit.

Teilen: