
Das Wichtigste in Kürze
KI-Crawler blockieren oder erlauben – diese Frage stellen sich 2026 fast alle Website-Betreiber. Die ehrliche, datenbasierte Antwort lautet: Es ist keine Ja/Nein-Entscheidung, sondern eine Frage der Differenzierung. Denn „KI-Crawler“ ist nicht gleich „KI-Crawler“: Es gibt Trainings-Crawler, die deine Inhalte ins Modell-Training ziehen, und Such-Crawler, über die du in den Live-Antworten von ChatGPT, Claude und Perplexity überhaupt erst zitiert wirst.
Kurz gesagt: Reine Trainings-Crawler wie GPTBot, ClaudeBot, Google-Extended und CCBot kannst du blocken, wenn dir Urheberschutz wichtig ist – das kostet dich keine KI-Sichtbarkeit. Such- und Assistenz-Crawler wie OAI-SearchBot, Claude-SearchBot und PerplexityBot solltest du dagegen erlauben, sonst verschwindest du aus den KI-Antworten. Wer pauschal „alle KI-Bots blockieren“ googelt und umsetzt, sperrt fast immer versehentlich auch seine Zitatfläche aus – der teuerste und häufigste Fehler.
Dieser Leitfaden liefert die Entscheidung mit Daten und Tradeoffs: Welche Bots es gibt, was Blocken laut Studien wirklich kostet, eine Pro-Contra-Matrix und eine klare Empfehlung nach Website-Typ. Die reine Schritt-für-Schritt-Umsetzung in der robots.txt – mit allen Bots und der genauen Syntax – findest du in unserem How-to robots.txt für KI-Crawler konfigurieren.
Inhalt dieses Leitfadens:
Bevor du irgendetwas blockst, musst du wissen, was du blockst. Jeder große KI-Anbieter betreibt heute mehrere Crawler mit klar getrennten Aufgaben – und genau diese Trennung entscheidet über deine KI-Sichtbarkeit. Drei Typen sind relevant:
Diese Übersicht zeigt die wichtigsten Bots, ihren exakten User-Agent, ihren Zweck und die Empfehlung. Quellen: OpenAI-, Anthropic-, Perplexity- und Google-Dokumentation (2025/2026):
| User-Agent | Betreiber | Zweck | Empfehlung |
|---|---|---|---|
| GPTBot | OpenAI | Training der Modelle | Blocken ist vertretbar (kostet keine Sichtbarkeit) |
| OAI-SearchBot | OpenAI | Suche/Zitate in ChatGPT | Erlauben (sonst keine ChatGPT-Zitate) |
| ChatGPT-User | OpenAI | User ruft Seite live auf | Erlauben (echter Nutzer-Besuch) |
| ClaudeBot | Anthropic | Training der Modelle | Blocken ist vertretbar |
| Claude-SearchBot | Anthropic | Index für Claude-Antworten | Erlauben (sonst keine Claude-Zitate) |
| Google-Extended | Training Gemini/AI | Blocken möglich – ohne Ranking-Verlust | |
| PerplexityBot | Perplexity | Suche/Index | Erlauben (sonst keine Perplexity-Zitate) |
| CCBot | Common Crawl | Trainings-Datensatz (von vielen KI genutzt) | Blocken ist vertretbar |
Der wichtigste Punkt dieses ganzen Leitfadens: Den Trainings-Bot zu blocken sperrt nicht den Such-Bot. Bei OpenAI blockt Disallow für GPTBot NICHT den OAI-SearchBot – beide sind getrennte User-Agents. Genauso bei Anthropic: ClaudeBot (Training) ≠ Claude-SearchBot (Suche). Wer in einem Forum liest „blockiere GPTBot“ und das als „blockiere ChatGPT komplett“ missversteht, verliert seine Zitate – oder glaubt fälschlich, durch einen GPTBot-Block aus ChatGPT verschwunden zu sein, obwohl der Such-Bot weiter zugreift. Genau diese Trennung erklärt kaum ein Ratgeber sauber.
Statt Bauchgefühl hier die belastbaren Zahlen – jede mit Quelle und Jahr, jede mit klarem Geltungsbereich:
Dem Traffic-Risiko des Blockens steht die Reichweite des Erlaubens gegenüber. Googles AI Overviews erreichen laut Google rund 2 Milliarden Nutzer pro Monat (Q1 2026, 200 Länder). ChatGPT meldet laut OpenAI rund 800 Millionen wöchentliche Nutzer (Stand Oktober 2025). Jede KI-Antwort, in der dein Wettbewerber genannt wird und du nicht, ist eine verlorene Empfehlung. Wer seine Such-Crawler blockt, verzichtet freiwillig auf diese Fläche – und genau das passiert beim pauschalen „alles aussperren“.
Die Kern-Abwägung in einem Satz: Blocken schützt bestenfalls deinen Content vor dem Training (rechtlich/ethisch ein valides Motiv), kostet aber tendenziell Traffic und – bei Such-Crawlern – deine KI-Sichtbarkeit. Erlauben kostet Kontrolle über die Trainingsnutzung, bringt aber Reichweite in den Antwort-Maschinen. Die Kunst ist, beides getrennt zu entscheiden.
Die nüchterne Gegenüberstellung. Sie macht sichtbar, warum eine pauschale Antwort selten richtig ist – und warum die meisten Argumente nur einen der beiden Crawler-Typen betreffen:
| Aspekt | Für Blockieren | Für Erlauben |
|---|---|---|
| Urheberrecht | Eigene Texte/Bilder fließen nicht ins Training | Kein Schutz – Inhalte können im Modell landen |
| KI-Sichtbarkeit | Bei Such-Bot-Block: du wirst nicht mehr zitiert | Zitate & Verlinkung in ChatGPT, Claude, Perplexity |
| Traffic | Risiko: ~7 % weniger (Publisher-Studie 2025) | Zugang zu KI-Antwort-Reichweite (Mrd. Nutzer) |
| Server-Last | Aggressive Crawler entlasten den Server | Mehr Bot-Traffic (meist verkraftbar) |
| Kontrolle | Du bestimmst, wer deine Inhalte nutzt | Du gibst Trainingsnutzung aus der Hand |
| Wirksamkeit | robots.txt ist nur eine Bitte – nicht garantiert | Seriöse Bots befolgen robots.txt zuverlässig |
Eine Entscheidung ist fast immer richtig und wird trotzdem selten getroffen: Google-Extended blocken. Es steuert nur, ob deine Inhalte fürs Gemini-Training genutzt werden. Es ist kein Ranking-Signal – deine Seite bleibt in der normalen Google-Suche und bleibt AI-Overview-fähig, weil das Crawling weiter über den Googlebot läuft (Quelle: Google, 2024). Du bekommst also Trainings-Schutz ohne Sichtbarkeits-Preis. Für die meisten Unternehmen ist das die einfachste „Ja“-Entscheidung.
Es gibt keine Universal-Antwort – aber eine klare Logik je nach Geschäftsmodell. Diese Matrix führt dich direkt zu deiner Empfehlung:
| Website-Typ | Trainings-Crawler | Such-Crawler | Warum |
|---|---|---|---|
| Lead-Gen / B2B / Agentur | Optional blocken | Erlauben | KI-Empfehlungen bringen Anfragen – Sichtbarkeit schlägt Schutz |
| Lokales Unternehmen / Dienstleister | Egal | Erlauben | „Beste [Leistung] in [Stadt]“ wird zunehmend in KI gefragt |
| Onlineshop | Abwägen | Erlauben | Produkt-Empfehlungen in KI sind Kaufanlässe; Bilder ggf. separat schützen |
| Publisher / Medien | Blocken erwägen | Differenziert | Content IST das Produkt – aber Such-Bot-Block kostet Reichweite |
| Kreative / Fotografen / Künstler | Blocken | Abwägen | Werk-Schutz hat Vorrang; ggf. Server-Ebene zusätzlich |
Wenn dein Ziel Kunden, Anfragen oder Verkäufe sind – also fast jedes Unternehmen außerhalb des Publishing –, lautet die Empfehlung: Such-Crawler erlauben, Google-Extended blocken, GPTBot/ClaudeBot/CCBot nach eigenem Urheber-Gefühl. Deine KI-Sichtbarkeit ist in den meisten Geschäftsmodellen mehr wert als der Trainings-Schutz. Wie viel deine Marke heute schon in den KI-Antworten auftaucht, kannst du mit unserem kostenlosen KI-Check in wenigen Minuten prüfen – bevor du irgendetwas blockst.
Aus der Entscheidung wird Umsetzung. Statt eines pauschalen Disallow: / für alle Bots ist die differenzierte robots.txt die beste Wahl für die meisten Unternehmen: Trainings-Crawler blocken, Such-Crawler erlauben. So sieht das konkret aus:
# Trainings-Crawler blocken (KI-Sichtbarkeit bleibt erhalten)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Such-/Assistenz-Crawler erlauben (damit du in KI-Antworten zitiert wirst)
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
Erstens: robots.txt ist nur eine Bitte. Seriöse Crawler halten sich daran, aber sie hat keine technische Durchsetzungskraft. Vor allem user-getriggerte Fetcher sind ein Sonderfall: Perplexity-User ignoriert die robots.txt laut Perplexity-Dokumentation und verhält sich wie ein Live-Browser. Wer wirklich hart sperren will, braucht zusätzlich die Server- oder Firewall-Ebene (z. B. WAF-Regeln) – die robots.txt allein reicht nicht.
Zweitens: Ein Block heißt nicht automatisch totale Unsichtbarkeit. Selbst bei geblocktem PerplexityBot kann Perplexity laut eigener Doku weiterhin Domain, Überschrift und eine kurze Faktenzusammenfassung führen. Die genaue Syntax für alle Bots, WAF-Regeln und die Prüfung deiner Konfiguration findest du in unserem Schritt-für-Schritt-Leitfaden robots.txt für KI-Crawler sowie ergänzend im Beitrag zu llms.txt.
Wer ohne diese Stolperfallen entscheidet, blockt oft das Falsche:
Die datenbasierte Antwort auf „KI-Crawler blockieren oder erlauben?“ lautet 2026: weder pauschal blocken noch pauschal erlauben, sondern differenzieren. Trainings-Crawler (GPTBot, ClaudeBot, Google-Extended, CCBot) kannst du nach deinem Urheber-Gefühl blocken – Google-Extended fast immer, weil es nichts kostet. Such-Crawler (OAI-SearchBot, Claude-SearchBot, PerplexityBot) solltest du erlauben, sonst gibst du deine KI-Sichtbarkeit auf.
Für die große Mehrheit der Unternehmen, deren Ziel Kunden und Anfragen sind, wiegt die Sichtbarkeit in den KI-Antworten schwerer als der Trainings-Schutz – die 7-%-Traffic-Zahl aus der Publisher-Studie ist hier ein deutliches Signal. Prüfe zuerst mit dem kostenlosen KI-Check, wie sichtbar deine Marke in der KI-Suche heute ist; wer das Thema strategisch aufsetzen will, findet in unserer GEO-Agentur die Umsetzung. Den Rahmen dahinter erklärt unser Pillar zu Generative Engine Optimization; wie du Sichtbarkeit misst, steht im Beitrag zu KI-Sichtbarkeit.
Es kommt auf den Crawler-Typ an. Trainings-Crawler wie GPTBot, ClaudeBot, Google-Extended und CCBot kannst du blocken, wenn dir Urheberschutz wichtig ist – das kostet keine KI-Sichtbarkeit. Such-Crawler wie OAI-SearchBot, Claude-SearchBot und PerplexityBot solltest du in der Regel erlauben, sonst wirst du in ChatGPT, Claude und Perplexity nicht mehr zitiert. Für die meisten Unternehmen wiegt die KI-Sichtbarkeit schwerer als der Trainings-Schutz.
Du blockierst GPTBot über deine robots.txt mit den Zeilen "User-agent: GPTBot" und darunter "Disallow: /". Wichtig: Das blockt nur den Trainings-Bot von OpenAI, nicht den OAI-SearchBot, über den du in der ChatGPT-Suche zitiert wirst. Wer komplett aus ChatGPT verschwinden will, müsste auch OAI-SearchBot blocken – was die KI-Sichtbarkeit kostet.
Nur wenn du die Such-Crawler blockierst. Trainings-Crawler (GPTBot, ClaudeBot, Google-Extended, CCBot) zu blocken kostet keine Sichtbarkeit in den KI-Antworten. Erst das Blocken der Such-Crawler (OAI-SearchBot, Claude-SearchBot, PerplexityBot) führt dazu, dass dich ChatGPT, Claude und Perplexity nicht mehr zitieren.
Eine Studie von Wharton und Rutgers (2025) fand bei News-Publishern, die LLM-Crawler blockierten, rund 7 Prozent weniger Wochen-Traffic über sechs Wochen – ohne messbaren Schutz des Contents. Diese Zahl gilt für News-Publisher und ist nicht 1:1 auf jeden Shop übertragbar, aber ein klares Warnsignal: Pauschales Blocken kostet tendenziell Reichweite.
Für die meisten Unternehmen ja. Google-Extended steuert nur, ob deine Inhalte für das Training von Gemini genutzt werden. Es ist kein Ranking-Signal: Deine Seite bleibt in der normalen Google-Suche und bleibt AI-Overview-fähig, weil weiterhin der Googlebot crawlt. Du bekommst also Trainings-Schutz ohne Sichtbarkeits-Verlust.
Nicht vollständig. Die robots.txt ist nur eine Bitte – seriöse Crawler halten sich daran, aber sie hat keine technische Durchsetzungskraft. User-getriggerte Fetcher wie Perplexity-User ignorieren sie laut Anbieter-Doku. Wer hart sperren will, braucht zusätzlich die Server- oder Firewall-Ebene, etwa WAF-Regeln.
GPTBot ist der Trainings-Crawler von OpenAI: Er sammelt Inhalte für das Modell-Training. OAI-SearchBot ist der Such-Crawler: Er indexiert Seiten, damit sie in der ChatGPT-Suche als Quelle erscheinen. Beide sind getrennte User-Agents – GPTBot zu blocken sperrt OAI-SearchBot nicht. Diese Trennung ist entscheidend für deine KI-Sichtbarkeit.
Zu den wichtigsten gehören die Trainings-Crawler GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google) und CCBot (Common Crawl); die Such-Crawler OAI-SearchBot, Claude-SearchBot und PerplexityBot; sowie die user-getriggerten Fetcher ChatGPT-User, Claude-User und Perplexity-User. Jeder hat einen eigenen User-Agent und einen klar getrennten Zweck.