Robots.txt Validator und Test

Die robots.txt ist eine der einflussreichsten Dateien Ihrer Website – und eine der am häufigsten falsch konfigurierten. Ein einziger Syntaxfehler kann dazu führen, dass Google wichtige Seiten nicht crawlt oder Bereiche indexiert, die privat bleiben sollten.

Dieses Tool validiert Ihre robots.txt nach RFC 9309 (dem aktuellen Standard), testet einzelne URLs gegen Ihre Regeln und zeigt Ihnen die exakte Regel-Rangfolge, die ein Crawler anwenden würde. Damit sehen Sie nicht nur ob eine URL blockiert wird, sondern warum – inklusive der entscheidenden Regel.

Robots.txt Validator

Robots.txt Inhalt

Fügen Sie den vollständigen Inhalt Ihrer robots.txt ein, um nach Fehlern zu suchen.

Robots.txt Inhalt

User-Agent

Benutzerdefinierter User-Agent

URLs zum Testen (eine pro Zeile)

Geben Sie URL-Pfade ein (mit führendem /), um zu prüfen, ob sie blockiert oder erlaubt sind.

Domain

Geben Sie eine Domain ein, um ihre robots.txt zu laden und zu analysieren.

So funktioniert der Robots.txt Validator

robots.txt abrufen: Geben Sie Ihre Domain ein, und das Tool lädt die robots.txt automatisch herunter und analysiert sie.
Inhalt einfügen: Alternativ fügen Sie den Inhalt Ihrer robots.txt direkt in das Textfeld ein – nützlich, wenn Sie Änderungen testen möchten, bevor Sie sie live schalten.
Syntax prüfen: Das Tool analysiert jede Zeile und meldet Fehler (ungültige Direktiven, fehlende Doppelpunkte) und Warnungen (unbekannte Direktiven, leere User-Agent-Gruppen).
URL testen: Wählen Sie einen User-Agent (Googlebot, Bingbot, Yandex oder einen eigenen) und geben Sie eine URL ein. Das Tool zeigt, ob die URL erlaubt oder blockiert ist.
Regelrangfolge verstehen: Klicken Sie auf „Erklärung anzeigen“, um die vollständige Regel-Trace zu sehen: welche Regeln greifen, welche die längste Übereinstimmung hat und warum sie gewinnt.

Änderungsprotokoll

Visuelle Regelrangfolge-Erklärung („Explain“-Funktion) hinzugefügt – zeigt die genaue Entscheidungskette nach RFC 9309
Korrekte Verarbeitung gestapelter User-Agent-Zeilen implementiert (mehrere User-Agents vor einer Regel gelten jetzt korrekt für alle)
Domain-Abruf mit automatischer Syntaxanalyse ergänzt
Erkennung gefundener Sitemaps in der robots.txt
Unterstützung für benutzerdefinierte User-Agents beim URL-Test

Hintergrund: Warum die robots.txt so wichtig ist

Die robots.txt ist die erste Datei, die Suchmaschinen-Crawler beim Besuch Ihrer Website lesen. Sie steuert, welche Bereiche gecrawlt werden dürfen und welche nicht. Eine fehlerhafte robots.txt kann zwei gegensätzliche Probleme verursachen:

Zu restriktiv: Wichtige Seiten werden vom Crawling ausgeschlossen und verschwinden aus dem Index.
Zu offen: Interne Bereiche wie Admin-Panels, Staging-Umgebungen oder Suchergebnisseiten werden indexiert.

RFC 9309: Der aktuelle Standard

Seit September 2022 ist RFC 9309 der offizielle Standard für robots.txt. Er definiert unter anderem, dass bei mehreren passenden Regeln die Regel mit der längsten Pfadübereinstimmung gewinnt – nicht die erste oder letzte in der Datei. Dieses Tool wendet genau diese Logik an.

Was sollten Sie mit den Ergebnissen tun?

Syntaxfehler beheben: Ungültige Direktiven oder fehlende Doppelpunkte können dazu führen, dass Crawler die Regel ignorieren.
URL-Tests durchführen: Testen Sie Ihre wichtigsten Seiten (Startseite, Kategorien, Produkte) und stellen Sie sicher, dass keine davon versehentlich blockiert ist.
Wildcard-Regeln prüfen: Regeln mit * können unbeabsichtigt ganze Seitenbereiche blockieren. Nutzen Sie die Regelrangfolge-Erklärung, um das Verhalten zu verstehen.
Sitemap-Einträge kontrollieren: Die robots.txt sollte einen Verweis auf Ihre XML-Sitemap enthalten.

Häufig gestellte Fragen

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website (unter /robots.txt), die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie besuchen dürfen und welche nicht. Sie wird von allen großen Suchmaschinen unterstützt.

Blockiert die robots.txt die Indexierung?

Nicht direkt. Die robots.txt verhindert das Crawling, nicht die Indexierung. Wenn eine Seite per robots.txt blockiert, aber von anderen Seiten verlinkt wird, kann Google sie trotzdem indexieren – allerdings ohne den Seiteninhalt zu kennen. Um die Indexierung zu verhindern, verwenden Sie ein noindex-Meta-Tag.

Was bedeutet „längste Pfadübereinstimmung“?

Wenn mehrere Regeln auf eine URL passen, gewinnt die mit dem längsten übereinstimmenden Pfad. Beispiel: Disallow: /blog/ und Allow: /blog/wichtig.html – für /blog/wichtig.html gewinnt die Allow-Regel, weil sie spezifischer (länger) ist.

Was passiert, wenn keine robots.txt existiert?

Wenn der Server einen 404-Fehler zurückgibt, interpretieren Crawler das als „alles erlaubt“. Die gesamte Website kann dann frei gecrawlt werden. Das ist für die meisten Websites in Ordnung, aber Sie verlieren die Möglichkeit, bestimmte Bereiche gezielt auszuschließen.

Gelten die Regeln auch für KI-Bots?

Einige KI-Bots wie GPTBot oder ClaudeBot respektieren die robots.txt. Allerdings ist das nicht garantiert, da es keinen bindenden Standard gibt. Um den Zugriff von KI-Bots gezielt zu prüfen, nutzen Sie unseren AI Bot Checker.

Kann ich verschiedene Regeln für verschiedene Crawler setzen?

Ja. Jeder User-agent-Block in der robots.txt gilt nur für den genannten Crawler. Sie können z. B. Googlebot andere Regeln zuweisen als Bingbot. Ein User-agent: *-Block gilt als Fallback für alle Crawler, die keine eigene Regel haben.