Allgemeines:
Eine robots.txt-Datei besteht aus einer oder mehreren Regeln.
Jede Regel blockiert oder erlaubt einem bestimmten Crawler den Zugriff auf einen festgelegten Dateipfad auf einer Website.
Hier finden Sie ein Beispiel einer einfachen robots.txt-Datei, die aus zwei Regeln besteht:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
Erklärung:
- Der User-Agent namens "Googlebot"-Crawler soll den Ordner http://www.example.com/nogooglebot/ und seine Unterverzeichnisse nicht crawlen.
- Alle anderen User-Agenten können auf die gesamte Website zugreifen. Diese Regel könnte weggelassen werden und das Ergebnis wäre das gleiche, da immer von einem vollständigen Zugriff ausgegangen wird.
- Die XML-Sitemap-Datei der Website befindet sich unter http://www.example.com/sitemap.xml.
Für alle Robots nichts sperren:
User-agent: *
Disallow:
Eine leere oder nicht vorhandene robots.txt erfüllt den gleichen Zweck.