Sie sind hier: Home

Robots.txt & Website-Crawler

Mit entsprechenden Angaben in der Robots.txt-Datei können Website Betreiber bestimmten Crawlern das Durchforsten ihrer Internetseiten erlauben oder aber verbieten. Neben Verboten auf Verzeichnis-Basis können auch bestimmte Dateitypen vom Zugriff ausgeschlossen werden. Der Robots-Exclusion-Standard ist allerdings auf den Good-Will der Bots angewiesen und schließt „böse” Bots nicht wirksam aus. Dennoch können unnötige Seitenanfragen einiger Bots effektiv verhindert und damit der Webserver entlastet werden.

Obwohl es sich nicht wirklich um einen „echten” Standard handelt, so ist die im Robots-Exclusion-Standard festgelegte Maßgabe, die Regelungen für den Zugriff durch sogenannte Crawler – auch Bots oder Robots genannt, womit Programme bezeichnet werden, die automatisch alle mit einer ersten angegebenen URL Ebene für Ebene über die auf den Internetseiten enthaltenen Links verfolgt, einliest und in irgendeiner Form verarbeitet – auf Websites festgelegt. Erstmals im Jahre 1994 durch eine unabhängige Gruppe von Entwicklern, die sich damals mit der Programmierung von Bots beschäftigten, in Form des Automated Access Protokol (ACAP) entwickelt wurde das Regelwerk später weiterentwickelt und im Jahre 2007 als Robots Exclusion Standards veröffentlicht.

Auch wenn es nachfolgend nie einen formalen Standardisierungsprozess gab, waren die Vorgaben letzlich als Quasi-Standard allgemein anerkannt und viele Crawler richteten sich nach diesen Restriktionen. Einige Zeit später gaben die großen Suchmaschinenbetreiber an, inwiefern die in der Robots.txt-Datei abgelegten Regeln beachten und bei der Verarbeitung von Inhalten berücksichtigen.

Die Robots.txt-Datei ist im Grunde nichts weiter als eine gewöhnliche Textdatei, die im Rootverzeichnis einer (Sub-)Domain abgelegt wird, und Anweisungen für die Bots enthält. Sie muss stets unter der URL domain.com/robots.txt erreichbar sein. Jede Subdomain muss, da sie über ein eigenes Rootverzeichnis verfügt, eine eigene Datei mit den entsprechenden Anweisungen für die Crawler haben. Dabei ist darauf zu achten, dass der Dateinamen klein geschrieben wird. Alle Crawler, die sich an die hier enthaltenen Vorgaben halten – und das ist längst nich jeder, der die Datei aus einliest – ruft vor dem ersten Crawl-Vorgang und später in unregelmäßigen Abständen immer wieder ab, um auf dem aktuellen Stand zu bleiben.

Auch wenn die Sperrung von Bots per Robots.txt bei unkooperativen User-Agenten nicht funktioniert, ist diese Form der Sperrung die effektivste. Werden die Clients per .htaccess abgewiesen, so bedeutet jeder eingetragene User-Agent bzw. jede angegebene IP-Adresse, dass eine weitere Berechtigungsprüfung durch den Webserver durchgeführt werden muss. Das kostet Zeit und beschäftigt den Server bei jeder einzelnen Anfrage – unabhängig davon, ob nun ein Bild oder eine HTML-Datei angefordert wird. Dieser Aufwand ist bei einer Eintragung in die Robots.txt-Datei nicht nötig. Damit der Server nicht unnötig belastet wird, sollten kooperative Crawler keinesfalls per .htaccess abgewiesen werden.

In der Robots.txt-Datei können nicht allein ganze Internet-Auftritte als Ganzes vom Crawlen ausgenommen werden. Statt dessen ist eine feingliedrige, auf Verzeichnis- und Dateibasis bezogene, Festlegung von zum Crawlen verbotenen Bereichen möglich. Auch Wildcards – spezielle Platzhalter für beliebige Dateinamen – können zur Definition von gesperrten oder zum Crawlen freigegebenen Seitenbereichen verwendet werden.

Darüber hinaus können Anfragen von URLs mit enthaltenen GET-Parametern ausgeschlossen werden. Die angegebenen Verzeichnisstrukturen oder Dateinamen müssen sich nicht zwingend auf tatsächlich vorhandene Dateien und Verzeichnisse beziehen. Auch „virtuelle” Dateien und Verzeichnisse – etwa bei Nutzung von Rewrite-Umleitungen (z.B. Mapping von einer URL der Form /profile/user1 auf ein Script, welches die Profildaten eines Benutzers anzeigt, allerdings in Wirklichkeit im Dateisystem unter /users.php abgelegt ist und den Benutzernamen als Aufrufparameter erhält (also eigentlich ein Redirect auf /users.php?user1) – können angegeben werden.

Seite 1 von 3 | « [1] • [2] • [3] »