Sie sind hier: Home

Struktur einer Robots.txt-Datei

Im Grunde ist der Aufbau der Robots.txt recht einfach gehalten: Zu jedem User-Agenten werden Regeln aufgestellt, die Botzugriffe unter Kontrolle des Webmasters halten sollen. Allerdings sollten einige Regeln bei der Formulierung beachtet werden, damit keine unnötigen Komplikationen auftreten.

Zur Steuerung von guten Bots bietet die Robots.txt-Datei einige Anweisungen an. Die hier enthaltenen Einträge bestehen jewiels aus zwei aufeinander forlgenden Angabebereichen. Dies sind zum Einen Angaben zum entsprechenden User-Agenten, und zum Anderen Angaben bezüglich dessen Zugriffserlaubnisse. Letztere können aus mehreren Teilen bestehen, die sich jeweils auf einen Teilbereich der auf einer Website enthaltenen Inhalte beziehen und den Zugriff entweder erlauben oder aber verwehren.

Einzelne User-Agents – hiermit sind die angesprochenen Bots gemeint – werden über deren User-Agent-String identifiziert. Die Bot-Entwickler senden mit den durch ihren Crawler abgesetzten HTTP-Requests normalerweise einen Hinweis (meist eine URL) auf eine Internetseite, auf der Homepage-Betreiber Informationen finden, mit welcher Angabe im User-Agent in der Robots.txt-Datei, der Bot vom Einlesen der Inhalte abgehalten werden kann – dies tunn zumindest solche Crawler-Betreiber, die sich an den Standard halten. Der hier angegebene User-Agent-String sollte so übernommen werden, wie er angegeben ist, damit eine fehlerfreie Erkennung durch das Bot-Programm sicher gestellt ist.

Die Zugriffserlaubnis bzw. das Zugriffsverbot wird im zweiten Teilbereich über Allow bzw. Disallow – Zugriff ist erlaubt oder eben nicht – geregelt. Diese können je angesprochenem Bot mehrfach definiert werden. Darüber hinaus akzeptieren einige Crawler – genauer gesagt die Bots von Yahoo! und MSN – eine mit Crawl-Delay bezeichnete Frequentierungsgeschwindigkeit. Hier kann angegeben werden, wieviele Sekunden (mindestens) zwischen zwei Dateianfragen durch die verwendeten Bots verstreichen müssen. Im Allgemeinen setzen Suchmaschinen-Bots ihre Anfragen allerdings automatisch – um den Webserver nicht mit den anfallenden Abfragen zu überlasten – in moderater Folge ab, so daß diese Angabe bei den Crawlern, welche diese Einstellung beachten, eigentlich überflüssig ist.

Eine weiter Angabe, die durch die genannten Suchmaschinenbetreiber und darüber hinaus noch von Google und Ask.com ausgewertet wird, ist die Sitemap-Direktive. Hier wird eine URL angegeben, unter der eine im XML-Format angegebene Liste der auf der Wesite enthaltenen Einzelseiten abzurufen ist. Hiermit hat der Crawler einen einfacheren Zugang zu den Unterseiten einer Internetseite, was gerade bei stark verschachtelten Seitenstrukturen von Vorteil ist. Diese Datei sollte nach den Formatvorgaben von Sitemaps erstellt werden, damit eine reibungslose Verarbeitung gewährleistet ist.

Formal lassen sich die Anweisungsblöcke eine Robots.txt-Datei alsi in Blöcke unterteilen. Jede Anweisung steht in einer eigenen Zeile der Textdatei und der Übersichtlichkeit halber können einzeilige Kommentare enthalten sein, die durch das Raute-Zeichen (#) eingeleitet werden. Die einzelnen Blöcke sollten ihrerseits durch eine Leerzeile voneinander getrennt werden. Zwar ist oft die Rede davon, dass dies zur Trennung von Regelblöcken unbedingt nötig ist, allerdings werten die gängigen Suchmaschinenbots Leerzeilen nicht als Ende eines Regelsatzes – Sicherheitshalber sollte die Vorgabe aber eingehalten werden. Ein Beispiel soll einen solchen Block exemplarisch aufführen:

# google in Robots.txt ansprechen
User-agent: Googlebot
# Admin-Bereich meiner Website hat im Index nichts zu suchen
Disallow: /admin/

# Das gleiche soll auch für MSN und Yahoo! gelten
User-agent: MSNBot
Disallow: /admin/

User-agent: Slurp
Disallow: /admin/

# Alle anderen Crawler sollen keinen Traffic verursachen
User-agent: *
Disallow: /

Als User-Agent kann mit dem „*”-Zeichen ein Platzhalter – auch Wildcard genannt – angegeben werden, der eine Regel für alle Bots einleitet. Hierbei ist zu beachten, dass diese Regel die letzte in der Robots.txt enthaltene Vorgabe sein sollte. Auch hier wird oft behauptet, dass eine Eingangs angegebene Wildcard-Regel zu einem sofortigen Abbruch der Verarbeitung der Robots.txt-Datei führt. Woher diese Weisheit stammt ist nicht ganz klar: Zumindest bei Google und Yahoo! wird die Datei bis zum Ende nach einer speziellen Regel für den Googlebot – bzw. einen der zahlreichen durch Google betriebenen Bots – oder dessen Yahoo!-Pendant Slurp durchsucht. Da allerdings nicht klar ist, dass sich alle Crawler so verhalten, sollte auch diese Regel sicherheitshalber beachtet werden. Eine Liste von gängigen User-Agenten samt einigen technischen Informationen, die bei der Einordnung helfen kann, ist übrigens in der Web Robots Database zu finden.

Des Weiteren sollte unbedingt auf korrekte Groß- und Kleinschreibung geachtet werden. Yahoo! gibt beispielsweise an, dass die Analyse der Robots.txt-Datei case-sensitive erfolgt. Also sollte bei den Anweisungen stets die folgende Schreibweise genutzt werden: User-agent, Allow und Disallow.

Seite 2 von 3 | « [1] • [2] • [3] »