Sie sind hier: Home

Robots.txt und Windmühlen

In der Robots.txt-Datei hat der Seitenbetreiber die Möglichkeit bestimmten Clients den Zugriff auf eine Internetseite zu verbieten. Anders als bei Zugriffsbeschränkungen per htaccess können nur die „guten” Bots – die sich auch an die hier angegebenen Vorgaben halten – von Zugriffen abgehalten werden. Der Vorteil dieser Variante ist der, dass die Seite nicht durch ungewollten Ausschluss von Clients im Zweifelsfall nicht für reale Seitenbesucher gesperrt wird.

Da sich die Crawler grundsätzlich nicht zwingend an die in der Robots.txt angegebenen Vorgaben halten müssen, bietet der hier angegebene Mechanismus zur Steuerung der Bots keinen wirksamen Schutz gegen das Auslesen der auf einer Website veröffentlichten Inhalte. So gibt es viele Crawler, die auf automatisierte Weise Inhalte von Internetseiten einsammeln und den verschiedensten Verwendungszwecken zuführen, ja teilweise regelrecht missbrauchen. Die ausgelesenen Inhalte tauchen dann auf anderen Internetseiten auf und dienen deren Betreiber als kostenlose Content-Quellen, die zum Aufbau eigener Projekte missbraucht werden.

Auch gibt es Unternehmen, welche die Informationen aufbereiten und mit einem Suchindex ausgestattet an andere Unternehmen verkaufen. Letztlich handelt es sich in beiden Fällen – zumindest nach deutschem Recht – um Verstöße gegen die geltenden Gesetze des Urheberrechts. Allerdings dürfte das die Seitenbetreiber nicht weiter stören, da ihre Machenschaften entweder gar nicht erst auffallen – was sicher beim größten Teil der gespiderten Seiten der Fall ist – oder es ist ihnen egal, da sie ihre Aktivitäten in Länder auslagern, in denen eine Verfolgung aussichtslos ist.

Gegen derartige Zugriffe hilft nur das Aussperren bestimmter Bots mit Hilfe von Zugriffsverboten, die in der .htaccess-Datei definiert werden können. Dazu müssen die Übeltäter freilich ersteinmal identifiziert werden. Auch hier ist eine eingehende Analyse der Webserver-Logfiles vonnöten. Einmal als solche identifiziert, können diese Crawler über verschiedene Wege von Zugriffen abgehalten werden. Ausgeschlossen werden können sie durch Zugriffsverbote auf Basis von IP-Adressen, Domainnamen oder Angaben zum User-Agent.

Dieser Prozess ist im Grunde nie abgeschlossen – der Vorgang ähnelt einem Kampf gegen die berüchtigten Windmühlen. Schließlich werden soche „Bad-Bots” immer zahlreicher und durch eine gewisse Flexibilität – Verscheierungstaktiken durch falsche Angaben des User-Agents oder Zugriffe über Proxies – können Verbote leicht ausgehebelt werden. Bei Zugriffen über Proxies und allzu rigiden Sperrungen über IP-Adressräume ist darüber hinaus Vorsicht geboten: Am Ende werden ungewollt „echte” Besucher ausgesperrt und die Nutzung des Internet Angebots bleibt diesen verwehrt. Entsprechend vorsichtig sollte diese Technik zur Sperrung von Serveranfragen eingesetzt werden.

Eine Filterung mittels htaccess-Datei hat darüber hinaus einen weiteren Nachteil: Im Gegensatz zur Robots.txt-Variante muss der Webserver bei jeder Serveranfrage die angegebenen Filter auf Übereinstimmungen prüfen. Bei zunehmender Zahl der ausgeschlossenen Clients wächst auch der Aufwand, den der Server zur Entscheidung benötigt, ob er die Seite ausliefern darf oder nicht. Hier sollte man es nicht übertreiben, da die Beantwortung der Anfragen durch umfangreiche Regeln entsprechend verlangsamt wird.

Seite 3 von 3 | « [1] • [2] • [3] »