Suchmaschinenoptimierung | Grundlagen der Robots.txt

Kleine Textdatei – grosse Auswirkungen. Doch was hat es mit der robots.txt auf sich? Braucht man die Datei überhaupt auf der eigenen Seite? Ein Überblick über die Basics:

Was ist robots.txt überhaupt?

Die Webcrawler der Suchmaschinen wollen generell so viele Informationen von Webseiten sammeln wie nur möglich. Dies ist aber nicht immer im Interesse der Website-Betreiber. Aus diesem Grund gibt es seit 1994 die Möglichkeit festzulegen, welche Unterseiten und Verzeichnisse einer Webseite vor den Crawlern geschützt werden sollen. Dies erfolgt in Form der robots.txt, also dem Robots Exclusion Standard Protokoll. Vor dem Aufruf einer Webseite suchen Crawler immer zuerst nach der robots.txt und interpretieren dann deren Inhalt. Das Protokoll ist allerdings nur hinweisend und von der Mitarbeit der Crawler abhängig. Die gängigen Suchmaschinen wie Google, Bing und Yahoo halten sich in der Regel auch an die Anweisungen in der robots.txt – wenn diese denn korrekt geschrieben ist.

Weshalb brauche ich die robots.txt?

Wie bereits erwähnt gibt es Fälle, in denen man nicht möchte, dass der gesamte Inhalt einer Webseite indexiert wird. Dies kann beispielsweise der Fall sein, wenn sich eine Seite im Aufbau befindet oder die Seite nur für private Zwecke genutzt wird. In vielen Fällen ist das Sperren von Inhalten über die robots.txt also sinnvoll.

Wie erstelle ich das Protokoll?

Eine robots.txt lässt sich ganz einfach mit Hilfe des Texteditors erstellen. Detaillierte Informationen zu den wichtigsten Befehlen finden sich unter anderem auf SEO Trainee. Wem die eigene Erstellung aber zu langsam geht, der kann sich die Datei mittels eines Generators wie zum Beispiel dem von SEOBook erstellen lassen. Wichtig ist aber in beiden Fällen, dass man die Datei auf ihre Richtigkeit hin überprüft. Dies lässt sich sehr einfach mit den Google Webmaster Tools bewerkstelligen. Wie man dabei genau vorgeht, erfährt man im unteren Teil des Artikels beim Google Support.

Was gibt es dabei zu beachten?

Folgende Punkte sollten dabei beachtet werden:

Die robots.txt muss sich auf der obersten Verzeichnisebene befinden, die URL lautet also standardmässig https://www.ihredomain.de/robots.txt
Der Dateiname muss zwingend klein geschrieben werden, denn die Crawler suchen case-sensitive. Wird die Datei als „Robots.txt“ benannt, wird sie von den Crawlern nicht wahrgenommen.
„disallow“ und „allow“ sind beides mögliche Anweisungen innerhalb der Datei. Da „allow“ aber Standard ist, kann lediglich mit der Anweisung „disallow“ gearbeitet werden.
Jede Regel für „disallow“ muss mit einem Schrägstrich (/) beginnen.
Soll der Besuch von Crawlern komplett gesperrt werden verwendet man folgende Syntax:
User-agent:*
Disallow: /
Die Anwendung dieses Befehls sollte man sich gut überlegen. Möchte man ihn nämlich rückgängig machen, dauert es seine Zeit, bis die Seiten dann wieder gecrawlt werden.
Mehrere Regeln werden immer durch eine Leerzeile getrennt.
Die Syntax sollte unbedingt überprüft werden, da sich schnell (Schreib-)Fehler einschleichen.
Die Datei ist öffentlich zugänglich – jeder kann also sehen, was man zu sperren versucht. Heikle Daten schützt man also besser durch ein Passwort, als sie in der robots.txt aufzulisten.
Auch wenn der Crawler eine Seite nicht crawlen darf, bedeutet das nicht, dass sie nicht in den Index der Suchmaschinen gelangt.

Wie schützt man Inhalte denn nun effektiv vor der Indexierung?

Auch in der robots.txt blockierte Seiten können im Index von Suchmaschinen auftauchen, allerdings ohne Meta Description. Dies sieht zum einen unschön aus und zum anderen wurde das Ziel der definitiven Blockierung einer Seite nicht erreicht.