Indem du eine robots.txt Datei anlegst, kannst du aktiv bestimmen, auf welche Bereiche deiner Website die Crawler von Google Zugriff haben sollen. Ebenso legst du folglich fest, auf welche Seiten der Bot (User-Agent) keinen Zugriff haben soll.
Du selbst entscheidest, welche Bereiche du in die robots.txt Datei einfügst. Vorzugsweise werden dies Verzeichnisse oder Unterverzeichnisse sein. Es besteht sogar die Möglichkeit, die gesamte Website in das Verzeichnis aufzunehmen und Google hierdurch sozusagen den „Zutritt“ zu verweigern.
Der Vorteil einer solchen Datei ist, dass du auch auf die XML Sitemap deiner Website verweisen kannst. Hierdurch erleichterst du der Suchmaschine das Crawlen, was sich letztendlich positiv auf das Ranking deiner Website in den Suchergebnissen auswirken kann.
Übrigens bezeichnet die robots.txt Datei das Robots Exclusion Standard Protokol, das bereits im Jahr 1994 eingeführt wurde.
Ehe die Webcrawler der Suchmaschinen deine Website scannen, überprüfen sie, ob du an der dafür vorgesehenen Stelle die robots.txt Datei hinterlegt hast.
Ist dies der Fall, werden die darin genannten Bereiche nicht gecrawlt. Alle übrigen, nicht genannten Bereiche werden hingegen gecrawlt und entsprechend indexiert.
Damit die Suchmaschinen, die voll automatisch und eben nicht manuell arbeiten, diese Datei finden, musst du darauf achten, diese in exakt dieser Schreibweise „robots.txt“ zu benennen. Außerdem musst du die Datei in das Root-Verzeichnis deiner Domain einbinden.
Das müssen wir ganz klar verneinen. Während sich Google und Bing, aber auch Yahoo zuverlässig daran halten, gilt dies leider nicht für einige kleine Suchmaschinen. Diese können zwar auch auf die Datei zugreifen, was aber nicht bedeutet, dass sie deinen Anweisungen folgen.
Es gibt noch einige weitere Suchmaschinenbots, die jedoch von geringer Bedeutung sind.
Wie erwähnt, dient die robots.txt als Hilfe zur Indexierung durch die Suchmaschinenbots, weshalb diese die Datei zunächst durchsuchen, ehe eine Indexierung erfolgt.
Damit sich der jeweilige Bot „angesprochen“ fühlt, musst du diesen innerhalb der Datei namentlich benennen.
Jede einzelne Anweisung muss nach dem folgenden Schema erstellt werden:
User-agent: Botname
Disallow: /
Dies bedeutet, dass der jeweilige Bot die gesamte Seite nicht crawlen darf. Möchtest du das Crawlen einiger Bereiche verbieten, musst du die jeweilige URL angeben.
Für den Fall, dass der User-Agent die gesamte Website crawlen und indexieren darf, gibst du hinter „Disallow“ einfach nichts ein.
Wenn du für mehrere Webcrawler identische Einstellungen vornehmen möchtest, musst du nicht zigmal dieselben Datensätze anlegen. Es reicht dann aus, wenn du folgendermaßen verfährst:
User-agent: Botname1
User-agent: Botname2
User-agent: Botname3
Disallow: /
Ehe du die Datei in das Root-Verzeichnis hochlädst, überprüfe, ob alle Eingaben korrekt sind. Andernfalls werden diese vom Bot ignoriert. Du kannst dies einfach in der Google Search Console überprüfen, indem du dort die benötigten Daten einträgst.
Für das Erstellen der robots.txt Datei stehen dir verschiedene Möglichkeiten zur Verfügung, auf die wir nachfolgend eingehen möchten:
Die robots.txt Datei dient dazu, bestimmte Seiten nicht in den Ergebnisseiten der Suchmaschinen zu indexieren. Folglich landen diese Seiten nicht im Ranking. Für Seiten wie beispielsweise die Datenschutzerklärung, das Impressum oder ein Kontaktformular kann dies durchaus sinnvoll sein. Diese müssen nicht zwangsweise indexiert werden, denn sie haben für den User in der Regel nur eine geringe bis gar keine Relevanz.
Alle anderen Seiten sollten jedoch unbedingt ein möglichst gutes Ranking in den SERPs (Search Engine Result Pages) erzielen, damit sie von Nutzern gefunden werden. Die Gestaltung deiner robots.txt kann daher einen großen Einfluss auf die Suchmaschinenoptimierung nehmen.
Eine direkte Auswirkung auf die Suchmaschinenoptimierung hat die Verwendung der robots.txt allerdings nicht.
Mit der robots.txt kannst du auch doppelten Content von der Indexierung ausschließen und hierdurch einer Abstrafung durch Google entgehen. Hierfür ist der Einsatz der robots.txt daher sinnvoll.
Wenn du allgemein nur wenige Seiten von der Indexierung ausschließen möchtest, musst du nicht zwangsweise den Aufwand mit der robots.txt betreiben. In diesem Fall kannst du einfach in die Einstellungen der jeweiligen Seite in deinem CMS gehen und diese auf „noindex“ setzen. Auch dies gibt dem jeweiligen Bot das Signal, dass der Inhalt nicht in die Suchergebnisseiten aufgenommen werden soll.
Wir möchten dir nachfolgend noch einige wichtige Tipps an die Hand geben, die du beim Erstellen der robots.txt Datei beachten solltest:
Wie erwähnt, kannst du, sofern du einzelne Seiten von der Indexierung ausschließen möchtest, einfach den Befehl „noindex“ anklicken, den du in deinem CMS findest.
Auch die Platzierung eines Meta-Tags ist möglich. Diesen fügst du in denBereich der jeweiligen Seite ein.
Diese Variante wird jedoch nur für einzelne Seiten empfohlen. Komplette Verzeichnisse oder Unterverzeichnisse kannst du hierdurch nicht ausschließen.
Mithilfe der robots.txt Datei, die du ins Root-Verzeichnis deiner Website hochlädst, kannst du Suchmaschinenbots signalisieren, dass bestimmte Bereiche deiner Website nicht in die Suchergebnisse aufgenommen werden sollen. Hierbei kann es sich um einzelne Dateien, Verzeichnisse, Unterverzeichnisse oder um die gesamte Website handeln.
Als Alternative zur robots.txt kannst du auch einen entsprechenden Meta-Tag imBereich der jeweiligen Seite platzieren, um die Indexierung auszuschließen. Dies macht jedoch nur Sinn, wenn du wenige Seiten ausschließen möchtest.
Die robots.txt Datei garantiert dir allerdings nicht, dass sich sämtliche Bots an deine Anweisungen halten. Es gibt auch User-Agents – vor allem von kleinen Suchmaschinen – die auf die Datei zwar zugreifen können, diese aber ignorieren.
Damit die Anweisungen überhaupt beim Crawling umgesetzt werden können, musst du darauf achten, dass sämtliche Datensätze fehlerfrei sind.