Googles Änderungen für die Robots.txt

Wer online geht, möchte für gewöhnlich, dass seine Seiten gefunden und von den Suchmaschinen indexiert werden. Doch kann es aus verschiedenen Gründen Ausnahmen für bestimmte Unterseiten oder Elemente einer Website geben. Bisher war es möglich, über die Textdatei Robots.txt für alle Verzeichnisse einer Website festzulegen. Ob sie von den Google-Bots gelesen werden sollen. Einer offiziellen Ankündigung zufolge wird sich dies ab dem 1. September 2019 nun aber ändern. Grundsätzlich soll die Datei beziehungsweise das Robots Exclusion Protocol (REP) dann in Open Source umgewandelt werden. Damit einhergehend werden drei bisher kaum genutzte, beziehungsweise fehleranfällige Anweisungen entfallen.

Diese Anweisungen für Robots.txt werden in Zukunft entfallen

Wegfallen werden den Ankündigungen zufolge die Anweisungen:

  • eine Seite nicht zu indexieren (noindex),
  • einer Verlinkung nicht zu folgen (nofollow) und
  • Clients oder Suchmaschinen zur Verzögerung der Indexierungsversuche zu bringen (crawl delay).

Dass diese Anweisungen an den Google-Bot in Zukunft entfallen, bedeutet jedoch nicht, dass die Suchmaschinenoptimierung ganz auf diese Möglichkeiten verzichten muss. Doch bevor wir Ihnen die von Google empfohlenen Alternativen vorstellen, schauen wir zunächst noch einmal genauer hin, was diese Änderungen zu bedeuten haben und was genau den Suchmaschinenbetreiber motiviert, sie vorzunehmen.

Der Noindex-Befehl wird für gewöhnlich eingesetzt, wenn Seiten sich noch im Aufbau befinden oder wenn es doppelten Content oder aufwendige Archivierungen zu vermeiden gilt. Auch kann damit ausgeschlossen werden, dass bestimmte Elemente, in den SERP auftauchen.

Die Anweisung „nofollow“ wird für Verlinkungen vorgenommen, die beispielsweise Spammer gern haufenweise in den Kommentarspalten hinterlassen. Aber auch für gekaufte Links oder solche, denen kein PageRank vererbt werden soll, lässt sich der Befehl „nofollow“ nutzen.

Die Anweisung „crawl delay“ wird in die Robots.txt-Datei eingetragen, wenn ein Crawler davon abgehalten werden soll, die eigene Website in zu geringen Abständen zu indexieren. Ob Google diese Ergänzung jedoch jemals registriert hat, ist fraglich.

Alles in allem werden die genannten Anweisungen jedoch ohnehin kaum genutzt. Darüber hinaus kommt es in geringer Zahl zu Fehlern beziehungsweise zur Erteilung von in sich widersprüchlichen Anweisungen, die in die Datei Robots.txt eingetragen werden. Dies dann allerdings mit der Folge, dass die Präsenz dieser Webseiten in den SERP in einer von den Webseitenbetreibern unbeabsichtigten Weise erfolgt.

Googles Änderungen für die Robots.txt


Googles Änderungen für die Robots.txt (© RS-Studios – de.fotolia.com)

Gründe und Alternativen für die geplanten Veränderungen

Die geplanten Änderungen gehen damit einher, das Robots Exclusion Protocol (REP) als Open Source auszubauen und zu einem anerkannten Standard zu entwickeln. Webmastern und Suchmaschinenoptimierern sollen differenziertere Möglichkeiten zur Verfügung stehen, um die Art der Sichtbarkeit und Indexierung einzelner Seiten und Elemente zu beeinflussen.

Wollen Sie wie bisher das Crawlen der eigenen Seiten grundsätzlich zulassen, bestimmte Bereiche aber ausgenommen wissen, haben Sie nun folgende Möglichkeiten:

  1. Nehmen Sie die Anweisung „noindex“ in den HTTP-Header (X-Robots-Tags) oder in die Meta-Robots-Tags auf.
  2.  Legen Sie für einzelnen Seiten den Status 404 oder 410 fest.
  3. Versehen Sie Seiten, bei denen Sie absolut sicher gehen wollen, dass sie nicht gecrawlt und nicht indexiert werden, mit einem Passwortschutz. (Was Sie ohnehin immer tun sollten, da die noindex-Anweisung keine absolute Sicherheit bietet.)
  4. Entfernen Sie über die Google-Search-Console eine URL, damit diese (vorübergehend) nicht in den SERP erscheint.
  5. Empfohlen wird zudem, eine Seite, die nicht indexiert werden soll, mit der Anweisung „disallow“ zu schützen. Diese Anweisung verhindert allerdings lediglich, dass die Seite weiter untersucht wird. Sie kann dennoch indexiert werden. Und da gerade die gleichzeitige Verwendung von widersprüchlichen Anweisungen wie „disallow“ und „noindex“ in der Vergangenheit zu jener Fehleranfälligkeit geführt hat, die in Zukunft vermieden werden soll, ist mit diesem Mittel sparsam umzugehen.

Für die SEO Optimierung wird es daher zunächst einmal aufwendiger, Webseiten fehlerfrei zu administrieren. Bleibt zu hoffen, dass sich auf Dauer durch die Einrichtung von REP als Standard und Open Source tatsächlich Vereinfachungen und neue Möglichkeiten ergeben.

Zurück zum Blog


Noch Fragen?

 

Kontakt aufnehmen