Mit dem Robots Exclusion Protocol (REP), besser bekannt als robots.txt, können Seitenbetreiber Crawler und automatische Clients vom Zugriff auf eine Website ausschließen. Google startet mit ersten Anpassungen bereits im September.
Trotz der Verbreitung des REP wurde die robot.txt bisher nicht zum Internet-Standard, da Entwickler das Protokoll zumeist als nicht eindeutig interpretierten. Auch bleiben einige Grenzfälle außen vor, wenn beispielsweise Byte Order Mark in die robots.txt-Dateien einbezogen wird. Auch Crawler- und Tool-Entwickler haben ihre Probleme mit großen robots.txt-Dateien. Wie will Google das nun lösen?
Das sowohl von Googlebot als auch von anderen wichtigen Crawlern verwendete REP, soll feiner abgestimmt werden und dem modernen Web begegnen. Über Steuerelementen kann ein Publisher entscheiden, was auf seiner Website gecrawlt und potenziell interessierten Benutzern angezeigt wird.
Der robots.txt-Standard ist derzeit ein Entwurf, bei dem Google Kommentare von Entwicklern anfordert. Der Standard wird angepasst, wenn Web-Ersteller angeben, wie viele Informationen sie dem Googlebot zur Verfügung stellen möchten und welche in der Suche angezeigt werden sollen. Im Grunde mehr Arbeitsaufwand für Entwickler, da Google die robots.txt als Open-Sourcing-Datei verwendet.
Zum 1. September werden bereit die ersten Unterstützungen für Regeln der robot.txt eingestellt. Dies trifft unter anderem die Noindex in Robots-Meta-Tags, die HTTP-Statuscodes 404 und 410 und das GSC-Tool zum Entfernen von URLs. Google bietet hier jedoch einige Lösungen an.
Alle Informationen im Google Webmaster Central Blog