Ab sofort beachtet der Googlebot die „noindex“-Angabe in der robots.txt-Datei nicht mehr

Inhalte von Websites, die vom Bot bzw. vom Crawler einer Suchmaschine erfasst und durchsucht werden, konnten bislang durch Einstellungen in der robots.txt-Datei, auch Robots-Exklusion-Standard-Protokoll (REP) genannt, vom Crawling bzw. vom Detektieren ein- oder ausgeschlossen werden. Die „noindex“-Funktion war bislang eine dieser Optionen, um den Crawler einer Suchmaschine zu übermitteln, dass ein bestimmter Website-Bereich nicht untersucht werden soll.

Ab dem 1. September 2019, so Google, wird dem „noindex“-Befehl in der robots.txt vom Googlebot keine Beachtung mehr geschenkt. Grund dafür: In der Vergangenheit sei diese Funktion mit 0,001 Prozent bei allen robots.txt-Dateien zu selten in Anspruch genommen worden. Verzeichnisse, die künftig auf „noindex“ gesetzt sind, werden also dennoch vom Googlebot durchstöbert und gegebenenfalls in den Index mit aufgenommen. Es gibt allerdings auch noch andere Wege, um dem Crawler vorzugeben, welche Webseiten durchsucht werden sollen und welche nicht.

Alternativen zum „noindex“-Befehl

Disallow-Funktion: Dieser Befehl in der robots.txt-Datei hält der Suchmaschine ein Stoppschild vor und unterbindet somit das Crawling. Seiten, die bereits indexiert wurden, können zwar trotzdem noch in den Suchmaschinenergebnissen (kurz: SERPs) auftauchen, doch aufgrund der fehlenden, durchsuchbaren Inhalte in Zukunft deutlich weniger.
Über die „noindex“-Angabe in den Meta-Robots-Tags oder in den X-Robots-Tag im HTTP-Header, die dem Googlebot vorgibt, die jeweilige Website nicht zu indexieren. Dieser Befehl bleibt ein Garant für den Ausschluss einer Website aus dem Google-Index.
410-Status Codes: Seiten mit diesem Code fallen früher oder später aus dem Google-Index heraus, da beim Bot der Anschein erweckt wird, dass sie nicht mehr existieren.
Auch über die Google Search Console bietet sich mit dem Tool zum Entfernen von URLs die Möglichkeit, bestimmte Seiten aus den Google-SERPs auszuschließen.
Eine letzte Methode, um zu verhindern, dass bestimmte Seite in den Google-Index aufgenommen werden, ist der Passwortschutz, der die Inhalte einer Seite hinter einen Login setzt.

Die Entscheidung, welche Seiten von der Suchmaschine gefunden werden sollen, ist selbstverständlich abhängig von der Funktion einer Page für den Betreiber. Sie sollte auf keinen Fall leichtfertig getroffen werden. Hier gilt es, klare Analysen durchzuführen, damit es für den Gesamteindruck einer Webpräsenz bei Google zu keinem Nachteil kommt. Wir helfen Ihnen gerne dabei, die nötigen und richtigen Analysen durchzuführen und Ihr Online Marketing sicher voranzubringen.