Onpage

Das Crawling deiner Website steuern und optimieren

Das Crawling deiner Website ist der erste Schritt der Suchmaschinen, um deine Website, ihre Struktur und Inhalte zu erfassen. Es ist die Grundlage für die Indexierung und das Ranking deiner Inhalte. Doch die Crawler sollen nicht immer Zugriff auf jede URL deiner Domain haben.

Wir verraten dir, wie Crawler arbeiten und wie du die robots.txt nutzt, um das Verhalten der Crawler auf deiner Seite zu steuern. Außerdem lernst du, was es mit dem Crawl Budget auf sich hat, für wen es relevant ist, wann eine Crawl Budget Optimierung Sinn macht und wie du sie durchführst - praktische Checkliste inklusive.

Was ist Crawling?

Titelbild für SEO Kompass über "Was ist Crawling"?

Was macht ein Crawler?

Damit Crawler wissen, welche Bereiche einer Website sie erfassen sollen, benötigen sie die Anweisungen der robots.txtCrawler (auch Spider oder Bots genannt) ‘krabbeln’ über Websites und sammeln Daten. Über interne und externe Verlinkungen arbeiten sie sich Seite für Seite vor. Welche Daten sie sammeln, hängt von Zweck und Urheber der Crawler ab.

Verwendet werden Crawler vor allem durch Suchmaschinen, aber auch durch Analyse-Softwares, mit der du deine Website untersuchen kannst. Das sind beispielsweise SEO Tools. Es gibt aber auch Crawler bzw. Bots, die gezielt persönliche Daten einer Website sammeln. Oft werden hier E-Mail-Adressen und andere sensible Daten gespeichert, um sie später ohne Wissen und Zustimmung der Besitzer weiter zu verwenden. Die Folge sind beispielsweise Spam-Mails.

Das bedeutet aber nicht, dass Crawler automatisch Zugang zu allen Bereiche deiner Website erhalten. Du hast zwei Möglichkeiten, das Verhalten der Crawler auf deiner Website zu steuern:

  • Mit der robots.txt Datei verfasst du eine Art Leitfaden für die Bots. Es definiert, welche Bereiche oder Seiten die crawlen sollen, und welche nicht. Die robots.txt ist allerdings nur ein Leitfaden, kein Regelwerk. Die meisten Crawler halten sich allerdings daran.
  • Um Spider mit missbräuchlichen Absichten effektiv aus bestimmten Bereichen und Inhalten auszusperren, setzt du die .htaccess-Datei ein.

SEO Kompass TippWeiter unten erfährst du ausführlich, wie du die robots.txt richtig einsetzt und die Crawler gezielt steuerst.

Wir beschäftigen uns jetzt näher mit dem Crawling durch die Suchmaschinen-Bots von Google, Bing und Co.

Crawling durch Suchmaschinen

Beim Crawling erfasst der Googlebot (oder andere Suchmaschinen-Crawler) deine Website – sofern durch die robots.txt nicht anders definiert. Dabei versuchen sie, den Aufbau (Struktur und Schwerpunkte) sowie die Inhalte deiner Website zu verstehen und registrieren ihren technischen Zustand.

Suchmaschinen nutzen die beim Crawling gesammelten Informationen später dafür, diese Inhalte gegebenenfalls zu Indexieren (gemäß der Indexing-Angaben der einzelnen Seiten) und die Relevanz zu diversen Suchanfragen zu ermitteln (Ranking). Das Crawling der Inhalte ist also die Voraussetzung für die Indexierung und das daraus resultierende Ranking zu relevanten Suchbegriffen.

So erfassen Suchmaschinen deine Website:

Crawling:
Die Crawler “krabbeln” über deine deine Website und erfassen ihre Struktur und Inhalte, sofern durch die robots.txt nicht anders bestimmt. Dabei können sie erkennen, ob seit dem letzten Crawl neue Inhalte hinzugekommen sind oder bestehende Inhalte aktualisiert wurden.

Indexierung:
Die Suchmaschinen erhalten die gesammelten Informationen und werten sie aus. Dabei überprüfen sie, welche durch die Crawler gefundenen Inhalte in den Suchmaschinenindex aufgenommen werden (dürfen). Aussortiert werden beispielsweise mit dem noindex-Tag gekennzeichnete Inhalte oder solche, die die Suchmaschine für irrelevant hält.

Ranking:
Die Suchmaschine sortiert alle verbleibenden indexierbaren Seiten den Suchanfragen (Keywords) zu. Die Inhalte werden nach Relevanz absteigend sortiert. Die Seite mit den ‘besten’ Antworten auf eine Suchanfrage wird auf Position 1 der organischen Suchergebnisse platziert.

Suchergebnisse:
Der User stellt eine Suchanfrage. Durch das Ranking ergeben sich die Positionen einzelner Seiten in den organischen Suchergebnisseiten (SERPs), die dem User als Ergebnis angezeigt werden.

Infografik über die Funktion einer Suchmaschine: Crawling, Indexierung, Ranking, Suchergebnisse

Das Crawling ist also die Basis für die Indexierung und im dritten Schritt für das Ranking deiner Inhalte. Zwar beschäftigt sich die Suchmaschinenoptimierung schwerpunktmäßig mit dem Ranking, dennoch solltest du als SEO mit dem Prinzip des Crawlings vertraut sein.

Aus zwei Gründen solltest du Kontrolle über das Crawling deiner Seite übernehmen:

  1. Schütze Daten, die andere nichts angehen. Überlege dir genau, welche Bereiche oder Inhalte gar nicht erst gecrawlt werden sollen, etwa weil sie Informationen Dritter (Member Areas, Kundenkonten) enthalten. Halte Inhalte aus dem Index, die dort nichts verloren haben.
  2. Verhindere das unnötige Crawlen von Inhalten, die nicht indexiert werden sollen. Suchmaschinen stellen jeder Website ein tägliches Crawl Budget zur Verfügung. Verschwende es nicht an Seiten, die ohnehin nicht in den Index sollen und sorge dafür, dass es für Seiten genutzt wird, die für deine Rankings wichtig sind.

Im nächsten Kapitel erfährst du, wie du richtig mit der robots.txt umgehst, um das Crawling deiner Website gekonnt zu steuern. Nächste Woche beantworten wir dir hier außerdem alle Fragen zur Crawl Budget Optimierung.

Wie erstelle ich die robots.txt?

Syntax, Directives und häufige Fehler: Alles, was du über die robots.txt wissen musst

Jeder Webmaster und jeder SEO sollte sich mit der robots.txt befassen. Du solltest wissen, was sie eigentlich ist, wie sie aufgebaut ist und wie man mit ihr richtig umgeht. Denn gerade 2019 stehen einige wichtige Änderungen ins Haus, die eine Überarbeitung deiner robots.txt notwendig machen können. Deswegen haben wir für dich eine Übersicht zusammengestellt, die dir die wichtigsten Merkmale leicht verständlich näher bringen. Danach solltest du grundlegend in der Lage sein, dich mit der robots.txt deiner Website auseinanderzusetzen.

Was ist die robots.txt?

Die robots.txt ist quasi das Regelbuch deiner Website für Crawler. Sie wird auch Robots Exclusion Standard bzw. Robots Exclusion Protocol bezeichnet und liegt im Root-Verzeichnis der Website. Dabei handelt es sich um eine Textdatei (daher das Dateiformat .txt) die vorgibt, welche Crawler welche Bereiche deiner Website crawlen dürfen, und welche nicht. Daher ist die robots.txt auch die erste Anlaufstelle für Bots, die zu deiner Seite kommen. Du kannst sie auch als Türsteher betrachten.

Mit der robots.txt definierst du den Crawler-Zugriff auf Die robots.txt steuert das Verhalten der Crawler auf deiner Website.

  • Verzeichnisse
  • Pfade
  • Dateiformate
  • Dateien
  • URL-Parameter
  • Sitemaps

Seit ihrer Erfindung 1994 erfreute sich die robots.txt größter Beliebtheit, wurde aber nie offiziell als Internet Standard anerkannt. Damit wuchsen die Interpretation des Dokuments (durch Developer und Crawler) sowie die verwendeten Regeln, sodass mitunter Unsicherheit über die richtige Formulierung der Directives entstand. Das will Google seit dem 01. Juli 2019 ändern und die robots.txt zum Internet Standard machen.

Ist die robots.txt Pflicht?

Damit Crawler wissen, welche Bereiche einer Website sie erfassen sollen, benötigen sie die Anweisungen der robots.txtNein. Die robots.txt ist kein Muss, wird aber unbedingt empfohlen. Schließlich steuert die robots.txt das Crawler-Verhalten auf deiner Website. Existiert sie nicht, können die Bots ungehindert deine Inhalte erfassen. Oder die Suchmaschinen machen auf der Stelle kehrt und crawlen deine Seite gar nicht. Deine gesamte Website zu crawlen, würde schließlich eine ganze Menge Crawl-Budget kosten.

Welche Vorteile hat die robots.txt?

  1. Du kannst das Verhalten von Suchmaschinen auf deiner Website beeinflussen. Das ist auch über Meta Tags möglich, ist aber aufwendiger und nur für die HTML-Datei möglich, nicht aber für darin enthaltene Dateien wie Bilder.
  2. Du kannst Crawl-Budget einsparen. Du hast eine große Website mit tausenden Unterseiten, die für Suchmaschinen-Traffic ungeeignet sind? Dann erspare den Crawlern den unnützen Weg über diese Seiten.
  3. Du kannst das Website-Management von Verzeichnissen und Dokumenten vereinfachen. Klar kannst du für Suchmaschinen irrelevante Seiten mit dem ‘noindex’-Tag von den SERPs ausschließen. Dieser muss aber für jede URL einzeln gesetzt werden – was bei hunderten oder tausenden Seiten aufwendig und unübersichtlich ist. Da ist es viel einfacher, diese Verzeichnisse oder Dokumente in der robots.txt per Disallow auszuschließen.

Welche Nachteile hat die robots.txt?

  1. Die robots.txt gibt den Crawlern lediglich Richtlinien vor, ihr Wort ist aber nicht Gesetz. Das bedeutet, dass es im Ermessen der Crawler bzw. Suchmaschinen liegt, ob sie deinen Anweisungen Folge leisten, oder auch nicht. Die meisten Suchmaschinen halten sich in der Regel an die robots.txt. Crawler mit bösen Absichten sind nicht an Weisungen der robots.txt gebunden und ignorieren sie.
  2. Seiten, die unter die Disallow-Directive fallen, können keinen Linkjuice weitergeben. Aus SEO-Perspektive werden sie damit nutzlos.
  3. Disallow-Seiten, die Backlinks erhalten, werden indexiert und erhalten den Ankertext der Link-gebenden Seite als Snippet. Sie tauchen also trotz disallow im Index auf.

Wo finde ich die robots.txt?

Die robots.txt befindet sich im Root-Verzeichnis deiner Website. Wenn du eine WordPress-Website hast, befinden sich in diesem Ordner auch die .htaccess-Datei und die wp-config.php. Es kann immer nur eine robots.txt pro Domain geben. Subdomains erhalten jeweils ein eigenes Dokument.

SEO Kompass TippIst die robots.txt korrekt abgelegt, wird sie unter deinedomain.de/robots.txt abrufbar sein. Findest du sie unter dieser URL nicht, hast du deine robots.txt an der falschen Stelle abgelegt. Crawler gehen dann davon aus, dass sie deine gesamte Domain crawlen können bzw. sollen.

Wie ist die robots.txt aufgebaut?

Die Syntax (Aufbau) der robots.txt folgt immer demselben Muster. Sie besteht aus mindestens einer Gruppe mit Regeln, die sich an alle Webcrawler richten. Die Gruppe beginnt immer mit dem Adressaten, der auch User-agent genannt wird und festlegt, an welche Webcrawler sich die folgenden Regeln richten. Darauf folgen Directives (Regeln) und falls gewünscht, nicht Crawler-spezifische Hinweise (z.B. Angabe der Sitemap) oder Kommentare.

Anfang der Gruppe
User-agent:
Datensatz für Gruppenmitglieder
Disallow:
Datensatz für Gruppenmitglieder
Allow:
Nicht gruppenspezifische Angaben
Sitemap:

In der Praxis kann eine einfache robots.txt so aussehen:

User-agent: *
Disallow: /verzeichnis/
Allow: /verzeichnis/unterseite
Sitemap: https://www.deinedomain.de/sitemap.xml

Spezifikationen für bestimmte Crawler werden (durch eine Leerzeile getrennt) in jeweils weiteren Gruppen angegeben. Der, bzw. die User-agent(s), für die ein Set an Regeln gilt, wird immer in einer eigenen Gruppe angegeben. Die robots.txt wird von den Bots immer von oben nach unten gelesen. Findet beispielsweise der Googlebot explizit an ihn gerichtete Directives, hält er sich an diese und ignoriert er alle anderen. Daher ist es sinnvoll, erst die Regeln für spezifische Crawler abzuhandeln und danach auf die allgemein gültigen Regeln einzugehen. Das sieht kann dann so aussehen:

User-agent: Googlebot
User-agent: Bingbot
Disallow: /verzeichnis1/
Allow: /verzeichnis/unterseite-b

User-agent: *
Disallow: /verzeichnis2/
Allow: /verzeichnis/unterseite-d

Merke-IconWenn ein Set an Regeln (also eine Gruppe) für mehrere Crawler gelten soll, bekommt jeder User-agent (Crawler) seine eigene Zeile. Schau dir dazu das obige Beispiel an.

Welche Eingaben gibt es?

Eingabe Art Funktion Beispiel
User-agent: Ansprache Crawler Legt fest, für welchen Bot die folgenden Regeln gelten
User-agent: Googlebot
Disallow: Regel Verbietet das Crawlen der Verzeichnisse / Dateien
Disallow: /verzeichnisx/
Allow: Ausnahme zur vorausgehenden Regel Erlaubt das Crawlen der Verzeichnisse / Dateien
Allow: /verzeichnisx/das-ist-gut
Sitemap: Hinweis Zeigt die Adresse der Sitemap
Sitemap: https://www.domain.de/sitemap.xml
* Platzhalter Wildcard. “Gilt für alle”-Definition
User-agent: *
$ Platzhalter Kennzeichnet das Ende der URL
Allow: .png$
# Hinweis Markiert eine Kommentarzeile
#robots.txt von Arno Nym

Auf diese Formatierung solltest du achten:

  • Richtige Gruppen-Reihenfolge: Setze Crawler-spezifische Regeln zuerst, dann erst die allgemeingültige Gruppe.
  • Groß-/Kleinschreibung: Dateiname MUSS robots.txt sein. Achte auf die richtige Schreibweise von Pfaden und Verzeichnissen.
  • Zeichensetzung: Denk an den Doppelpunkt (.) bzw. Slash (/)!
  • Ein Directive/User-agent pro Zeile. Widme jeder Regel und jedem User-Agent eine eigene Zeile. Wenn du zwei Verzeichnisse sperren möchtest, bekommt jedes Verzeichnis ein Disallow-Directive in einer eigenen Zeile.

Ausführliche Beispiele für den korrekten und falschen Umgang mit den verschiedenen Directives findest du bei den Spezifikationen von Google.

Allow und Disallow

Im Prinzip gibt es „nur“ zwei Typen von Anweisungen, nämlich „Allow“ und „Disallow“. Übersetzt bedeutet das „Erlauben“ und „Nicht erlauben“. Damit erklärt es sich fast von selbst. Grundsätzlich sind erstmal alle Dateien zum Crawling freigegeben. Es ist also nicht nötig, alle erlaubten Inhalte mit allow auszuzeichnen.

Möchte man nun einzelne Verzeichnisse oder URLs vom Crawling ausschließen, so stellt man „Disallow“ voran und benennt dann das Verzeichnis. Eine relative Adressierung reicht danach aus.

Beispiel

Disallow: /admin

Damit wird das Admin-Verzeichnis einer Webinstallation vom Crawling ausgeschlossen. So einfach wird der Befehl ausgeführt. Gibt es weitere Verzeichnisse, die für Bots gesperrt werden sollen, so kann man dort einfach weitere Zeilen darunter schreiben.

Disallow: /wp-admin/
Disallow: /xmlrpc.php

So kann man das im Prinzip unendlich fortführen.

Mit dem Allow-Befehl wird genau das Gegenteil bewirkt. Gibt es z. B. ein Verzeichnis, welches grundsätzlich nicht gecrawlt werden soll, dann kann es innerhalb dieses Verzeichnisses vielleicht eine URL geben, die trotzdem frei gegeben werden soll. Die Ausnahme zur Regel also. Hier kannst du dann eine neue Zeile erstellen, die mit „Allow:“ beginnt. Dies ist vor allem im Zusammenhang mit Disallow-Anweisungen nützlich, durch die große Teile einer Site mit Disallow gesperrt sind außer eines kleinen Teils, der darin eingeschlossen ist.

SEO Kompass TippMit Disallow blockierte Seiten werden nicht gecrawlt und in der Regel auch nicht indexiert. Das bedeutet auch, dass diese Seiten keinen Linkjuice weitergeben. Wenn du also eine URL mit vielen guten Backlinks hast, die aber nicht indexiert werden soll, nutze stattdessen den ‘noindex’ Meta-Tag.

Wildcard-Anweisungen

Durch den Einsatz von Wildcards, kann man auch bestimmte Arten von URLs vom Crawling ausschließen.

Beispiele für Wildcards
Ausschluss aller gif-Dateien:
Disallow: /*.gif$
Blockieren von URLs, die Fragezeichen (?) enthalten
Disallow: /*?
Blockieren einer beliebigen Zeichenfolge mit *
Disallow: /private*/

Kommentare

Um die Übersicht zu behalten, können Kommentarzeilen hilfreich sein. Jede Kommentarzeile beginnt mit einem Hashtag (#). Das ist das Zeichen für den Crawler, dass er die Inhalte dieser Zeile nicht berücksichtigen muss. Hashtags können an jeder Stelle in der robots.txt eingefügt werden. Oft findet man sie am Anfang der robots.txt oder über bzw. unter einzelnen Gruppen.

# Regel für alle Crawler
User-agent: *
Disallow: /verzeichnis/
Allow: /verzeichnis/unterseite
Sitemap: https://www.deinedomain.de/sitemap.xml

Welche Verzeichnisse und Pfade werden häufig ausgeschlossen?

Webmaster schließen häufig ihr Backend und ihren Login-Bereich vom Crawling aus. Wenn du eine WordPress-Seite betreibst, könnte eine entsprechende robots.txt so aussehen:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php

Merke-IconAllow: /wp-admin/admin-ajax.php sorgt dafür, dass du deine CSS und JavaScript Dateien nicht blockierst. Diese Directive ist ein absolutes Muss, wenn du den wp-admin-Bereich blockierst. Google kann deine Website sonst nicht richtig darstellen. Das kann zu Rankingverlusten führen. Auch Plugins können durch die blockierte admin-ajax ggf. nicht mehr richtig funktionieren.

Was sind häufige Fehler und wie vermeide ich sie?

  • Falsche Dokument-Bezeichnung. Die robots.txt MUSS komplett kleingeschrieben werden. Crawler arbeiten case-sensitive; Robots.txt und robots.txt sind für sie zwei Paar Schuhe.Achte vor allem auf die richtige Schreibweise aller Inhalte und auf die richtige Ablage der robots.txt
  • Falsche Speicherung. Die robots.txt muss im Root-verzeichnis deiner Website liegen. Wenn du eine WordPress-Website hast, befinden sich in diesem Ordner auch die .htaccess-Datei und die wp-config.php.
  • Fehlende Anweisungen.
  • Schreibweise. Achte auf eine korrekte Schreibweise der Directives, User-agents, Verzeichnisse und Dokumenten.
  • JavaScript wird blockiert. Achte darauf, dass admin-ajax.php nicht blockiert wird.
  • Disallow: / statt Disallow: Ein Slash zuviel kann deine gesamte Website blockieren. Disallow: / schließt alle Pfade und Verzeichnisse vom Crawling aus. Disallow: schließt nichts vom Crawling aus.

Welche Befehle gehören NICHT in die robots.txt?

Ab dem 01. September 2019 werden die bisher akzeptierten, aber dennoch inoffiziellen Regeln der robots.txt von Google nicht mehr unterstützt. Das bedeutet, dass die Googlebots diesen Directives nicht mehr folgen werden. Dazu zählen:

‘noindex’ und ‘nofollow’ sind Meta-Tags. Setze sie entsprechend ein. Darüber hinaus findest du hier ein paar Alternativen zu ‘noindex’ in der robots.txt.

Sitemap in robots.txt – ja oder nein?

Die Angabe der Sitemap ist ein heiß umstrittenes Thema in der SEO-Szene. Die Sitemap ist das Inhaltsverzeichnis deiner Website und zeigt dem Crawler,

  • wann eine Seite zuletzt aktualisiert wurde
  • wie häufig eine Seite geändert wird
  • wie die Beziehungen der Seiten zueinander sind

Die Sitemap wird häufig angegeben damit der Crawler direkt weiß, wo er diese findet. So weit, so gut. Doch was kann daran problematisch sein?

Wenn du in der robots.txt die URL deiner Sitemap hinterlegst, kann sie auch deine Konkurrenz mit wenigen Klicks finden. Sie sieht dann auf einen Blick, wie deine Website aufgebaut ist, an welchen Bereichen du viel arbeitest und zeigt ggf. auch Bereiche an, die du lieber unter Verschluss hältst, wie zum Beispiel Redesign-Entwürfe. Derart empfindliche Inhalte solltest du ohnehin per Meta-Tag ‘noindex’ und ‘nofollow’ ausschließen.

SEO Kompass TippAber solltest du dafür auf die Sitemap in der robots.txt verzichten? Musst du nicht. Du solltest ohnehin die erstellte Sitemap in der Google Search Console hochladen. Hier kannst du deine komplette Sitemap einreichen und in der robots.txt eine abgespeckte, “offizielle” Version angeben.

Was ist der Unterschied zwischen der robots.txt und ‘noindex’?

Häufig werden die Aufgaben der robots.txt und die der Meta-Tags Die robots.txt ist eine Textdatei und steuert das Crawling deiner Website durch Crawler wie den Googlebot. Sie legt fest, welche Seiten welcher Bot “betreten” darf.

‘noindex’ ist ein Meta-Tag wird in den HTML Code bzw. den HTTP-Antwort-Header eingebettet. ‘noindex’ verbietet nicht das Crawling durch den Bot, sondern die Aufnahme der URL in den Index der Suchmaschine.

robots.txt Crawling “Du kommst hier (nicht) rein”
Meta-Tags Indexierung “Das soll (nicht) in die SERPs”

Robots.txt mit der Google Search Console testen

Bis Ende 2019 kannst du noch in die “alte” Google Search Console wechseln. Dort findest du den robots.txt Tester. Hier kannst du deine robots.txt auf Fehler untersuchen. Ob die Funktion ab 2020 dann weiterhin in der neuen Search Console zur Verfügung steht, bleibt abzuwarten.

Hier findest du den robots.txt Tester

Du findest den Tester über das Menü unter dem Punkt „Crawling“ und “robots.txt-Tester”. Da deine Domain ja schon hinterlegt ist, kannst du dort direkt die robots.txt anschauen. Darunter findest du dann die Hinweise auf etwaige Fehler und Warnmeldungen. In unserem Beispiel finden sich keine Fehler oder Warnungen. Hier ist alles in Ordnung.

Im Screenshot siehst du dir robots.txt einer WordPress-Installation, in der der Admin-Bereich ausgeschlossen wird. Über den Befehl „Allow:“ wird das JavaScript zum Crawling freigegeben.

So testest du die robots.txt-Datei im Google-Tool:

Öffne den Tester für deine Website. Scrolle durch den Code der robots.txt-Datei, um die hervorgehobenen Syntaxwarnungen und logischen Fehler zu ermitteln. Unterhalb des Editors siehst du die Anzahl an Syntaxwarnungen und logischen Fehlern in deiner Datei.

  1. In der Eingabemaske gibst du die URL deiner Website ein.
  2. Im Drop-Down rechts neben dem Textfeld wählst du den User-Agent aus, der simuliert werden soll.
  3. Klicke auf die Schaltfläche “Testen”, um den Test zu starten.
  4. Überprüfe, ob die eingegebene URL für die Web-Crawler von Google blockiert ist. Du bekommst die Meldung “Zulässig” oder “Blockiert”.
  5. Bearbeite die Datei und führe den Test gegebenenfalls erneut durch. Hinweis: Änderungen an der robots.txt, die du im Test-Tool vornimmst, werden nicht auf deiner Website gespeichert. Fahre mit dem nächsten Schritt fort.
  6. Füge die Änderungen in die robots.txt-Datei auf deiner Website ein.

So interagieren die robots.txt und der Crawler auf deiner Domain

Wenn alles glatt läuft, können die robots.txt und der Crawler hervorragend miteinander kommunizieren. Doch es gibt Momente im Leben der zwei, wenn Konflikte sprichwörtlich vorprogrammiert sind. Wir haben dir hier eine kleine Infografik zusammengestellt, die das Zusammenspiel veranschaulicht. Weiter unten findest du zusätzlich drei Fälle, in denen die zwei sich nicht so gut verstehen.

So interagieren robots.txt und Crawler auf deiner Domain

Das Disallow-noindex-Dilemma

Meine Seite hat ein ‘noindex’, ist aber trotzdem in den Suchergebnissen. Wie kann das sein?

Damit Crawler ein noindex Tag lesen können, darf die URL nicht durch disallow blockiert seinDas Phänomen tritt recht häufig auf, wenn die Seite bereits im Index war, bevor man diese ausgeschlossen hat. Wenn eine Seite durch robots.txt blockiert ist, sieht der Crawler einen ggf. gesetzten ‘noindex’-Tag nicht. Der befindet sich schließlich auf der Seite, die der Crawler nicht betreten soll. Die Seite kann dann trotzdem in den Suchergebnissen erscheinen (z.B. durch frühere Indexierung, interne Verlinkung oder Backlinks).

Merke-IconEine Seite mit dem ‘noindex’-Tag darf in der robots.txt nicht unter eine Disallow-Directive fallen.

 

‘noindex’ in der robots.txt

Einige Webmaster nutzen ‘noindex’ auch in der robots.txt. Offiziell ist dies von Seiten Googles nicht so vorgesehen und wird ab dem 01. September 2019 auch nicht mehr unterstützt.

Tests in der Vergangenheit haben gezeigt, dass ein ‘noindex’ in der robots.txt bisher durchaus funktioniert hat – wenn auch nur sporadisch und nur, wenn das entsprechende Dokument das nächste mal gecrawlt wird. Eine zuverlässige Methode ist es jedenfalls nicht.

Das sieht Google genauso. Im Zuge der Standardisierung der robots.txt Datei hat das Google-Team die Verwendung von inoffiziellen robots.txt Regeln untersucht und folgendes festgestellt:

  • Inoffizielle Directives werden recht selten eingesetzt
  • In 99,999% aller Fälle widersprechen andere Regeln der inoffiziellen Directive

Solche Widersprüche können zu schwerwiegenden Crawling-Fehlern führen.

SEO Kompass TippWillst du bereits indexierte Inhalte aus den Suchergebnissen entfernen, setze die entsprechenden Seiten auf ‘noindex’. Ein Disallow in der robots.txt reicht dann nicht mehr aus, da die Seite nur zukünftig nicht mehr gecrawlt werden darf. Im Index ist sie dann aber nach wie vor.

Indexierung trotz Disallow:-Blockierung?

Es kommt nicht selten vor, dass per Disallow gesperrte Inhalte trotzdem in Index landen. Dort erscheint dann ein Snippet mit der Description “Für diese Seite sind keine Informationen verfügbar”. Wie ist das passiert?

Klar, per Disallow blockierte Seiten werden nicht gecrawlt und landen dadurch auch nicht im Index. Stimmt’s? Jein. Wenn eine solche Seite über zahlreiche Backlinks verfügt, kommen die Crawler über den Backlink auf die URL. Google erachtet die URL aufgrund der Backlinks dann als so relevant, dass sie doch im Index landet. Für den Titel des Snippets wird dann der Ankertext herangezogen. Da der Crawler aber aufgrund der Disallow-Directive in der robots.txt die Seite nicht crawlt, können die Inhalte nicht im Snippet ausgegeben werden.

Wenn deine Domain solche Snippets produziert, hast du zwei Möglichkeiten:

  1. Du hebst die Disallow-Blockierung dieser URL auf, indem du per Allow: die URL von der Regel ausnimmst. Dann wird die Seite vollständig in den Index aufgenommen und du kannst die Metadaten für ein Snippet optimieren.
  2. Du hebst die Disallow-Blockierung dieser URL auf, indem du per Allow: die URL von der Regel ausnimmst. Dann versiehst du die Seite mit dem ‘noindex’-Tag um sicherzustellen, dass sie wirklich nicht in den SERPs auftaucht.

Was sind die bekanntesten Crawler?

Um deine robots.txt zu erstellen, musst du natürlich auch die wichtigsten Crawler kennen und adressieren können. Deswegen haben wir dir hier eine Liste der wichtigsten Crawler zusammengestellt.

Crawler
User-agent:
Googlebot für Computer
Googlebot
Googlebot für Nachrichten
Googlebot-News
Googlebot für Videos
Googlebot-Video
Googlebot für Bilder
Googlebot-Image
Googlebot für Desktop Google Ads
AdsBot-Google
Googlebot für Mobile Ads
AdsBot-Google-Mobile
Googlebot für Mediapartner
Mediapartners-Google
Googlebot für APIs
APIs-Google
Standard-Bingbot
Bingbot
Ehemaliger Standard-Bingbot
MSNBot
Bingbot für Bilder
MSNBot-Media
Bingbot für Bing Ads
AdldxBot
Bingbot für Page-Snapshots
BingPreview
Yahoo Crawler / Slurp Bot
Slurp
DuckDuckGo Bot
DuckDuckBot
Baidu Spider (chinesische Suchmaschine)
Baiduspider
Sogou Spider (chinesische Suchmaschine)
Sogou web spider
Yandex Bot (russische Suchmaschine)
YandexBot
Facebook (First time post)
facebookexternalhit
Comscore Bot (Cross-plattform advertising)
proximic
Exalead Bot (französische Suchmaschine)
Exabot

Hier findest du noch einige umfangreiche Listen mit Crawlern. Beachte bitte, dass einige dieser Listen schon mehrere Jahre alt sind und ggf. nicht mehr aktualisiert werden.

Wir hoffen, dass wir deine Fragen zur robots.txt beantworten und dir alle Informationen an die Hand geben konnten, um die robots.txt zu verstehen. Beachte bitte, dass durch eigentsändige Änderungen an der robots.txt Fehler auftreten können, die dein Crawling und damit deine Rankings gefährden können. Verändere die robots.txt also nur, wenn die aktuelle Version fehlerhaft ist oder Änderungen dringend notwendig sind. Teste die robots.txt in jedem Fall mit dem Google Tester auf korrekte Ausführung, bevor du sie in deinem Root-verzeichnis abspeicherst.

Was ist Crawl Budget Optimierung?

Crawler auf dem Weg zu einer Website

Die Crawl Budget Optimierung gehört zum technischen SEO und befasst sich mit dem effektiven Crawling der eigenen Website durch Suchmaschinen-Bots. Ziel ist es, dass möglichst alle Neuerungen und Änderungen der Website schnell in den Suchmaschinenindex (SERPs) aufgenommen werden und im zweiten Schritt gute bzw. bessere Rankings erreichen. Die Crawl Budget Optimierung ist besonders für große Websites mit vielen Unterseiten relevant, wie beispielsweise Online-Shops.

Merke-IconDie Optimierung des Crawl Budgets ist kein Rankingfaktor und führt nicht zu besseren Rankings. Aber es ist eine Maßnahme, neue und aktualisierte Inhalte schneller in den Index zu bekommen – und damit ggf. schneller bessere Rankings zu erreichen.

Was ist das Crawl Budget?

Damit Crawler wissen, welche Bereiche einer Website sie erfassen sollen, benötigen sie die Anweisungen der robots.txtDamit die Suchmaschinen mit dem Crawling der abermillionen Websites dieser Welt klar kommen, wird der Umfang der täglichen Crawls für jede Website limitiert – es wird also nicht täglich die gesamte Website gecrawlt, sondern nur ein bestimmter Teil davon. Das bedeutet: für jede Website wird ein tägliches Budget für das Crawling festgelegt. Das ist in der Regel eine Zeiteinheit X, die die Crawler deiner Website widmen. Dabei wird alles erfasst, was innerhalb dieses Zeitraumes gecrawlt werden kann.

Wie groß der Umfang ist, wird von den Suchmaschinen selbst festgelegt und kann durch Webmaster oder SEOs nicht beeinflusst werden. Allerdings passen die Suchmaschinen das Crawl Budget daran an, wie häufig durchschnittlich neue Inhalte dazu kommen oder aktualisiert werden. Eine Website, die viele neue Inhalte erstellt oder aktualisiert, wird ein höheres Crawl Budget erhalten, als eine Website, an der sich kaum etwas tut.

Wie groß ist mein Crawl Budget?

Aktuell (Stand März 2020) kannst du das Crawl Budget deiner Website noch in der alten Version der Google Search Console einsehen. Du findest sie in den Legacy Tools und Reports unter Crawl Stats.

Pfad zu den Crawl Stats in der Google Search Console Screenshot der Crawl Stats in der Google Search Console

Was ist der Unterschied zwischen Crawl Budget und Crawl Demand?

Das Crawl Budget ist der Umfang der Crawls, die die Suchmaschine deiner Website zuweist. Der Crawl Demand ist die Menge an Crawls, die benötigt würde, um alle Änderungen deiner Website zu erfassen. In einigen Fällen kann es vorkommen, dass der Crawl Demand deutlich über dem Crawl Budget liegt.

Das ist zum Beispiel bei einem Relaunch der Fall. Dann stellt die Suchmaschine fest, dass für die Aktualisierung aller Seiten mit Veränderungen plötzlich deutlich mehr Crawls benötigt werden, als normalerweise im Crawl Budget vorgesehen. Um die Änderungen schnell zu erfassen, wird das Crawl Budget dann vorübergehend erhöht. Ist der Crawl Demand dann wieder gesunken, sinkt auch das Crawl Budget wieder.

Was passiert, wenn das Crawl Budget nicht ausreicht?

Wie bereits erwähnt, bezieht sich das Crawl Budget auf die dem Umfang der täglichen Crawls deiner Website. Überschreitet die Anzahl der Unterseiten mit Veränderungen regelmäßig das Crawl Budget, werden diese Inhalte an den darauffolgenden Crawl-Tagen erfasst.

Ein Beispiel: Angenommen, dein Crawl Budget umfasst täglich etwa 1000 Seiten, deine Website besteht aber aus ca. 10.000 URLs. Neue und aktualisierte Inhalte kommen dann nicht am selben Tag in den Index, sondern ggf. mit einigen Tagen Verzögerung.

Das kann besonders dann der Fall sein, wenn die neuen oder aktualisierten Inhalte auf Unterseiten sind, die nicht zu den wichtigen Seiten in deiner Website-Struktur zählen. Grundsätzlich ist davon auszugehen, dass die strukturell wichtigen Seiten deiner Website häufiger gecrawlt werden, als Unterseiten mit einer großen Klicktiefe.

Merke-Icon Das Crawling ist kein Rankingfaktor und hat keinen Einfluss auf deine Rankings. Reicht dein Crawl Budget nicht aus, bedeutet das lediglich, dass Änderungen oder neue Inhalte zeitverzögert in den Index aufgenommen werden. Das kann im schlimmsten Fall zu verpassten Traffic- und Umsatzsteigerungen führen, wenn die Seite erst später (re-)evaluiert und (besser) positioniert wird. Welche Rankings deine Inhalte erhalten, wird allerdings nicht beeinflusst.

SEO Kompass Tipp Einzelne Seiten, die schnell gecrawlt werden sollen (z.B. aktualisierte Artikel), kannst du mit dem URL Prüftool der Google Search Console für einen gesonderten Crawl anmelden. Dann musst du nicht auf darauf warten, dass diese Unterseite eventuell erst in einigen Tagen gecrawlt wird.

Für wen ist das Crawl Budget relevant?

Das Crawl Budget wird schnell für große Websites knapp, auf denen sich täglich viele Änderungen ergeben oder die eine große Anzahl an Unterseiten haben, die eigentlich nicht gecrawlt werden müssten. Besonders häufig betroffen sind Online-Shops mit tausenden Produkten, zahlreichen Produktkategorien, Wunschlisten, Empfehlungslisten, Filtermöglichkeiten, Suchfunktionen, und, und, und.

Wenn du bemerkst, dass neue Seiten oder aktualisierte Inhalte sehr lange brauchen, bis sie in den index aufgenommen werden, ist ein Blick auf dein Crawl Budget sinnvoll.

Wie kann ich herausfinden, was gecrawlt wird?

Ganz einfach: Indem du deine Website selbst crawlen lässt und dir die Ergebnisse genau anschaust. Dafür kannst du beispielsweise die Crawl Analyse von Screaming Frog benutzen.

Die Ergebnisse werden analysiert und mit deiner XML Sitemap abgeglichen. Im Idealfall sind beide nahezu identisch. Meistens stellt sich jedoch heraus, dass viele Seite unnötig gecrawlt werden. Diese Seiten kannst du mit der Crawl Analyse identifizieren.

Achte beim Durchführen der Crawl Analyse darauf, dass du die Seite so crawlst, wie der Googlebot es tun würde. Nimm dazu folgende Einstellungen vor:

  • JavaScript-Rendering aktivieren
  • ‘respect noindex’ aktivieren
  • ‘respect canonical’ aktivieren
  • ‘respect robots.txt’ aktivieren
  • XML-Sitemap crawlen

Beim URL-Rewriting übernimmst du alle Parameter so, wie sie auch in der Google Search Console angelegt sind. Als irrelevant markierte Parameter müssen also auch bei der Crawl Analyse mit Screaming Frog entsprechend angegeben werden.

Disallow statt noindex

Überprüfe vor allem, welche und wie viele Seiten mit dem noindex-Tag ausgezeichnet wurden. Handelt es sich um hunderte oder tausende Seiten, solltest du sie (sofern möglich) stattdessen über die robots.txt per disallow vom Crawling ausschließen.

Wie kann man das Crawl Budget optimieren?

Der Begriff der Crawl Budget Optimierung bezieht sich nicht auf eine Veränderung des Crawl Budgets – denn das kannst du selbst nicht verändern und damit auch nicht optimieren.

Die Crawl Budget Optimierung beschäftigt sich damit, die Crawls der Suchmaschinen-Spider möglichst effektiv auszunutzen. Es geht also darum, die Crawls deiner Website so zu steuern, dass kein Crawl Budget an Inhalte verschwendet wird, das entweder gar nicht erst indexiert werden muss bzw. soll (noindex-Tag) oder nur sehr selten geändert werden.

Frage dich immer: Macht das Crawling für diesen Inhalt Sinn?

Hier einige Beispiele, die nicht in den Index sollen/müssen:

  • Das Backend deines CMS
  • Wunschlisten eines Online-Shops
  • Recommend-Listen eines Online-Shops
  • Print-Exemplare, z.B. von Rezepten
  • noindex-Seiten
  • Seiten mit einem Statuscode, der NICHT 200 ist (301, 404, 503 etc.)

7 Maßnahmen, die dir beim idealen Ausnutzen deines Crawl Budgets helfen

1. robots.txt richtig einsetzen

Die robots.txt steuert das Verhalten der Crawler auf deiner Website.Die robots.txt ist ein mächtiges Hilfsmittel, um unnötig aufgewendetes Crawl Budget einzusparen und Kapazitäten für relevante Crawls freizumachen.

Die robots.txt steuert das Verhalten der Crawler auf deiner Website. Sie definiert, welche Seiten, Verzeichnisse oder Bereiche für Crawler gesperrt sind und welche sie besuchen dürfen.

Überprüfe, welche Inhalte deiner Website aktuell für das Crawling freigegeben sind und ob eine Aufnahme in den Suchmaschinenindex überhaupt sinnvoll ist. Dabei entdeckst du möglicherweise Seiten, die unnötig gecrawlt werden und so wertvolles Crawl Budget verschwenden.

Merke-Icon Seiten, die nicht gecrawlt werden dürfen, werden in den meisten Fällen auch nicht indexiert. So kannst du mit einem Befehl ganze Verzeichnisse, Pfade und mehr aus dem Index halten, ohne dafür ggf. hunderte URLs händisch mit den noindex-Tag versehen zu müssen. Hinzu kommt, dass mit einem noindex-Tag versehene Seiten unnötig gecrawlt werden und so Crawl Budget verschwenden.

SEO Kompass TippWas die robots.txt alles kann, wie du richtig mit ihr umgehst und worauf du achten musst, erfährst du weiter oben.

2. Sitemap in der GSC hochladen

Crawler mit XML SitemapDie XML Sitemap ist wie eine Landkarte oder ein Inhaltsverzeichnis deiner Website. Suchmaschinen-Crawler nutzen sie, um sich schnell ein Bild deiner Website zu verschaffen und deine Website effektiver crawlen zu können. Das gilt für jede Website, ist aber besonders für große, sehr verschachtelte Websites oder solche mit einem großen Archiv unverzichtbar.

Die Sitemap bildet die Struktur (und damit die Schwerpunkte) deiner Website ab und enthält alle Unterseiten. Darüber können Metadaten enthalten sein, die Informationen über Aktualisierungen und Änderungen an einzelnen Seiten sowie über die Bedeutung / Beziehung der einzelnen Seiten zueinander.

Die XML Sitemap wird im Root-Verzeichnis deiner Website (erreichbar unter website.de/sitemap.xml) sowie in der Google Search Console hochgeladen.

SEO Kompass Tipp Natürlich haben wir für dich einen umfangreichen Artikel über die Notwendigkeit, das Erstellen und das Hochladen der Sitemap in die Google Search Console erstellt. Hier erfährst du alles, was du für eine erfolgreiche Umsetzung wissen musst.

3. Crawlen von URLs mit Parametern verhindern

Crawler der URLs nicht crawlen darfURL-Parameter kommen auf fast jeder Website zum Einsatz. Zum Beispiel, um Traffic zu tracken oder beim Einsatz von Filtern und Sortier-Funktionen in Online-Shops. Diese URLs produzieren Duplicate Content und haben im Suchmaschinenindex nichts verloren. Werden sie gecrawlt, wird Crawl Budget verschwendet.

Überprüfe,

  • welche Parameter (z.B. “?s=seo” für eine Suchfunktion) auf deiner Website zum Einsatz kommen und
  • ob sie noch relevant sind oder entfernt werden sollten
  • ob eine andere Lösung infrage kommt (z.B. Cookies)

In der Regel ist Google in der Lage, parametrierte URLs zu erkennen und als solche zu behandeln. Dennoch kann es vorkommen, dass diese URLs gecrawlt werden und unnötig Crawl Budget verschwenden.

Aktuell (Stand März 2020) kannst du das Crawling von parametrierten URLs in der alten Google Search Console ausschließen. Ob diese Funktion bald abgeschaltet wird oder in die neue GSC überführt wird, bleibt abzuwarten.

Die Voraussetzungen dafür sind:

  • Deine Website umfasst mehr als 1000 URLs
  • Deine Protokolle zeigen einen hohen Anteil von indexierten, mit URL-Parametern duplizierten Seiten, die sich inhaltlich nur gering voneinander unterscheiden

Achtung! Achte bitte auf folgendes Der Ausschluß des Crawlings von parametrierten URLs kann schnell zu unbeabsichtigten Effekten im Crawling führen und sollte nur von erfahrenen SEO-Profis durchgeführt werden. Achte genau darauf, dass du die obigen Anforderungen erfüllst.

Im URL-Parameter Tool der Google Search Console kannst du nun festlegen, dass URLs mit einem bestimmten Parameter nicht mehr gecrawlt werden sollen. Bedenke dabei, dass diese Regel für die gesamte Property gilt und nicht exklusiv auf einzelne URLs oder Bereiche deiner Website angewendet werden kann.

SEO Kompass TippEinen ausführlichen Artikel über SEO und URL Parameter findest du beim Search Engine Journal.

4. Interne Verlinkung optimieren

zwei verlinkte CrawlerEine Website mit einer guten internen Verlinkung macht es den Crawlern einfach, deine Website zu navigieren und ihre Struktur, Zusammenhänge und wichtigsten Landing Pages zu identifizieren.

Denn: Viel verlinkte Seiten deuten darauf hin, dass es sich um eine für deine Website verhältnismäßig wichtige Seite handelt.

Du ermöglichst den Crawlern, jede für die SERPs relevante Seite über interne Links zu erreichen. Das reduziert die Zahl sogenannter Orphan Pages – also Unterseiten, die wegen mangelnder externer und interner Verlinkung nicht oder nur schwer von Crawlern erreicht werden können.

SEO Kompass TippSchludere also nicht bei der internen Verlinkung. Selbstverständlich haben wir für dich eine umfangreiche Anleitung, wie du deine interne Verlinkung optimierst.

5. Statuscodes korrigieren

Die angefragte Seite wurde nicht erreicht. Sie existiert nicht (mehr) oder kann nicht gefunden werden.Jede Weiterleitung, jede 404-Seite verbraucht unnötiges Crawl Budget. Ganz abgesehen davon, dass Error-Pages die User Experience stark in Mitleidenschaft ziehen, sind es auch unnötig gecrawlte Seiten.

Klar, Weiterleitungen sind ganz normal und lassen sich nicht vermeiden. Achte aber darauf, dass du sie auf einem Minimum hältst und dass keine Weiterleitungsketten entstehen. Sie erzeugen einen unnötig langen Weg für den Crawler, um an das letztliche Linkziel zu kommen und können ab 3 Sprüngen zu einem echten Problem für den Google Bot werden. Tu dir also selbst den gefallen und verhindere Weiterleitungsketten.

Wenn du einen Inhalt von deiner Seite entfernst, nutze ein SEO Tool, um interne Links zu identifzieren, die auf diese Seite zeigen und passe diese internen Links direkt an das neue Linkziel an. Richte dann die Weiterleitung auf das neue Ziel ein und entferne die Seite.

Grundsätzlich solltest du sicherstellen, dass der Großteil deiner URLs den Statuscode 200=OK aufweist. Dann ist alles in Ordnung.  404 Seiten sind Sackgassen für den Crawler und den Nutzer. Überprüfe deine Seite regelmäßig auf 404 Fehler und behebe sie schnellstmöglich. Weiterleitungen (301-Redirects) sind, reflektiert sowie Nutzer- und Crawler-freundlich eingesetzt, auch kein Problem. Um alles andere solltest du dich zeitnah kümmern.

SEO Kompass TippHier findest du eine Übersicht über alle für SEO relevanten Statuscodes, was sie bedeuten und wie du sie behebst.

6. Pagespeed optimieren

Crawler im schnell fahrenden BollerwagenDie Erhöhung deiner Ladezeit ist eine weitere Möglichkeit, dein Crawl Budget zu optimieren. Eine hohe Ladezeit bedeutet immer auch große Datenmengen. Genau diese Datenmengen fressen nicht nur die Geduld deiner Nutzer, sondern auch dein Crawl Budget. Denn wie bereits erwähnt, ist das Crawl Budget ein Zeitbudget. Müssen die Crawler pro Seite große Datenmengen verarbeiten, schmälert das die Anzahl der im Zeitfenster crawlbaren Seiten.

Eine schnell ladende Website ist also nicht nur für die User Experience und deine Rankings gut, sondern erhöht aufgrund der niedrigeren Datenmenge auch die Crawls, die für Datenvolumen X durchgeführt werden können.

SEO Kompass TippHier findest du einen umfassenden Artikel über Möglichkeiten, wie du deine Ladezeit verbessern kannst.

7. Den Canonical Tag richtig einsetzen

…und Duplicate Content verhindern.

Crawler "Original" und "Kopie"Der Canonical Tag wird genutzt, um das ‘Original’ von identischen oder sehr ähnlichen Inhalten zu markieren. Zum Beispiel, wenn durch den Einsatz von URL-Parametern Duplikate entstehen. Was URL Parameter sind, haben wir bereits weiter oben besprochen. Duplicate Content ist von den Suchmaschinen nicht gern gesehen und verschwendet dein Crawl Budget.

Der Canonical Tag zeigt der Suchmaschine also, dass es sich hier um einen Zwilling handelt, der nicht extra indexiert werden muss.

SEO Kompass TippWie du den Canonical Tag richtig einsetzt und worauf du achten musst, erfährst du hier.

Deine Checkliste für die Crawl Budget Optimierung

Natürlich haben wir für dich alle 7 Maßnahmen für die Crawl Budget Optimierung in einer praktischen Checkliste zusammengestellt. Du kannst sie dir ganz einfach als PDF herunterladen und hast sie immer griffbereit.

Checkliste für die Optimierung des Crawl Budgets

Checkliste herunterladen

Wir hoffen, du hast viel über das Crawl Budget gelernt und kannst jetzt erkennen, ob du eine Crawl Budget Optimierung durchführen solltest und welche Maßnahmen du dafür ergreifen musst.