Was ist Crawling?

Titelbild für SEO Kompass über "Was ist Crawling"?
Anna Maria von Kentzinsky

Anna Maria von Kentzinsky | 01.04.2020

Was macht ein Crawler?

Damit Crawler wissen, welche Bereiche einer Website sie erfassen sollen, benötigen sie die Anweisungen der robots.txtCrawler (auch Spider oder Bots genannt) ‘krabbeln’ über Websites und sammeln Daten. Über interne und externe Verlinkungen arbeiten sie sich Seite für Seite vor. Welche Daten sie sammeln, hängt von Zweck und Urheber der Crawler ab.

Verwendet werden Crawler vor allem durch Suchmaschinen, aber auch durch Analyse-Softwares, mit der du deine Website untersuchen kannst. Das sind beispielsweise SEO Tools. Es gibt aber auch Crawler bzw. Bots, die gezielt persönliche Daten einer Website sammeln. Oft werden hier E-Mail-Adressen und andere sensible Daten gespeichert, um sie später ohne Wissen und Zustimmung der Besitzer weiter zu verwenden. Die Folge sind beispielsweise Spam-Mails.

Das bedeutet aber nicht, dass Crawler automatisch Zugang zu allen Bereiche deiner Website erhalten. Du hast zwei Möglichkeiten, das Verhalten der Crawler auf deiner Website zu steuern:

  • Mit der robots.txt Datei verfasst du eine Art Leitfaden für die Bots. Es definiert, welche Bereiche oder Seiten die crawlen sollen, und welche nicht. Die robots.txt ist allerdings nur ein Leitfaden, kein Regelwerk. Die meisten Crawler halten sich allerdings daran.
  • Um Spider mit missbräuchlichen Absichten effektiv aus bestimmten Bereichen und Inhalten auszusperren, setzt du die .htaccess-Datei ein.

SEO Kompass TippWeiter unten erfährst du ausführlich, wie du die robots.txt richtig einsetzt und die Crawler gezielt steuerst.

Wir beschäftigen uns jetzt näher mit dem Crawling durch die Suchmaschinen-Bots von Google, Bing und Co.

Crawling durch Suchmaschinen

Beim Crawling erfasst der Googlebot (oder andere Suchmaschinen-Crawler) deine Website – sofern durch die robots.txt nicht anders definiert. Dabei versuchen sie, den Aufbau (Struktur und Schwerpunkte) sowie die Inhalte deiner Website zu verstehen und registrieren ihren technischen Zustand.

Suchmaschinen nutzen die beim Crawling gesammelten Informationen später dafür, diese Inhalte gegebenenfalls zu Indexieren (gemäß der Indexing-Angaben der einzelnen Seiten) und die Relevanz zu diversen Suchanfragen zu ermitteln (Ranking). Das Crawling der Inhalte ist also die Voraussetzung für die Indexierung und das daraus resultierende Ranking zu relevanten Suchbegriffen.

So erfassen Suchmaschinen deine Website:

Crawling:
Die Crawler “krabbeln” über deine deine Website und erfassen ihre Struktur und Inhalte, sofern durch die robots.txt nicht anders bestimmt. Dabei können sie erkennen, ob seit dem letzten Crawl neue Inhalte hinzugekommen sind oder bestehende Inhalte aktualisiert wurden.

Indexierung:
Die Suchmaschinen erhalten die gesammelten Informationen und werten sie aus. Dabei überprüfen sie, welche durch die Crawler gefundenen Inhalte in den Suchmaschinenindex aufgenommen werden (dürfen). Aussortiert werden beispielsweise mit dem noindex-Tag gekennzeichnete Inhalte oder solche, die die Suchmaschine für irrelevant hält.

Ranking:
Die Suchmaschine sortiert alle verbleibenden indexierbaren Seiten den Suchanfragen (Keywords) zu. Die Inhalte werden nach Relevanz absteigend sortiert. Die Seite mit den ‘besten’ Antworten auf eine Suchanfrage wird auf Position 1 der organischen Suchergebnisse platziert.

Suchergebnisse:
Der User stellt eine Suchanfrage. Durch das Ranking ergeben sich die Positionen einzelner Seiten in den organischen Suchergebnisseiten (SERPs), die dem User als Ergebnis angezeigt werden.

Infografik über die Funktion einer Suchmaschine: Crawling, Indexierung, Ranking, Suchergebnisse

Das Crawling ist also die Basis für die Indexierung und im dritten Schritt für das Ranking deiner Inhalte. Zwar beschäftigt sich die Suchmaschinenoptimierung schwerpunktmäßig mit dem Ranking, dennoch solltest du als SEO mit dem Prinzip des Crawlings vertraut sein.

Aus zwei Gründen solltest du Kontrolle über das Crawling deiner Seite übernehmen:

  1. Schütze Daten, die andere nichts angehen. Überlege dir genau, welche Bereiche oder Inhalte gar nicht erst gecrawlt werden sollen, etwa weil sie Informationen Dritter (Member Areas, Kundenkonten) enthalten. Halte Inhalte aus dem Index, die dort nichts verloren haben.
  2. Verhindere das unnötige Crawlen von Inhalten, die nicht indexiert werden sollen. Suchmaschinen stellen jeder Website ein tägliches Crawl Budget zur Verfügung. Verschwende es nicht an Seiten, die ohnehin nicht in den Index sollen und sorge dafür, dass es für Seiten genutzt wird, die für deine Rankings wichtig sind.

Im nächsten Kapitel erfährst du, wie du richtig mit der robots.txt umgehst, um das Crawling deiner Website gekonnt zu steuern. Nächste Woche beantworten wir dir hier außerdem alle Fragen zur Crawl Budget Optimierung.