Onpage

Was ist Crawling?

Titelbild f├╝r SEO Kompass ├╝ber "Was ist Crawling"?
Anna Maria von Kentzinsky
Anna Maria von Kentzinsky | 01.01.2021

Was macht ein Crawler?

Damit Crawler wissen, welche Bereiche einer Website sie erfassen sollen, ben├Âtigen sie die Anweisungen der robots.txtCrawler (auch Spider oder Bots genannt) ÔÇśkrabbelnÔÇÖ ├╝ber Websites und sammeln Daten. ├ťber interne und externe Verlinkungen arbeiten sie sich Seite f├╝r Seite vor. Welche Daten sie sammeln, h├Ąngt von Zweck und Urheber der Crawler ab.

Verwendet werden Crawler vor allem durch Suchmaschinen. Aber auch durch Analyse-Softwares, mit der du deine Website untersuchen kannst, nutzen Crawler. Das sind beispielsweise SEO-Tools.

Es gibt aber auch Crawler bzw. Bots, die gezielt pers├Ânliche Daten einer Website sammeln. Oft werden hier E-Mail-Adressen und andere sensible Daten gespeichert, um sie sp├Ąter ohne Wissen und Zustimmung der Besitzer weiter zu verwenden. Die Folge sind beispielsweise Spam-Mails.

Crawler haben nicht automatisch Zugang zu allen Bereiche deiner Website. Du hast zwei M├Âglichkeiten, das Verhalten der Crawler auf deiner Website zu steuern:

  • Mit der robots.txt-Datei verfasst du eine Art Leitfaden f├╝r die Bots. Es definiert, welche Bereiche oder Seiten die crawlen sollen, und welche nicht. Die robots.txt ist allerdings nur ein Leitfaden, kein Regelwerk. Die meisten Crawler halten sich allerdings daran.
  • Um Spider mit missbr├Ąuchlichen Absichten effektiv aus bestimmten Bereichen und Inhalten auszusperren, setzt du die .htaccess-Datei ein.

SEO Kompass TippWir haben f├╝r dich einen ausf├╝hrlichen Artikel erstellt, wie du die robots.txt richtig einsetzt und die Crawler gezielt steuerst.

Wir besch├Ąftigen uns jetzt n├Ąher mit dem Crawling durch die Suchmaschinen-Bots von Google, Bing und Co.

Crawling durch Suchmaschinen

Beim Crawling erfasst der Googlebot (oder andere Suchmaschinen-Crawler) deine Website ÔÇö sofern durch die robots.txt nicht anders definiert. Dabei versuchen sie, den Aufbau (Struktur und Schwerpunkte) sowie die Inhalte deiner Website zu verstehen. Dar├╝ber hinaus registrieren sie den technischen Zustand der Seite.

Sp├Ąter nutzen Suchmaschinen nutzen die gesammelten Informationen daf├╝r,

  • diese Inhalte zu indexieren (gem├Ą├č der Indexing-Angaben der einzelnen Seiten)
  • die Relevanz zu diversen Suchanfragen zu ermitteln (Ranking).

Das Crawling der Inhalte ist also die Voraussetzung f├╝r die Indexierung und das Ranking zu passenden Suchbegriffen.

So erfassen Suchmaschinen deine Website:

Crawling:

Die Crawler ÔÇťkrabbelnÔÇŁ ├╝ber deine deine Website. Dabei erfassen sie ihre Struktur und Inhalte, sofern durch die robots.txt nicht anders bestimmt. Dabei k├Ânnen Crawler erkennen, ob seit dem letzten Crawl neue Inhalte hinzugekommen sind oder bestehende Inhalte aktualisiert wurden.

Indexierung:

Die Suchmaschinen erhalten die gesammelten Informationen und werten sie aus. Dabei ├╝berpr├╝fen sie, welche durch die Crawler gefundenen Inhalte in den Suchmaschinenindex aufgenommen werden (d├╝rfen). Aussortiert werden beispielsweise mit dem noindex-Tag gekennzeichnete Inhalte oder solche, die die Suchmaschine f├╝r irrelevant h├Ąlt.

Ranking:

Alle Seiten, die indexiert werden d├╝rfen, werden Suchanfragen (Keywords) zugeordnet. Die Inhalte der Suchergebnisse werden nach Relevanz absteigend sortiert. Die Seite mit den ÔÇśbestenÔÇÖ Antworten auf eine Suchanfrage wird auf Position 1 der organischen Suchergebnisse platziert.

Suchergebnisse:

Der User stellt eine Suchanfrage. Durch das Ranking ergeben sich die Positionen einzelner Seiten in den organischen Suchergebnisseiten (SERPs), die dem User als Ergebnis angezeigt werden.

Infografik ├╝ber die Funktion einer Suchmaschine: Crawling, Indexierung, Ranking, Suchergebnisse

Das Crawling ist also die Basis f├╝r die Indexierung und im dritten Schritt f├╝r das Ranking deiner Inhalte. Zwar besch├Ąftigt sich die Suchmaschinenoptimierung schwerpunktm├Ą├čig mit dem Ranking, dennoch solltest du als SEO mit dem Prinzip des Crawlings vertraut sein.

Aus zwei Gr├╝nden solltest du Kontrolle ├╝ber das Crawling deiner Seite ├╝bernehmen:

  1. Sch├╝tze Daten, die andere nichts angehen. ├ťberlege dir genau, welche Bereiche oder Inhalte gar nicht erst gecrawlt werden sollen, etwa weil sie Informationen Dritter (Member Areas, Kundenkonten) enthalten. Halte Inhalte aus dem Index, die dort nichts verloren haben.
  2. Verhindere das unn├Âtige Crawlen von Inhalten, die nicht indexiert werden sollen. Suchmaschinen stellen jeder Website ein t├Ągliches Crawl Budget zur Verf├╝gung. Verschwende es nicht an Seiten, die ohnehin nicht in den Index sollen und sorge daf├╝r, dass es f├╝r Seiten genutzt wird, die f├╝r deine Rankings wichtig sind.

Lerne auch, wie du richtig mit der robots.txt umgehst, um das Crawling deiner Website gekonnt zu steuern. Und wir beantworten dir au├čerdem alle Fragen zur Crawl Budget Optimierung.