So optimieren Sie Ihr persönliches Google Crawling Budget

Crawl Budget

01.12.2016

Es gibt im Internet Milliarden von Webseiten. Google und andere Suchmaschinen stehen vor der Herausforderung, diese Inhalte im Netz zu erfassen, zu bewerten und in den Suchindex aufzunehmen. Da selbst Google nicht die Kapazitäten hat, jede Website jeden Tag auf Neuigkeiten hin zu untersuchen, vergibt Google jeder Domain ein sog. Crawling Budget. Diese gewisse, sich ändernde Zahl an Seiten, die bei einem Besuch gecrawlt wird, gibt Google nicht bekannt.

Voraussetzung dafür, dass Google Webseiten in den Index aufnimmt und bei Suchanfragen nach der Bestimmung des Rankings den Google-Usern anzeigt ist, dass die Seiten gecrawlt werden. Das Crawling Budget wird für jede Domain individuell vergeben und bestimmt, wie oft der Crawler die Domain aufruft und wie tief die Seite gecrawlt wird.

Diese Anzahl an zu crawlenden URLs hängt von verschiedenen Faktoren ab:

  • Domainalter. Je älter die Domain ist, desto besser
  • Webseitengeschwindigkeit: je schneller, desto besser
  • Umfang der Website und Aktualität
  • Natürliche Backlinks von starken Seiten
  • Erreichbarkeit beim Crawling (der Server sollte stabil laufen)

In der Google Search Console können Sie nachschauen, wann der Googlebot auf der Website war und wie viele Seiten er gecrawlt hat. Sie finden diese Angaben im Menü Crawling > Crawling-Statistiken.

Search Console: Crawling-Statistiken

Hier im Beispiel handelt es sich um eine recht kleine Seite.

Abgrenzung zum Index-Budget

Auch die Anzahl der indexierten Seiten ist budgetiert. Je „wichtiger“ die Seite ist, desto mehr Seiten werden auch indexiert. Das gilt einmal für normale HTML-Seiten als auch für Bilder. Auch hier gibt Google in der Search Console Auskunft über den aktuellen Stand der Indexierung. Es gibt eine Angabe schon auf der Startseite, aber unter „Google-Index“ > „Indexierungsstatus“ erhält man weitere Informationen und eine Verlaufsgrafik.

Search Console: Indexierungsstatus

Besonders anschaulich wird der Unterschied zwischen Crawling-Budget und Index-Budget bei den in der Search Console angezeigten 404-Fehlern, wo Seiten nicht gefunden wurden. Diese Seiten wurden zwar gecrawlt, produzierten die Fehlermeldung, aber wurden nicht in den Index aufgenommen.

Warum ist die Beachtung des Crawling-Budgets wichtig?

Vor dem Hintergrund, dass Google die Anzahl der zu crawlenden Seiten limitiert ist es von besonderer Bedeutung, dass man dem Googlebot die Unterseiten zum Crawling anbietet, die man auch im Index haben möchte. Duplikate oder unwichtige Seiten, die gar nicht in den Index sollen, sollten dann auch vom Crawling ausgeschlossen werden. Bei dieser Optimierung ist auch unerheblich, dass man die genaue Zahl des Crawling-Budgets nicht kennt. Räumen Sie auf Ihrer Website auf und schließen den Googlebot von den Seiten aus, die nicht gecrawlt werden müssen.

Was kann man tun, um das Crawling-Budget zu schonen:

robots.txt

Die robots.txt ist eine Textdatei, die ins Root-Verzeichnis hochgeladen wird. Hierbei können Sie den Crawler daran hindern bestimmte Verzeichnisse zu crawlen. Sie sperren ihn quasi aus. Sehr oft werden Systemdateien des Content-Management-Systems vom Crawling ausgeschlossen. Crawling-Budget wird dabei nicht verbraucht, weil die Seiten gar nicht erst aufgerufen werden. Beispiele hierfür sind z. B. eine Login-Seite, das Impressum, die Datenschutzseiten etc.

Canonical Tag

Z. B. in Online-Shops kommt es oft vor, dass es von einem Produkt verschiedene Varianten gibt. Im Modebereich gibt es beispielsweise verschiedene Farben oder verschiedene Größen. Je nach Shopsystem entstehen bei jeder Variante neue URLs. Die Produktbeschreibungstexte sind jedoch nahezu identisch. Diesen Duplicate Content gilt es zu vermeiden. Hier kann man z. B. mit dem Canonical Tag verwenden. Er wird in den Quellcode geschrieben und ist nur für Suchmaschinen gedacht. In diesem Canonical Tag verlinken Sie auf die originale URL, die dann auch in den Index soll. Der Canonical Tag ist nur eine Empfehlung an Google und keine Anweisung. Crawling-Budget wird trotzdem verbraucht, weil Google dort den Canonical ja erstmal gefunden werden muss.

Interne Verlinkung

Wichtige Unterseiten Ihrer Domain sollten intern gut verlinkt werden. Der Google-Crawler folgt internen Links und je mehr interne Links gesetzt sind, desto besser. Hierbei sollte jedoch systematisch vorgegangen werden. In einem früheren Blogbeitrag (interne Verlinkungen) haben wir die interne Verlinkung ausführlich erläutert.

Flache Hierarchie

Realisieren Sie eine flache Seitenarchitektur. Der Klickpfad zu den Unterseiten sollte möglichst kurz sein. Im Onpage-Tool der XOVI Suite können Sie sich hierzu auch einen guten Überblick verschaffen.

XOVI Suite Onpage Architektur

Sitemap

Richten Sie eine XML-Sitemap ein, die ständig aktualisiert wird und reichen Sie diese auch in der Search Console ein. Hierin sollten die wichtigsten Seiten aufgelistet werden. Das hilft Google die wichtigen von weniger wichtigen Seiten zu unterscheiden.

Search Console: Sitemaps

Praktisch: In der Search Console wird Ihnen von Google auch angezeigt, wenn es Probleme mit der Sitemap geben sollte.

Aktualität

Aktualisieren Sie immer mal wieder die bereits bestehenden Inhalte. Google wird merken, dass die Seite aktuell gehalten wird. Das hat positive Effekte auf das Crawling-Budget und nebenbei ist ein aktueller Artikel natürlich auch gut für Ihre Website-Besucher

Backlinks

Wie erwähnt spielen auch externe Backlinks eine Rolle. Bauen Sie also auch Backlinks auf, aber übertreiben Sie nicht und bilden Sie nur qualitative Backlinks.

Pagespeed

Arbeiten Sie an den Ladezeiten Ihrer Website. Für den Crawler ist eine Seite viel attraktiver, wenn sie sich schnell crawlen lässt. Nutzen Sie dabei z. B. Caching-Verfahren und Komprimieren Sie Bild-Dateien. Wie Ihnen die XOVI Suite bei der Verbesserung Ihrer Ladezeiten hilft, haben wir in einem Artikel (Pagespeed optimieren) beschrieben.

404-Sackgassen verhindern

Ist eine URL nicht mehr vorhanden, dann werden User und Googlebot über interne Links ggf. in Sackgassen geschickt. Eine nicht mehr vorhandene Seite wird dann über einen sog. „toten Link“ aufgerufen. Es kommt eine Fehlermeldung. Leiten Sie nicht mehr existierende Seiten auf neue adäquate Inhalte um. Sollte es keine entsprechenden neuen Unterseiten geben, dann empfehlen wir Ihnen die Einrichtung einer individuellen 404-Fehlerseite, die weitere interne Links enthält. Weder Websitebesucher noch der Google-Crawler landen dann in der Sackgasse, sondern können weiter klicken bzw. weiteren Links folgen.

Meta Robots Tag

Durch ein Meta Robots Tag geben Sie dem Googlebot die direkte Anweisung, ob eine Seite indexiert werden soll, oder nicht. Setzt man keinen Meta Robots Tag, dann ist die Seite grundsätzlich zur Indexierung frei gegeben. Zwar wird die Seite dann trotzdem gecrawlt, aber das Index-Budget wird dann geschont.

Fazit

Mit den oben beschriebenen Methoden lässt sich der Google-Crawler schon etwas steuern. Die Fokussierung sollte auf den wichtigen Seiten liegen. Unwichtige Seiten, die nicht in den Google-Index sollen, kann man gezielt ausschließen. Der Artikel erhebt keinen Anspruch auf Vollständigkeit – man kann es auch sehr viel komplexer angehen. Die oben beschriebenen Möglichkeiten sind jedoch auch für SEOs möglich, die nicht unbedingt auch über Programmierkenntnisse verfügen.