Googlebot

Googlebot Bild1Bildquelle: Web Crawler, Indexer Web Spider, Internet Bot, or Scutter © Leo Blanchette / Fotolia.com

Kurzdefinition:

Der Begriff Googlebot, auch bekannt als Spider, Search-Bot oder Webcrawler, setzt sich zusammen aus dem Namen der Suchmaschine „Google“ sowie aus einem Term der Informatik namens „Bot“, die Kurzform für Roboter, die in diesem Fall ein automatisiertes Programm beschreibt. Bei einem Googlebot handelt es sich um einen Suchroboter, der Webseiten nach algorithmischen Systemen analysiert und die Ergebnisse in einer Datenbank, dem Google-Index, listet.

So funktioniert der Googlebot

Durchsucht der Googlebot das Word Wide Web nach neuen oder aktualisierten Inhalten, nennt man dies Crawling. Er nutzt hierfür das Prinzip der Hypertextualität. Das Internet muss sich hierbei als durch Hyperlinks verbundenes Netzwerk vorgestellt werden. Jeder Knotenpunkt dieses Netzwerks kann durch eine Adresse, eine URL, durch den Bot angesteuert werden.

Der Googlebot fügt gefundene Inhalte automatisch einer riesigen Datenbank, dem Google-Index, hinzu. Wer also eine Suchanfrage an Google stellt, der sucht nicht im gesamten Internet, sondern lediglich im Google-Index. Werden Seiten nicht verlinkt, können diese durch den Googlebot nicht gefunden werden, befinden sich somit auch nicht im Index und sind durch eine Google-Suche nicht erreichbar.

Der Crawling-Prozess:

  1. Auflistung aller Webseiten aus früheren Crawling-Prozessen
  2. Crawling der Einzeldokumente der Webseite
  3. Entscheidung über Indexierung oder Nicht-Indexierung von Inhalten
  4. Indexierung des Contents
  5. Verfolgung sämtlicher ausgehenden Links der Webseite

Eine technisch konkrete Beschreibung zur Erschließung des Webs durch Webcrawling liefert diese Ausarbeitung der Uni Magdeburg.

Die verschiedenen Googlebots im Überblick

Aktuell sind acht unterschiedliche Spider bekannt, mit denen die Suchmaschine Google Inhalte aus dem Word Wide Web indexiert. Nur so ist es möglich, neben Textdokumenten auch mediale Inhalte in den Index aufzunehmen.

GooglebotsQuelle: google.de

Indexierung durch Googlebots beeinflussen

Wie häufig die Webcrawler auf der eigenen Website vorbeischauen und welche Seiten konkret indexiert werden, können Webmaster nicht selbst bestimmen. Es gibt viele verschiedene Parameter, aus denen sich die Crawl-Frequenz zusammensetzt. Da das Crawlen und Indexieren von Milliarden von Webseiten auch finanziellen Aufwand bedeutet, vergibt Google für jede Webseite ein Budget.

  • Crawl-Budget: Entscheidet, wie oft die Webcrawler eine Webseite besuchen.
  • Index-Budget: Entscheidet, wie viele und welche Seiten in den Google-Index gelangen.

So kann es je nach Häufigkeit, mit der die Googlebots eine Webseite besuchen, unterschiedlich lange dauern, bis neue Inhalte über die Google-Suche gefunden werden können.

Prinzipiell gilt, dass die Webcrawler umso häufiger neue Inhalte indexieren, desto relevanter diese durch die Bots bewertet werden. Die Relevanz neuer Inhalte kann von Webmastern aktiv beeinflusst werden, zum Beispiel durch:

  • Offpage-Optimierung:
  • Onpage-Optimierung:
    • Bereitstellung von aktuellem Content
    • Einzigartiger Content und Mehrwert für den Besucher
    • Optimierung der Usability
    • Eindeutige Website-Struktur und strukturierte Navigation
  • XML-Sitemap in der Google Search Console einreichen
  • Ping-Dienste nutzen

Präzise Hinweise, wie eine Webseite für die Googlebots optimiert werden kann, geben die Google Webmaster Guidelines.

Indexierung durch Googlebots vermeiden

Unter Umständen kann es ratsam sein, einige Seiten von der Indexierung auszuschließen, besonders wenn sehr viele Unterseiten vorhanden sind, die nicht allesamt relevant sind. Hierfür gibt es verschiedene Möglichkeiten.

Funktion Befehl
Eine Unterseite soll aus dem Index ausgeschlossen werden, aber die Links, beispielsweise bei interner Verlinkung, soll der Googlebot verfolgen. Folgender Befehl muss in den HTML-Header-Bereich der Webseite integriert werden:

<meta name=”robots” content=”noindex, follow” />

Sollen lediglich die Googlebots ausgeschlossen werden, dann sieht der Befehl folgendermaßen aus:

<meta name=”googlebot” content=”noindex”>

 

Webseiten sollen beispielsweise aufgrund persönlicher Inhalte gänzlich aus einem Suchmaschinen-Index ausgeschlossen werden. Durch die Erstellung von passwortgeschützten Bereichen auf wem Server der Website können die Googlebots und auch andere Webcrawler die Seite nicht erreichen.
Über die robots.txt lassen sich ebenfalls Inhalte einer Webseite ausschließen. Gesamte Webseite soll nicht gecrawlt werden:

Disallow:/

Einzelne Verzeichnisse sollen nicht gecrawlt werden:

Disallow:/verzeichnis/

Spezifische Datei soll nicht gecrawlt werden:

Disallow: /dateiname.pdf

Indexierung durch Googlebots überprüfen

Ob und welche Seiten einer Domain durch die Googlebots indexiert wurden, lässt sich über verschiedene Methoden herausfinden. Speziell für den Google-Index sind zwei Methoden am ehesten zu empfehlen:

  • Site-Operator verwenden:

Durch Eingabe von „site:domainname.de“ in die Google-Suchmaske werden sämtliche indexierten Seiten der Domain aufgelistet.

site-operator

  • Google Search Console verwenden:

In den altbekannten Google Webmaster Tools finden sich Informationen zum Indexierungsstatus einer Webseite sowie zu Crawling-Fehlern oder blockierten Inhalten.

wmt-indexierung

 

Über 

Ich beschäftige mich leidenschaftlich mit Content-Marketing und Suchmaschinenoptimierung. Seit dem Jahr 2010 bin ich selbstständig und habe nach dem Studium bei einem mittelständischen Unternehmen als Head of Marketing gearbeitet. Als Geschäftsführer von SeoPlus.Expert verfolgen ich und mein Team eine einfache Philosophie: Qualität statt Quantität. Neben dem Kunden steht auch der Leser des lancierten Artikels im Mittelpunkt unserer Aktivitäten. Wir schaffen ausschließlich hochwertige Inhalte. Die Domainendung .EXPERT haben wir uns nicht umsonst ausgesucht.

  • facebook
  • googleplus
  • skype

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>