Googlebot

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Googlebot ist der Webcrawler der Suchmaschine Google. Dabei handelt es sich um ein Computerprogramm, das Texte und Bilder im World Wide Web herunterlädt und diese über die Web- und die Bildsuche von Google auffindbar macht.

Arbeitsweise[Bearbeiten]

Zwischen dem Herunterladen einer Dateiversion und der Aktualisierung von Googles Index mit dem Inhalt dieser neuen Version im Fall einer Veränderung liegen üblicherweise einige Tage. Wie oft Googlebot eine Seite besucht, hängt unter anderem davon ab, wie viele externe Links auf diese Seite verweisen und wie hoch ihr PageRank-Wert ist. In den meisten Fällen greift der Googlebot im Durchschnitt jedoch nur einmal alle paar Sekunden auf eine Website zu.

Um die Zugriffe auf die zu indizierende Seite möglichst gering zu halten wird zunächst jeder Crawlvorgang in einem von allen Googlebots genutzten Cache abgelegt. Wird eine Seite von mehreren Bots innerhalb eines bestimmten Zeitraumes besucht, kann die Anfrage somit aus dem Cache bedient werden.[1]

Googlebot beachtet die Datei robots.txt und die Robots-Anweisungen in HTML-Meta-Tags.

Dynamische Seiteninhalte[Bearbeiten]

Seiteninhalte, die nur hinter PHP-Sessions oder hinter Variablen enthalten sind, kann der Googlebot bislang nur schwer oder gar nicht indexieren. Dies liegt daran, dass dem Bot meist weder die nötigen Variablen, noch die zugehörigen Parameter bekannt sind. Google arbeitet gegenwärtig daran, den Webcrawler soweit anzupassen, dass er auch solche Inhalte erfassen kann, die bisher hinter mehreren AJAX-Requests verborgen bleiben. So sollen künftig auch solche Inhalte erfasst werden können, die eine Website dynamisch nachlädt. Geplant sei auch, dass der Webcrawler POST-Requests an eine Webseite schickt. Das Problem dabei ist, dass POST-Requests ungewollt Nutzeraktionen ausführen können. [2]

Identifikation[Bearbeiten]

Googlebot identifiziert sich, je nach Aufgabe, unter anderem mit den folgenden User-Agent-Kennungen:

Googlebot/2.1 (+http://www.google.com/bot.html) Mozilla/5.0 (compatible); Googlebot/2.1; (+http://www.google.com/bot.html)
Googlebot-Image/1.0

Ein weiterer Google-Crawler dient dazu, Seiten herunterzuladen, um passende Werbung im Rahmen des Google-AdSense-Programms zu ermitteln. Er identifiziert sich wie folgt:

Mediapartners-Google/2.1

Verifikation[Bearbeiten]

Manche Web-Benutzer und Crawler geben sich über diese Kennungen fälschlicherweise als Googlebot aus, in der Hoffnung, dass ein Site-Betreiber für Googlebot besonders gute oder werbefreie Inhalte bereitstellt.

Um festzustellen, ob es sich bei einem Besucher tatsächlich um Googles Crawler handelt, empfiehlt Google die Verwendung des Domain Name System. Zunächst wird die IP-Adresse des Besuchers mittels einer inversen Anfrage in einen Domain-Namen übersetzt, der auf googlebot.com enden sollte. Anschließend überprüft man mit einer regulären DNS-Anfrage (forward lookup), ob man wieder die ursprüngliche IP-Adresse des Besuchers erhält.[3]

Quellen[Bearbeiten]

  1. Matt Cutts: Crawl caching proxy, 23. April 2006
  2. http://googlewebmastercentral.blogspot.com/2011/11/get-post-and-safely-surfacing-more-of.html
  3. Matt Cutts: How to verify Googlebot. 20. September 2006. Official Google Webmaster Central Blog, http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html (abgerufen am 13. November 2006).

Weblinks[Bearbeiten]