Wie funktioniert Google? – Teil 1: Googlebot

Google läuft auf einem verteilten Netzwerk von Tausenden von Low-Cost-Computer und kann daher auf eine schnelle und aufgegleiste Verarbeitung zurückgreifen. Diese Art der Datenverarbeitung erlaubt es, viele Berechnungen gleichzeitig durchzuführen, was den Prozess der Datenanalyse und -abfrage wesentlich beschleunigt. Effizienz und Rapidität dieses Vorgehens liegen uns bei jeder Suchanfrage wortwörtlich vor Augen.

Anatomisch gesehen lebt Google dank drei lebenssichernden Bereichen: – dem Googlebot, einem crawler, der Webseiten findet und „an Land zieht“ – der Indexer, der jedes Wort aus allen gefundenen Seiten in eine riesige Datenbank einfügt, sortiert und indexiert – der Abfrageprozessor, der bei Suchanfragen die bestehenden Indexe aufruft und vergleicht und letztendlich dem User die seiner Ansicht nach relevantesten Dokumente empfiehlt.

Wie war das schon wieder?

Googlebot ist Googles „Roboter“, der im Web nach Seiten sucht und die gefundenen Seiten an den Indexer zur Weiterverarbeitung vermittelt. Funktionieren tut er wie ein Web-Browser: er sendet eine Anfrage für eine Webseite an einen Server und ladet dabei die gesamte Seite. Googlebot besteht aber aus vielen Computern und holt sich seine Seiten natürlich viel schneller als wir mit unserem Web-Browser. So kann Googlebot auch Tausende von Seiten gleichzeitig aufrufen. Um zu vermeiden, dass die Server aufgrund der vielen Suchanfragen nicht zu verstopft sind, verlangsamt Googlebot absichtlich die Indexierung – dem menschlichen Zeitsinn entgehen diese Mikroverzögerungen jedoch weitgehend. Bei seiner Suche nach Webseiten geht Googlebot auf zwei Arten vor: Einerseits wird er direkt von den User „gefüttert“, indem diese Google anschreiben und die URL adden (www.google.com/addurl/). Er kann aber auch im Web crawlen und dabei selbstständig nach Links suchen.

Spam, Spam, Spam

In der Zwischenzeit haben Spammer herausgefunden, wie man automatisierte Bots herstellt und die „Add URL“-Funktion auf diese Weise zu kommerziellen Zwecken missbraucht. Resultat: eine regelrechte Bombardierung und Zuspammung durch das mechanisierte Eingeben von Millionen von URL. Um sich möglichst breite Anteile in Googles Indexierung zu schaffen, griffen Spammer auch auf Taktiken wie das Verlinken auf Seiten mit Texten, die lediglich die Schlüsselwörter für die Suchabfrage enthielten und keinen logischen Sinn ergaben. Oder sie schufen neue Portale, Domains und Sub-Domains mit praktisch identischen Inhalten und gegenseitigen Verlinkungen nur um die Anzahl möglicher Treffer bei der Suchabfrage zu erhöhen. Google handelte und führte zur Prävention von unverhältnissmässigen Spamming den Captcha-Code für das Benutzen der „Add URL“-Funktion ein: die Abfolge gewellter Buchstaben sind für jeden spammenden Roboter eine Spur too much und lassen sich nur durch das menschliche Intellekt dezifrieren. Manche User geben sich beim Crawlen zudem als Googlebot aus, in der Hoffnung, dass Website-Betreiber ihnen möglichst wertvolle Inhalte bereitstellen.

Posted in Google and tagged , , , , , , , , , , .

Leave a Reply

Your email address will not be published. Required fields are marked *