Wie ein Robot funktioniert
Bei einer Suchanfrage über Google oder andere Suchmaschinen wäre es zu aufwändig und zeitintensiv, das gesamte Internet nach passenden Webseiten zu durchforsten. Sämtliche Suchmaschinen greifen deshalb auf Datenbanken und einen Such-Index zurück, der passend zu den Anfragen des Nutzers gefiltert und sortiert wird. Um Nutzern der Suchmaschine die besten, zur Suchanfrage passenden Ergebnisse zu liefern, müssen Datenbank und Such-Index stetig angepasst werden.
Ein Robot ist hierfür die technische Grundlage, der das gesamte Internet in vorgegebenen Intervallen nach Inhalten durchforsten. Neben Crawlern für das Data-Mining, das beispielsweise für Mailadressen genutzt wird, ist die Webanalyse die wichtigste Funktion eines solchen Crawlers. Dieser läuft systematisch IP-Adressen und Verlinkungen ab, um neue Webseiten zu erfassen und nach einer Qualitätsprüfung in den Suchindex zu integrieren.
Verschiedene Arten des Crawlings
Auch wenn bei Suchanfragen kein Crawling des Internets in Echtzeit stattfindet, ist der Prozess aufgrund von Hunderten Milliarden Webseiten und Unterseiten weltweit extrem aufwändig. Suchmaschinen wie Google und Bing führen deshalb verschiedene Arten des Crawlings durch, um dieser stetig wachsenden Datenfülle gerecht zu werden.
Eine gängige Unterscheidung findet mit dem Deep Crawling und Fresh Crawling statt. Bei der „tiefen“ Variante kommt ein (Ro)Bot zum Einsatz, der ausführlich sämtliche Inhalte im Netz erfasst und bewertet. Dieser komplexe Prozess findet aufgrund des hohen Zeit- und Datenaufwands nur in sehr unregelmäßigen Abständen statt. Der Fresh Crawl ist im Vergleich hierzu oberflächlicher, erfasst dafür jedoch schnell Änderungen und bringt die angezeigten Suchergebnisse auf den neusten Stand.
Digitale Sichtbarkeit für Ihr Unternehmen?
Crawling und Suchmaschinenoptimierung
Suchmaschinen sammeln mit der Zeit Erfahrungen, auf welchen Webseiten häufiger Aktualisierungen stattfinden. Diese werden mit einer höheren Wahrscheinlichkeit in einen Fresh Crawl eingebunden. Für Maßnahmen der Suchmaschinenoptimierung (SEO) bedeutet dies, dass brandneue Webseiten oder Seiten, auf denen lange Zeit keine Änderungen stattfanden, erst beim nächsten Deep Crawl richtig erfasst werden.
Seitenbetreiber haben mehrere Möglichkeiten, das Crawling zu beeinflussen. Zum einen empfiehlt es sich, neue Webseiten direkt bei Google einzutragen, damit diese sofort in den Such-Index übernommen werden. Zudem ist das Anlegen einer Robots.txt-Datei auf dem Server ratsam. In dieser Datei lassen sich alle Grunddaten der Seite mit Struktur der Unterseiten und weiteren Informationen für Google und andere Suchmaschinen zusammenfassen.
Über die spezielle Datei lässt sich festlegen, welche Unterseiten nicht gecrawlt und in den Suchergebnissen von Google erscheinen sollen. Da die .txt-Datei als Erstes vom Crawler erfasst wird, gibt sie die weiteren Crawling-Schritt vor.