Crawling

Was macht ein Webcrawler?

Was bedeutet Crawling?

Das Crawling wird von einem Crawler ausgeführt. Crawler sind Programme, die Webseiten finden und anschließend indexieren. Der Crawler von Google wird meist als Googlebot bezeichnet, andere Begriffe sind z.B. Webcrawler, Robots, Spider oder Searchbot. Das englische Wort “to crawl” bedeutet “kriechen”, da der Crawler sozusagen von einer Webseite zur nächsten kriecht.

Was macht der Crawler?

Auf technischer Seite sendet das Programm als HTTP-Client eine URL-Anfrage an den entsprechenden Server, der darauf eine Antwort mit Informationen sendet. Mit den Informationen arbeitet der Crawler wie in einer Bibliothek, indem er sie in Kategorien einordnet, indexiert und katalogisiert. Dadurch können sie später vom Programm selbst oder von anderen zugriffsberechtigten Programmen ausgewertet werden. Der Index ist somit eine riesige Datenbank voller Webseiten aus verschiedenen Bereichen. Neben der URL werden u.a. der Text, soziale Hinweise, Link-Signale und vieles mehr gespeichert. Crawling findet allerdings nicht nur bei Suchmaschinen statt. So nutzen auch Vergleichsportale das Crawling, um an Informationen und Produkte zu kommen oder im Feld des Data Mining werden öffentliche E-Mails und Postadressen von Unternehmen gesucht.

Wie sie das Crawling leiten können

Auch innerhalb der Webanalyse sammeln Web-Tools spezielle Daten über Webpages. Da es Milliarden von Webseiten gibt, hat jeder Crawler nur ein bestimmtes Zeitbudget für jede Seite zur Verfügung, das sogenannte Crawl-Budget. Sie können in der Search Console positiv auf dieses Budget einwirken, z.B. mit einer XML-Sitemap. Ebenso sollte Ihre Seite ordentlich strukturiert sein und schnell laden. Je stärker Ihre Seite wird und je mehr Backlinks auf sie linken, desto größer wird auch das Crawling-Budget. Wie genau das Crawling-Budget von z.B. Google festgelegt wird, ist nicht bekannt. Dennoch können sie weniger relevante Seiten kennzeichnen, sodass diese nicht indexiert. Dies geschieht über einen “noindex” Robots-Meta-Tag oder über die Eintragung in der robots.txt-Datei der Search Console. In dieser Konsole können Sie außerdem nach Crawling-Fehlern und Statistiken Ausschau halten. So können fehlerhafte Verlinkungen oder andere Fehler, die zu einer Nicht-Indexierung geführt haben, behoben werden. Damit kann ebenfalls die Nutzererfahrung verbessert werden. 

 

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email