Sie sind hier:

Was bedeutet Crawling?

Das Crawling wird von einem Crawler ausgeführt. Crawler sind Programme, die Webseiten finden und anschließend indexieren. Der Crawler von Google wird meist als Googlebot bezeichnet, andere Begriffe sind z.B. Webcrawler, Robots, Spider oder Searchbot. Das englische Wort “to crawl” bedeutet “kriechen”, da der Crawler sozusagen von einer Webseite zur nächsten kriecht.

Was macht der Crawler?

Auf technischer Seite sendet das Programm als HTTP-Client eine URL-Anfrage an den entsprechenden Server, der darauf eine Antwort mit Informationen sendet. Mit den Informationen arbeitet der Crawler wie in einer Bibliothek, indem er sie in Kategorien einordnet, indexiert und katalogisiert. Dadurch können sie später vom Programm selbst oder von anderen zugriffsberechtigten Programmen ausgewertet werden. Der Index ist somit eine riesige Datenbank voller Webseiten aus verschiedenen Bereichen. Neben der URL werden u.a. der Text, soziale Hinweise, Link-Signale und vieles mehr gespeichert. Crawling findet allerdings nicht nur bei Suchmaschinen statt. So nutzen auch Vergleichsportale das Crawling, um an Informationen und Produkte zu kommen oder im Feld des Data Mining werden öffentliche E-Mails und Postadressen von Unternehmen gesucht.

Wie Sie das Crawling leiten können

Auch innerhalb der Webanalyse sammeln Web-Tools spezielle Daten über Webpages. Da es Milliarden von Webseiten gibt, hat jeder Crawler nur ein bestimmtes Zeitbudget für jede Seite zur Verfügung, das sogenannte Crawl-Budget. Sie können in der Search Console positiv auf dieses Budget einwirken, z.B. mit einer XML-Sitemap. Ebenso sollte Ihre Seite ordentlich strukturiert sein und schnell laden. Je stärker Ihre Seite wird und je mehr Backlinks auf sie linken, desto größer wird auch das Crawling-Budget. Wie genau das Crawling-Budget von z.B. Google festgelegt wird, ist nicht bekannt. Dennoch können sie weniger relevante Seiten kennzeichnen, sodass diese nicht indexiert. Dies geschieht über einen “noindex” Robots-Meta-Tag oder über die Eintragung in der robots.txt-Datei der Search Console. In dieser Konsole können Sie außerdem nach Crawling-Fehlern und Statistiken Ausschau halten. So können fehlerhafte Verlinkungen oder andere Fehler, die zu einer Nicht-Indexierung geführt haben, behoben werden. Damit kann ebenfalls die Nutzererfahrung verbessert werden. 

Teilen Sie diesen Beitrag auf Social Media
LinkedIn
XING
Facebook
WhatsApp
Twitter
Email
Mehr Sichtbarkeit für Sie

Erhalten Sie einfach und transparent Unterstützung im online Marketing

Ihr Ansprechpartner

Sascha Humpel
CEO

Weitere Guide Beiträge finden Sie hier
Domain

Was ist eine Domain? Eine Website kann auf verschiedenen Wegen aufgerufen werden. Unter anderem kann sie mit Hilfe der Eingabe der URL wie https://potential-company.de erreicht werden. Wird

Weiterlesen »
CMS WordPress

CMS WordPress Vermutlich haben Sie schon mal vom CMS WordPress gehört. Das Open-Source-CMS (Content-Management-System) erfreut sich massiver Beliebtheit und wird in der Top 1 Millionen-Traffic Erhebung von

Weiterlesen »
Global SEO

Global SEO Mit Global SEO wird die Suchmaschinenoptimierung auf den internationalen Wettbewerb beschrieben. Dabei unterscheiden sich local SEO und global SEO enorm von einander. Im Wettbewerb vor der Haustür – dem lokalen Bereich

Weiterlesen »

Noch keine Inhalte

Aktuell gibt es hier noch nichts zu sehen. Entweder ist Ihr Projekt noch nicht gestartet oder noch nicht im passenden Status. Kommen Sie gerne demnächst wieder.