Qu’est-ce qu’un spider robot ?

12/18/2017

Le Spider va visiter chaque site présent sur la toile et il va scanner les pages une par une pour enregistrer tous les mots et noter tous les liens externes. Autrement dit, ce que l’araignée verra sur votre site déterminera la façon dont celui-ci sera indexé dans les pages de résultats.

 

Comment fonctionne un robot spider ?

Certains programmes spider peuvent indexer plus d’un million de documents par jour. Cependant, le web a pris tellement de volume qu’il est parfois impossible de prédire le comportement du robot d’indexation. Il est essentiel de se concentrer sur les pages importantes de votre site comme les pages d’atterrissage ou celles qui contiennent des mots-clés primordiaux.

 

Les robots d’indexation commencent par visiter vos pages web dont ils chargent le contenu sur sa base de données. Ils décomposent le texte extrait de la page en mots pour les injecter dans l’index du moteur de recherche.

Appliquez-vous aussi à améliorer votre maillage interne et vos backlinks car certains moteurs de recherche comme Google vont jusqu’à utiliser le nombre de liens naturels pointant vers votre site pour juger de votre popularité.

 

Pour en savoir plus sur les GoogleBot : cette vidéo du référenceur Olivier Andrieu (Abondance)

 

Les spiders, des robots de moteurs de recherche spécifiques

 Vous l’avez sans doute compris : il existe plusieurs sortes de spiders pour moteur de recherche. Ces programmes sont constamment en évolution notamment grâce à des mises à jour constantes des algorithmes qui définissent le cadre de leurs missions.

Chaque moteur de recherche a son robot ou son crawler spécifique, ce qui explique pourquoi une page de votre site peut être positionnée différemment sur Google et sur Yahoo.

 

Une page introuvable peut fortement pénaliser votre site lors de la visite d’un robot de recherche Web. C’est une des raisons pour laquelle il faut choisir un hébergeur fiable qui sera capable de répondre instantanément aux demandes des robots d’indexation.

Google utilise à lui tout seul plusieurs programmes informatiques d’indexation tels que GoogleBot, le plus important. Mais il y a aussi Google Wireless Transcoder, AdsBot-Google ou Mediapartners-Google. Yahoo utilise Slurp et DuckDuckGo utilise DuckDuckBot.

 

Ces bots 3.0 exploiteront des méthodes d’indexation plus intelligentes et plus performantes. En d’autres termes, les robots de recherche Internet seront capables de comprendre la sémantique linguistique (signification des mots composés ainsi que les relations entre tous les mots d’une langue) et de décortiquer l’architecture des relations et des contenus présents sur le Web.

 

Qu’est-ce que le budget d’un Web crawler ? 

Les spiders Internet ou crawlers sont actuellement contraints de restreindre leur temps de présence sur un site donné. En effet, il existe tellement de pages sur la toile qu’il devient difficile d’approfondir les recherches et que ces robots sont plutôt programmés pour visiter le maximum de sites.

L’expression « budget de crawl » désigne le temps que les crawlers consacrent à chacun de leur passage à un ensemble de pages Web. La durée en est variable en fonction de critères prédéfinis, comme le domaine d’autorité du site, le nombre de pages ou encore la popularité. Ces indices déterminent la confiance que le Web crawler place dans le site en question.

Il faut garder à l’esprit qu’un crawler ne visite généralement qu’une partie des pages et en tenir compte dans la conception de son site.