Qu’est-ce qu’un spider ?
Partie 1. Chapitre 2. Point 3
→ Les moteurs de recherche
Le Spider va visiter chaque site présent sur la toile et il va scanner les pages une par une pour enregistrer tous les mots et noter tous les liens externes. Autrement dit, ce que l’araignée verra sur votre site déterminera la façon dont celui-ci sera indexé dans les pages de résultats.
Comment fonctionne un spider ?
Certains programmes spider peuvent indexer plus d’un million de documents par jour. Cependant, le web a pris tellement de volume qu’il est parfois impossible de prédire le comportement du robot. Il est essentiel de se concentrer sur les pages importantes de votre site comme les pages d’atterrissage ou celles qui contiennent des mots-clés primordiaux.
Le robot d’exploration commence par visiter vos pages web dont il charge le contenu sur sa base de données. Il décompose le texte extrait de la page en mots pour les injecter dans l’index du moteur de recherche.
Appliquez-vous aussi à améliorer votre maillage interne et vos backlinks car certains moteurs de recherche comme Google vont jusqu’à utiliser le nombre de liens naturels pointant vers votre site pour juger de votre popularité.
Pour en savoir plus sur les GoogleBot : cette vidéo du référenceur Olivier Andrieu (Abondance)
Les spiders, des robots propres à chaque moteur
Vous l’avez sans doute compris : il existe plusieurs sortes de spiders. Ces programmes sont constamment en évolution notamment grâce à des mises à jour constantes des algorithmes qui définissent le cadre de leurs missions.
Chaque moteur a son crawler spécifique, ce qui explique pourquoi, une page de votre site peut être positionnée différemment sur Google et sur Yahoo.
Une page introuvable peut fortement pénaliser votre site lors de la visite d’un spider. C’est une des raisons pour laquelle, il faut choisir un hébergeur fiable qui sera capable de répondre instantanément aux demandes des robots d’indexation.
Google utilise à lui tout seul plusieurs programmes informatiques d’indexation tels que GoogleBot, le plus important. Mais il y a aussi Google Wireless Transcoder, AdsBot-Google ou Mediapartners-Google. Yahoo utilise Slurp et DuckDuckGo utilise DuckDuckBot.
Ces bots 3.0 exploiteront des méthodes d’indexation plus intelligentes et plus performantes. En d’autres termes, les programmes seront capables de comprendre la sémantique linguistique (signification des mots composés ainsi que les relations entre tous les mots d’une langue) et de décortiquer l’architecture des relations et des contenus présents sur le Web.
Vous aimerez aussi :
→ Quels sont les principaux moteurs de recherche ?