Partie 1. Chapitre 3. Point 1

Le fichier Robots.txt

Le Robots.txt comporte des commandes permettant d’indiquer aux moteurs de recherche les parties qui ne seront pas explorées et le type de spiders auxquels le protocole d’exclusion s’applique. Mais concrètement, en quoi un tel fichier robots.txt peut-il vous servir ?

Le Robots txt pour contrôler le trafic d’exploration

Le fichier robots.txt vous permet de contrôler le trafic d’exploration de vos pages web. Grâce à lui, les robots d’exploration des moteurs de recherche tels que Google ne perdent pas de temps à parcourir les pages non importantes de votre site. Ce faisant, ils n’encombrent pas votre serveur. Notez toutefois que si vous souhaitez masquer une page de votre site des résultats de recherche Google, il n’est pas recommandé d’utiliser le fichier seo robots.txt. En effet, le protocole d’exclusion n’empêche pas l’indexation de vos pages, s’il existe sur le web des liens qui pointent sur votre page. Celle-ci apparait toujours sur les résultats des moteurs de recherche, sauf que son contenu, lui, reste inaccessible. Si vous tenez absolument à ce que la page n’apparaisse pas, vous pouvez utiliser d’autres techniques comme la balise noindex, par exemple.

Le fichier Robots.txt pour éviter l’apparition des fichiers images dans les résultats de recherche

Le fichier robots.txt peut aussi être utilisé pour empêcher l’apparition des fichiers images de votre site dans les résultats de rechercher Google. Bien que celles-ci n’apparaissent pas dans les résultats de recherche, les autres sites web et les internautes peuvent toujours utiliser des liens qui pointent vers ces images.

Bloquer les fichiers de ressource avec le Robots.txt

Si vous estimez que leur absence n’affecte pas le chargement de vos pages, vous pouvez utiliser le fichier robots.txt pour bloquer les images script, les fichiers de style non important et autres fichiers  ressources. Si vous trouvez toutefois que l’absence des ressources empêche les robots d’exploration de bien comprendre le contenu de la page, il est recommandé de ne pas les bloquer. Si vous le faites, les spiders des moteurs de recherche ne pourront pas analyser correctement les pages qui dépendent de ces ressources. Cela a pour conséquence d’empêcher l’indexation de ces pages.

Les limites du fichier robots.txt

Avant de créer un fichier robots.txt, vous devez évaluer les risques liés à l’utilisation de cette méthode de blocage d’URL. Vous saurez ainsi si le fichier est la solution idéale pour assurer la protection de vos URL sur le web. Tout d’abord, gardez à l’esprit que les instructions que vous mettez dans vos fichiers robots.txt ne sont pas des règles, mais de simples consignes. En d’autres termes, les robots d’explorations peuvent ne pas les suivre. Si Googlebot et autres spiders sérieux respectent les instructions que vous mettez dans vos fichiers robots.txt, d’autres peuvent les contourner. Si vous désirez protéger les informations délicates et éviter leur récupération par les robots d’exploration, il est conseillé d’utiliser, en plus, d’autres méthodes de blocage comme la protection par mot de passe des fichiers privés installés sur votre serveur, par exemple.

Vous aimerez aussi :
Qu’est-ce que le fichier robots.txt ?
Comment créer un fichier robots.txt