Partie 1. Chapitre 3. Point 1

Le fichier Robots.txt

Le principe du fichier robots.txt

Le fichier robots.txt est un fichier texte que vous insérez à la racine de votre site. Il liste un certain nombre de consignes à destination des moteurs de recherche. C’est d’ailleurs pour cette raison qu’il porte le nom de robots txt.

Ce fichier vous permet donc de guider les crawlers lors de leur passage sur votre site.

Vous avez le choix entre deux commandes différentes : l’user-agent et le disallow. Si vous optez pour l’user-agent, vous précisez à quel crawler la consigne va s’appliquer. Si vous le souhaitez, vous pouvez ainsi choisir d’appliquer la consigne uniquement aux spiders de Google, de Bing ou à l’ensemble des moteurs de recherche.

Le disallow est, quant à lui, une commande empêchant les robots de circuler sur telle ou telle page de votre site. À titre exemple, si vous mettez Disallow:/images/ dans votre fichier seo robots txt, cela signifie que les spiders des différents moteurs de recherche ne peuvent parcourir le dossier images de votre site.

 

Le robots.txt, différent de la balise noindex

Certains confondent le robots.txt avec la balise noindex. Pourtant, il s’agit de deux choses assez différentes. Le noindex est une balise qui interdit complètement l’accès aux pages aux robots d’indexation. Ainsi, contrairement au robots.txt où les robots peuvent toujours connaitre l’existence d’une page si un lien pointe vers elle, le noindex empêche l’indexation de l’URL, et ce, même s’il existe des liens qui pointent dessus.

 

L’utilité du fichier robots.txt

Si vous désirez modifier le circuit des spiders, mettre en place un fichier robots.txt est indispensable. Si ce fichier est absent, les robots des moteurs de recherche parcourent toutes les pages de votre site. Notez toutefois que si les robots d’indexation ne peuvent pas lire le contenu de vos pages, cela ne signifie pas qu’ils ne les voient pas. Ainsi, si un lien pointe vers ces pages, elles peuvent être indexées.

Mettre en place un fichier robots.txt vous permet d’améliorer la sécurité de votre site. Grâce à un fichier robots.txt, vous interdisez l’indexation de données confidentielles comme les coordonnées de vos clients, par exemple. Vous évitez ainsi que ces informations délicates ne soient accessibles à tous les internautes.

Un fichier robots.txt est aussi intéressant dans la mesure où vous pouvez maitriser l’indexation de votre site internet. En effet, vous évitez que les pages peu pertinentes comme les conditions générales de vente ou les mentions légales ne soient répertoriées par les crawlers. Le fichier robots.txt évite aussi la création d’un duplicate content en empêchant les spiders de passer sur des pages au contenu identique. Cette maitrise de l’indexation n’est pas à prendre à la légère puisqu’elle est d’une importance capitale dans votre stratégie SEO.

 

Les limites du fichier robots.txt

Avant de créer un fichier robots.txt, vous devez évaluer les risques liés à l’utilisation de cette méthode de blocage d’URL. Vous saurez ainsi si le fichier est la solution idéale pour assurer la protection de vos URL sur le web. Tout d’abord, gardez à l’esprit que les instructions que vous mettez dans vos fichiers robots.txt ne sont pas des règles, mais de simples consignes.

En d’autres termes, les robots d’explorations peuvent ne pas les suivre.

Si Googlebot et autres spiders sérieux respectent les instructions que vous mettez dans vos fichiers robots.txt, d’autres peuvent les contourner. Si vous désirez protéger les informations délicates et éviter leur récupération par les robots d’exploration, il est conseillé d’utiliser, en plus, d’autres méthodes de blocage comme la protection par mot de passe des fichiers privés installés sur votre serveur, par exemple.

 

Pour en savoir plus : cette vidéo du référenceur Olivier Andrieu (Abondance)

 

Mettre en place un fichier robots.txt sur son site

 

Apprenez la syntaxe du fichier robots.txt

Quand vous établissez un fichier robots.txt, vous devez entrer des mots clés pour transmettre les consignes aux spiders des moteurs de recherche. Sur les versions de fichiers robots.txt les plus simples, les mots clés à utiliser sont le disallow et l’user-agent. L’user-agent est en fait un robot de moteur de recherche ou d’exploration. La plupart d’entre eux sont répertoriés dans la base de données des robots d’exploration.

Le disallow, lui, est une commande qui demande à l’user-agent de ne pas se rendre sur une URL en particulier. Si vous désirez qu’une URL particulière appartenant à un répertoire parent non autorisé soit repérable par les robots d’indexation des moteurs de recherche, vous pouvez utiliser un autre mot clé, l’Allow, dans votre fichier robots.txt.

 

Utilisez les bonnes commandes

Utiliser les bonnes commandes est indispensable pour vous assurer que la commande d’exclusion concerne réellement les pages et les contenus que vous désirez cibler. Si vous désirez bloquer l’accès à l’ensemble de votre site, vous devez mettre une barre oblique (/) après Disallow.

Si vous souhaitez qu’un répertoire et son contenu soient bloqués, vous devez insérer la barre oblique après le nom du répertoire. Pour bloquer une page web, il faut mettre le nom de la page juste après la barre oblique. Ce ne sont là que quelques exemples des commandes que vous devez maitriser pour pouvoir créer un robots.txt à la hauteur de vos exigences.

 

Respectez les règles de correspondance de format

Respecter les règles de correspondance de format est nécessaire pour optimiser le code inscrit sur votre fichier robots.txt. Si vous désirez bloquer une séquence de caractères, vous devez utiliser un astérisque (*). Ainsi, si vous désirez que le code d’exclusion bloque l’accès à tous les sous-répertoires commençant par le mot « private », vous devez mettre l’astérisque après le mot private. Pour bloquer l’accès aux URL incluant un point d’interrogation, vous devez insérer un point d’interrogation (?) à votre code.

 

Testez votre fichier robots.txt

Pour vous assurer que votre fichier robots.txt est conforme à vos aspirations, vous pouvez le tester via le Google search console. L’outil de test de fichier robots.txt qui y est mis à votre disposition vous indique si votre fichier empêche les robots d’indexation du moteur de recherche d’explorer certaines URL de votre site.

L’utilisation de ce testeur est relativement simple puisqu’il vous suffit d’entrer l’URL que vous avez désiré bloquer. L’outil parcourt votre URL comme les robots d’indexation le font habituellement. Il vous indique ensuite si l’accès lui a été refusé ou non.

 

Soumettez votre fichier au moteur de recherche

Une fois que vous avez fini de créer votre fichier robots.txt, vous devez le soumettre au moteur de recherche. Pour que les robots d’exploration puissent trouver et identifier votre fichier robots.txt, il est important d’appliquer les conventions d’enregistrement indiquées par les moteurs de recherche. Il faut enregistrer le code de fichier robots.txt sur un fichier texte et placer ce dernier à la racine de votre domaine. Vous devez aussi nommer le fichier robots.txt.

Notez-le : alors que le testeur de fichier robots.txt a disparu de la Search Console, Bing lui donne une nouvelle vie via son outil Webmaster Tools.