Partie 1. Chapitre 3. Point 1

Le fichier Robots.txt

Apprenez la syntaxe du fichier robots.txt

Quand vous établissez un fichier robots.txt, vous devez entrer des mots clés pour transmettre les consignes aux spiders des moteurs de recherche. Sur les versions de fichiers robots.txt les plus simples, les mots clés à utiliser sont le disallow et l’user-agent. L’user-agent est en fait un robot de moteur de recherche ou d’exploration. La plupart d’entre eux sont répertoriés dans la base de données des robots d’exploration. Le disallow, lui, est une commande qui demande à l’user-agent de ne pas se rendre sur une URL en particulier. Si vous désirez qu’une URL particulière appartenant à un répertoire parent non autorisé soit repérable par les robots d’indexation des moteurs de recherche, vous pouvez utiliser un autre mot clé, l’Allow, dans votre fichier robots.txt.

Utilisez les bonnes commandes

Utiliser les bonnes commandes est indispensable pour vous assurer que la commande d’exclusion concerne réellement les pages et les contenus que vous désirez cibler. Si vous désirez bloquer l’accès à l’ensemble de votre site, vous devez mettre une barre oblique (/) après Disallow. Si vous souhaitez qu’un répertoire et son contenu soient bloqués, vous devez insérer la barre oblique après le nom du répertoire. Pour bloquer une page web, il faut mettre le nom de la page juste après la barre oblique. Ce ne sont là que quelques exemples des commandes que vous devez maitriser pour pouvoir créer un robots.txt à la hauteur de vos exigences.

Respectez les règles de correspondance de format

Respecter les règles de correspondance de format est nécessaire pour optimiser le code inscrit sur votre fichier robots.txt. Si vous désirez bloquer une séquence de caractères, vous devez utiliser un astérisque (*). Ainsi, si vous désirez que le code d’exclusion bloque l’accès à tous les sous-répertoires commençant par le mot « private », vous devez mettre l’astérisque après le mot private. Pour bloquer l’accès aux URL incluant un point d’interrogation, vous devez insérer un point d’interrogation (?) à votre code.

Testez votre fichier robots.txt

Pour vous assurer que votre fichier robots.txt est conforme à vos aspirations, vous pouvez le tester via le Google search console. L’outil de test de fichier robots.txt qui y est mis à votre disposition vous indique si votre fichier empêche les robots d’indexation du moteur de recherche d’explorer certaines URL de votre site. L’utilisation de ce testeur est relativement simple puisqu’il vous suffit d’entrer l’URL que vous avez désiré bloquer. L’outil parcourt votre URL comme les robots d’indexation le font habituellement. Il vous indique ensuite si l’accès lui a été refusé ou non.

Soumettez votre fichier au moteur de recherche

Une fois que vous avez fini de créer votre fichier robots.txt, vous devez le soumettre au moteur de recherche. Pour que les robots d’exploration puissent trouver et identifier votre fichier robots.txt, il est important d’appliquer les conventions d’enregistrement indiquées par les moteurs de recherche. Il faut enregistrer le code de fichier robots.txt sur un fichier texte et placer ce dernier à la racine de votre domaine. Vous devez aussi nommer le fichier robots.txt.

Vous aimerez aussi :
Qu’est-ce que le fichier robots.txt ?
A quoi sert le fichier robots.txt ?