Brioude Internet
  • Métiers
    • Médias
    • Analytics
    • Formations
      • Formation Référencement Naturel
      • Formation Rédaction Web
      • Formation Google Analytics
      • Formation Google Adwords
      • Formation Réseaux Sociaux
      • Formation Social Selling
      • Formation Growth Hacking
    • Réseaux sociaux
    • Adwords et display
    • Référencement naturel
    • Agence de Webmarketing
    • Comparateur de prix et Marketplaces
  • Contenus
    • FAQ
    • Podcasts
    • Webinars
    • Evénements
    • Livres Blancs
    • Études de cas
  • Services
    • Audit SEO
    • Audit Refonte
    • Audit Adwords
    • Analyse de logs
    • Outil d’audit SEO / SEA gratuit
    • Analyse et Suivi de positionnement
  • Agences
    • Agence SEO Référencement Paris
    • Agence SEO Référencement Lyon
    • Agence Référencement Auvergne
    • Qui sommes nous ?
    • Recrutement
  • Avis clients
  • Blog
  • Contact
  • Métiers
    • Médias
    • Analytics
    • Formations
      • Formation Référencement Naturel
      • Formation Rédaction Web
      • Formation Google Analytics
      • Formation Google Adwords
      • Formation Réseaux Sociaux
      • Formation Social Selling
      • Formation Growth Hacking
    • Réseaux sociaux
    • Adwords et display
    • Référencement naturel
    • Agence de Webmarketing
    • Comparateur de prix et Marketplaces
  • Contenus
    • FAQ
    • Podcasts
    • Webinars
    • Evénements
    • Livres Blancs
    • Études de cas
  • Services
    • Audit SEO
    • Audit Refonte
    • Audit Adwords
    • Analyse de logs
    • Outil d’audit SEO / SEA gratuit
    • Analyse et Suivi de positionnement
  • Agences
    • Agence SEO Référencement Paris
    • Agence SEO Référencement Lyon
    • Agence Référencement Auvergne
    • Qui sommes nous ?
    • Recrutement
  • Avis clients
  • Blog
  • Contact
Brioude Internet
  • Métiers
    • Médias
    • Analytics
    • Formations
      • Formation Référencement Naturel
      • Formation Rédaction Web
      • Formation Google Analytics
      • Formation Google Adwords
      • Formation Réseaux Sociaux
      • Formation Social Selling
      • Formation Growth Hacking
    • Réseaux sociaux
    • Adwords et display
    • Référencement naturel
    • Agence de Webmarketing
    • Comparateur de prix et Marketplaces
  • Contenus
    • FAQ
    • Podcasts
    • Webinars
    • Evénements
    • Livres Blancs
    • Études de cas
  • Services
    • Audit SEO
    • Audit Refonte
    • Audit Adwords
    • Analyse de logs
    • Outil d’audit SEO / SEA gratuit
    • Analyse et Suivi de positionnement
  • Agences
    • Agence SEO Référencement Paris
    • Agence SEO Référencement Lyon
    • Agence Référencement Auvergne
    • Qui sommes nous ?
    • Recrutement
  • Avis clients
  • Blog
  • Contact
  • Métiers
    • Médias
    • Analytics
    • Formations
      • Formation Référencement Naturel
      • Formation Rédaction Web
      • Formation Google Analytics
      • Formation Google Adwords
      • Formation Réseaux Sociaux
      • Formation Social Selling
      • Formation Growth Hacking
    • Réseaux sociaux
    • Adwords et display
    • Référencement naturel
    • Agence de Webmarketing
    • Comparateur de prix et Marketplaces
  • Contenus
    • FAQ
    • Podcasts
    • Webinars
    • Evénements
    • Livres Blancs
    • Études de cas
  • Services
    • Audit SEO
    • Audit Refonte
    • Audit Adwords
    • Analyse de logs
    • Outil d’audit SEO / SEA gratuit
    • Analyse et Suivi de positionnement
  • Agences
    • Agence SEO Référencement Paris
    • Agence SEO Référencement Lyon
    • Agence Référencement Auvergne
    • Qui sommes nous ?
    • Recrutement
  • Avis clients
  • Blog
  • Contact
Brioude Internet
  • Métiers
    • Médias
    • Analytics
    • Formations
      • Formation Référencement Naturel
      • Formation Rédaction Web
      • Formation Google Analytics
      • Formation Google Adwords
      • Formation Réseaux Sociaux
      • Formation Social Selling
      • Formation Growth Hacking
    • Réseaux sociaux
    • Adwords et display
    • Référencement naturel
    • Agence de Webmarketing
    • Comparateur de prix et Marketplaces
  • Contenus
    • FAQ
    • Podcasts
    • Webinars
    • Evénements
    • Livres Blancs
    • Études de cas
  • Services
    • Audit SEO
    • Audit Refonte
    • Audit Adwords
    • Analyse de logs
    • Outil d’audit SEO / SEA gratuit
    • Analyse et Suivi de positionnement
  • Agences
    • Agence SEO Référencement Paris
    • Agence SEO Référencement Lyon
    • Agence Référencement Auvergne
    • Qui sommes nous ?
    • Recrutement
  • Avis clients
  • Blog
  • Contact
Qu’est-ce que le fichier robots.txt ?

Qu’est-ce que le fichier robots.txt ?

12/18/2017

Partie 1. Chapitre 3. Point 1

Le fichier Robots.txt

Le principe du fichier robots.txt

Le fichier robots.txt est un fichier texte que vous insérez à la racine de votre site. Il liste un certain nombre de consignes à destination des moteurs de recherche. C’est d’ailleurs pour cette raison qu’il porte le nom de robots txt.

Ce fichier vous permet donc de guider les crawlers lors de leur passage sur votre site.

Vous avez le choix entre deux commandes différentes : l’user-agent et le disallow. Si vous optez pour l’user-agent, vous précisez à quel crawler la consigne va s’appliquer. Si vous le souhaitez, vous pouvez ainsi choisir d’appliquer la consigne uniquement aux spiders de Google, de Bing ou à l’ensemble des moteurs de recherche.

Le disallow est, quant à lui, une commande empêchant les robots de circuler sur telle ou telle page de votre site. À titre exemple, si vous mettez Disallow:/images/ dans votre fichier seo robots txt, cela signifie que les spiders des différents moteurs de recherche ne peuvent parcourir le dossier images de votre site.

 

Le robots.txt, différent de la balise noindex

Certains confondent le robots.txt avec la balise noindex. Pourtant, il s’agit de deux choses assez différentes. Le noindex est une balise qui interdit complètement l’accès aux pages aux robots d’indexation. Ainsi, contrairement au robots.txt où les robots peuvent toujours connaitre l’existence d’une page si un lien pointe vers elle, le noindex empêche l’indexation de l’URL, et ce, même s’il existe des liens qui pointent dessus.

 

L’utilité du fichier robots.txt

Si vous désirez modifier le circuit des spiders, mettre en place un fichier robots.txt est indispensable. Si ce fichier est absent, les robots des moteurs de recherche parcourent toutes les pages de votre site. Notez toutefois que si les robots d’indexation ne peuvent pas lire le contenu de vos pages, cela ne signifie pas qu’ils ne les voient pas. Ainsi, si un lien pointe vers ces pages, elles peuvent être indexées.

Mettre en place un fichier robots.txt vous permet d’améliorer la sécurité de votre site. Grâce à un fichier robots.txt, vous interdisez l’indexation de données confidentielles comme les coordonnées de vos clients, par exemple. Vous évitez ainsi que ces informations délicates ne soient accessibles à tous les internautes.

Un fichier robots.txt est aussi intéressant dans la mesure où vous pouvez maitriser l’indexation de votre site internet. En effet, vous évitez que les pages peu pertinentes comme les conditions générales de vente ou les mentions légales ne soient répertoriées par les crawlers. Le fichier robots.txt évite aussi la création d’un duplicate content en empêchant les spiders de passer sur des pages au contenu identique. Cette maitrise de l’indexation n’est pas à prendre à la légère puisqu’elle est d’une importance capitale dans votre stratégie SEO.

 

Les limites du fichier robots.txt

Avant de créer un fichier robots.txt, vous devez évaluer les risques liés à l’utilisation de cette méthode de blocage d’URL. Vous saurez ainsi si le fichier est la solution idéale pour assurer la protection de vos URL sur le web. Tout d’abord, gardez à l’esprit que les instructions que vous mettez dans vos fichiers robots.txt ne sont pas des règles, mais de simples consignes.

En d’autres termes, les robots d’explorations peuvent ne pas les suivre.

Si Googlebot et autres spiders sérieux respectent les instructions que vous mettez dans vos fichiers robots.txt, d’autres peuvent les contourner. Si vous désirez protéger les informations délicates et éviter leur récupération par les robots d’exploration, il est conseillé d’utiliser, en plus, d’autres méthodes de blocage comme la protection par mot de passe des fichiers privés installés sur votre serveur, par exemple.

 

Pour en savoir plus : cette vidéo du référenceur Olivier Andrieu (Abondance)

 

Mettre en place un fichier robots.txt sur son site

 

Apprenez la syntaxe du fichier robots.txt

Quand vous établissez un fichier robots.txt, vous devez entrer des mots clés pour transmettre les consignes aux spiders des moteurs de recherche. Sur les versions de fichiers robots.txt les plus simples, les mots clés à utiliser sont le disallow et l’user-agent. L’user-agent est en fait un robot de moteur de recherche ou d’exploration. La plupart d’entre eux sont répertoriés dans la base de données des robots d’exploration.

Le disallow, lui, est une commande qui demande à l’user-agent de ne pas se rendre sur une URL en particulier. Si vous désirez qu’une URL particulière appartenant à un répertoire parent non autorisé soit repérable par les robots d’indexation des moteurs de recherche, vous pouvez utiliser un autre mot clé, l’Allow, dans votre fichier robots.txt.

 

Utilisez les bonnes commandes

Utiliser les bonnes commandes est indispensable pour vous assurer que la commande d’exclusion concerne réellement les pages et les contenus que vous désirez cibler. Si vous désirez bloquer l’accès à l’ensemble de votre site, vous devez mettre une barre oblique (/) après Disallow.

Si vous souhaitez qu’un répertoire et son contenu soient bloqués, vous devez insérer la barre oblique après le nom du répertoire. Pour bloquer une page web, il faut mettre le nom de la page juste après la barre oblique. Ce ne sont là que quelques exemples des commandes que vous devez maitriser pour pouvoir créer un robots.txt à la hauteur de vos exigences.

 

Respectez les règles de correspondance de format

Respecter les règles de correspondance de format est nécessaire pour optimiser le code inscrit sur votre fichier robots.txt. Si vous désirez bloquer une séquence de caractères, vous devez utiliser un astérisque (*). Ainsi, si vous désirez que le code d’exclusion bloque l’accès à tous les sous-répertoires commençant par le mot « private », vous devez mettre l’astérisque après le mot private. Pour bloquer l’accès aux URL incluant un point d’interrogation, vous devez insérer un point d’interrogation (?) à votre code.

 

Testez votre fichier robots.txt

Pour vous assurer que votre fichier robots.txt est conforme à vos aspirations, vous pouvez le tester via le Google search console. L’outil de test de fichier robots.txt qui y est mis à votre disposition vous indique si votre fichier empêche les robots d’indexation du moteur de recherche d’explorer certaines URL de votre site.

L’utilisation de ce testeur est relativement simple puisqu’il vous suffit d’entrer l’URL que vous avez désiré bloquer. L’outil parcourt votre URL comme les robots d’indexation le font habituellement. Il vous indique ensuite si l’accès lui a été refusé ou non.

 

Soumettez votre fichier au moteur de recherche

Une fois que vous avez fini de créer votre fichier robots.txt, vous devez le soumettre au moteur de recherche. Pour que les robots d’exploration puissent trouver et identifier votre fichier robots.txt, il est important d’appliquer les conventions d’enregistrement indiquées par les moteurs de recherche. Il faut enregistrer le code de fichier robots.txt sur un fichier texte et placer ce dernier à la racine de votre domaine. Vous devez aussi nommer le fichier robots.txt.

Notez-le : alors que le testeur de fichier robots.txt a disparu de la Search Console, Bing lui donne une nouvelle vie via son outil Webmaster Tools.

PrécédentExistent-ils différents fichiers sitemaps ?12/18/2017
A quoi sert le fichier Robots.txt ?12/18/2017Suivant
Recevez notre newsletter
Catégories
  • Blog
    • Actualités
    • Infographies
    • SEA
    • SEO
    • Social Media
    • Webmarketing
  • Nos Contenus
    • Études de cas
      • E-commerce
      • E-services
      • E-tourisme
      • Institutionnel
    • Livres Blancs
    • Podcasts
    • Webinars
  • Nos FAQ
Nos références
Brioude Internet

Notre agence familiale et indépendante, fondée en 1998, accompagne ses clients PME et Grands Comptes dans leur stratégie de Marketing Digital.

Contact

Paris : 9 rue Weber, 75116

Lyon : 53 Rue Président Kruger, 69008 Lyon

Brioude : 30 Route de Clermont, 43100 Cohade

Tel : +0471500354

Glossaire

Liens

Presse

RGPD

Big Success

Agence SEO Lyon

Agence SEO Paris

HAWork-19
Brioude Internet Google Partner Premium

Mentions légales | Propulsé par WPEngine

Copyright © 1998-2020 Brioude Internet. Tous droits réservés.

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site web. Si vous continuez à utiliser ce site, nous supposerons que vous en êtes satisfait.OkNonPolitique de confidentialité