Partie 3. Chapitre 3. Point 1

Le Duplicate Content

 

Le duplicate content ou contenu dupliqué est un contenu similaire qui se retrouve sur deux url distinctes, que se soit des pages d’un même site internet (duplicate content interne) ou des pages d’un site internet à l’autre (duplicate content externe). Le duplicate content est une pratique sanctionnée par Google. Elle peut prendre différentes formes et émaner de différentes causes. Tour d’horizon dans cet article, avec à chaque fois les solutions à mettre en place.

 

Le Duplicate Content externe : j’ai copié collé du contenu présent ailleurs sur le web

Pour pouvoir se positionner sur le web et bénéficier au passage d’importants trafics, il peut être tentant de copier/coller des contenus de qualité depuis d’autres sites. Si cette pratique est fréquente, elle n’est pas pour autant sans conséquence. En effet, le Duplicate Content se définit par deux URL différentes (ou davantage) proposant des contenus similaires.

Et peu importe sa forme, le plagiat reste sanctionné par les moteurs de recherche.

Chaque fois qu’un contenu est dupliqué, les moteurs de recherche vont analyser l’article pour distinguer l’original des copies. Ils vont, par la suite, déterminer le contenu qui va hériter des pénalités en matière d’indexation et de positionnement.

Les contenus dupliqués nuisent à la pertinence des moteurs de recherche.

Ces derniers n’ont pas intérêt à afficher deux ou plusieurs pages identiques – et par conséquent, redondantes pour les Internautes – dans leurs pages de résultat.

C’est la raison pour laquelle les sanctions attribuées aux pages dupliquées concernent principalement le référencement naturel.

Au pire des cas, les pénalités appliquées au copier-coller se traduisent par la désindexation de la page. En pratique, les moteurs de recherche vont supprimer la page, voire le site, de leurs résultats. Si cette sanction est la plus lourde possible, elle ne s’applique généralement qu’aux sites qui recopient volontairement des contenus bien rédigés pour promouvoir des pages remplies de publicité. Si le but est de se positionner sur d’importants trafics, le vol de contenu de ce type est rapidement détecté et sanctionné par les moteurs de recherche.

 

Le duplicate content externe : mes descriptifs apparaissent sur d’autres sites

Si le Duplicate Content est éthiquement répréhensible, l’exception concerne les sites qui vendent des produits spécifiques et qui choisissent de renseigner les descriptifs de leurs fournisseurs dans leurs fiches produits. Cela concerne également les sites de tourisme qui exploitent les mêmes bases d’information et qui, par conséquent, publient des contenus similaires.

Que l’information reprise soit des données techniques ou des articles de référence, le Duplicate Content doit faire l’objet d’une demande d’autorisation préalable auprès de l’auteur du texte.

Avant de renseigner votre catalogue produit, il est alors essentiel de faire une demande de reproduction du contenu auprès de votre fournisseur, même si vous envisagez de mettre en vente ses propres produits. Cela vous évitera, en effet, une désindexation de la part des moteurs de recherche. La demande de duplication de contenu ouvre à un droit de reproduction.

L’idée n’est pas simplement de mentionner le lien de la source en bas de page.

Pour que le copier/coller d’une fiche technique ne porte pas préjudice à votre site et à celui de votre fournisseur, la mise en place d’une procédure technique stricte est essentielle. Cela consiste notamment à mettre en place une balise canonique destinée à indiquer l’URL de la page d’origine. La balise Author est également efficace pour permettre à Google d’identifier l’auteur de l’article principal sur la base d’une adresse email, ou d’un lien vers le site canonique.

Si plusieurs sites reprennent le contenu d’un même descriptif produit, les textes en doublon peuvent conduire à un mauvais positionnement de la page dupliquée et nuisent a posteriori à la notoriété du site.

Pour améliorer le référencement de vos pages, il est alors préférable de rédiger des contenus utiles, uniques et complets au lieu de reprendre à l’identique les descriptifs produits proposés par les concurrents.

Gage de qualité d’un référencement naturel, la publication d’un contenu original orienté vers les attentes de l’Internaute optimise l’audience et la visibilité.

A voir aussi sur le sujet : l’avis du référenceur Olivier Andrieu.

 

Le Duplicate Content interne : j’ai copié-collé du contenu d’une page à l’autre sur mon site

Le Duplicate Content interne consiste à publier en doublon deux ou plusieurs pages d’un même site. Par gain de temps, nombreux sont, en effet, ceux qui rédigent un premier contenu de qualité, pour pouvoir ensuite le reprendre à l’identique sur d’autres pages. Cette pratique est très fréquente en e-commerce. Bien entendu, il se peut que la duplication de contenus ne soit pas systématiquement volontaire. Dans certains cas, plusieurs URL redirigeant vers une même page peuvent être générées de manière dynamique. Ces contenus dupliqués sont généralement causés par des détails techniques ignorés lors du développement ou de la programmation web (voir plus bas).

Qu’elles soient voulues ou non, les pages similaires dans un site nuisent au référencement.

Par souci de pertinence, Google choisit, en effet, d’afficher dans ses résultats une seule page à la fois. Décliner le même contenu sur plusieurs pages dans le but de capter plus de trafic est un risque pour finalement n’en positionner aucune d’entre elles.

La visite des crawlers est, par ailleurs, limitée à un nombre défini de données en fonction du PageRank du site et de la bande passante disponible.

La duplication interne de contenu est alors un frein à la visite des robots de Google. Au lieu d’indexer des pages à valeur ajoutée, les moteurs de recherche vont se focaliser sur les contenus identiques. Les nouvelles pages, ainsi que les contenus de meilleure qualité seront crawlés tardivement, voire ignorés par les robots.

La duplication des contenus en interne affecte enfin la popularité du site. En effet, les backlinks reçus seront éparpillés entre les différentes pages dupliquées, au lieu d’être concentrés sur une même URL. Et surtout, l’expérience client peut être altérée, étant donné que les utilisateurs seront confrontés à différentes pages inutilement complexes avec des contenus sans réelle valeur. Par conséquent, dupliquer vos fiches produits risque de décroître les performances de votre site et en affecte le référencement.

Là encore, il faut faire l’effort de minimiser le nombre de page au contenu similaire et de rédiger des contenus uniques pour chaque page.

 

Le Duplicate Content interne : j’ai plusieurs pages dont le contenu est très similaire

Dans le cas, par exemple, où un de vos produits se décline dans différentes couleurs et qu’il soit impossible pour vous de créer un contenu spécifique et unique pour chaque variante, dupliquer les contenus sur différentes pages n’est pas obligatoire.

Sur CMS, il est possible de proposer les variantes sur une même fiche produit, sans devoir créer une page pour chacune d’entre elles.

Il suffit, par exemple, d’afficher les couleurs disponibles depuis une liste déroulante. Vous pouvez aussi mettre des cases à cocher ou des icônes pour présenter les variantes possibles. Ainsi, il n’y aura qu’une seule fiche définissant tous les éléments caractéristiques de votre produit sur une seule et même page, les variantes y compris.

 

Les cas de Duplicate Content dans les balises

Bien souvent, des balises sont générées en doublon suite à la création d’une nouvelle URL. Et pour cause, une page peut être accessible depuis différentes URL à la fois. Tel est le cas des pages produit des sites e-commerce. Des variantes de couleur ou de taille peuvent être à l’origine de balises dupliquées. Il en est de même pour les produits accessibles ou répertoriés dans différentes catégories à la fois, ainsi que dans les cas de réécriture d’URL.

Des URL dynamiques peuvent, par ailleurs, être générées par la fonction de tri de produit. Sur un site e-commerce, il se peut que le webmaster permet un tri des produits par ordre décroissant ou croissant, par nouveauté ou par ancienneté, par disponibilité ou par vente flash, etc.

Dans tous ces cas et bien d’autres encore, les balises vont se dupliquer à l’infini.

Les systèmes de pagination peuvent également être à l’origine de la duplication de contenus. Si 200 produits sont proposés, l’Internaute peut par exemple accéder à ces fiches en faisant des tris par 20, par 50 ou par 100. Si ces accès simplifient effectivement l’expérience de navigation de l’Internaute, ils multiplient au passage les balises dupliquées.

D’autres balises dupliquées proviennent, quant à elles, du tracking. Affiliation et flux RSS peuvent, en effet, influencer la création de nouvelles pages et donc de nouvelles balises. Il en est de même pour les cas d’identifiants de session, ainsi que les pages accessibles avec des paramètres optionnels précisés dans les URL.

En générant des pages différentes en fonction des paramètres pris en compte, le système de gestion de site (CMS) va également dupliquer les balises.

Pour ne pas freiner le référencement, la règle à retenir est d’allouer à chaque page une balise unique.

Certes, les moteurs de recherche ne vont pas radicalement supprimer les contenus dupliqués comme ils le feront dans le cas de vol de contenu. Cela étant, les chances de positionnement des pages dupliquées sont minimisées. En concentrant l’effort de référencement sur l’unicité des pages et des balises avant toute autre stratégie SEO ou SMO, il devient plus facile d’améliorer la visibilité des contenus publiés.

Pour anticiper le Duplicate Content, la mise en place d’une redirection 301 est recommandée. Il est également possible d’indiquer aux moteurs de recherche la page à indexer parmi d’autres, en spécifiant une URL canonique. Ainsi, les balises dupliquées ne seront pas prises en compte lors du traitement du contenu.

La mise en place de tags de type noindex et dofollow est aussi recommandée pour minimiser la dispersion des backlinks quand les balises sont dupliquées.

S’il est avantageux de diversifier les portes d’entrée vers votre site, il ne faut pas pour autant minimiser son référencement. Pour ce faire, il faut veiller à respecter la règle de base en référencement naturel, à savoir que chaque page indexée doit être unique. En veillant à l’unicité de vos contenus, vous pouvez allier l’accessibilité à la visibilité de votre site.

Découvrez Copyscape, un outil pour lutter contre le contenu dupliqué.