Comment les moteurs de recherche détectent-ils le contenu dupliqué ?

   
(English version - machine translation)


 

L'un des grands défis qu'ont à relever les moteurs de recherche actuels est la détection du "duplicate content", très présent sur le Web (selon plusieurs études, 30 à 40% du Web serait dupliqué). Pour arriver à leurs fins, ces moteurs doivent donc mettre en place des méthodes efficaces sans consommer trop de ressources techniques. Voici l'une d'entre elles, couramment utilisée à l'heure actuelle...



Cet article fait partie de la Lettre Recherche et Référencement #154 du mois de décembre 2013



Début de l'article :



Pour un moteur de recherche comme Google, être capable de détecter les copies multiples d’un même contenu est une tâche très importante. En effet, d’après Fetterly, Manasse et Najork (Dennis Fetterly, Mark Manasse, Marc Najork: On the Evolution of Clusters of Near-Duplicate Web Pages. LA-WEB 2003: 37-45), environ 30% du web est redondant, c’est-à-dire composé de pages web qui contiennent un contenu déjà présent, au moins en partie, dans une autre page. D’autres sources vont même jusqu’au chiffre de 40% (Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introduction to information retrieval. Cambridge University Press 2008, ISBN 978-0-521-86571-5, pp. I-XXI, 1-482).

Les raisons de la duplication de contenu sont diverses. Et la plupart sont d’ailleurs tout à fait légitimes. Il existe des miroirs de sites web (pages de man par exemple – i.e. des pages présentant des extraits du manuel des commandes unix), des contenus qui existent en divers formats (HTML, PDF, etc.), des textes « canoniques » (mentions légales, contrats, licences logicielles, etc.), des actualités reprises depuis l’AFP ou Reuters, etc.

On retrouve ensuite du contenu dupliqué pour de moins bonnes raisons : par exemple à cause d’erreur de développement (même contenu accessible aux travers de plusieurs URL), mais surtout par malice, lorsqu’un black hat souhaite générer rapidement un site web, et va pour cela le remplir d’un contenu repris ailleurs…

On peut avancer trois raisons qui vont pousser un moteur de recherche à détecter le contenu dupliqué :
- La réduction de la taille de l’index. En n’indexant pas le contenu dupliqué, le moteur fait des économies au niveau de ses dépenses en espace de stockage.
- Le nettoyage des SERP. Ce qui compte pour l’utilisateur, c’est d’accéder au contenu. Si un contenu est disponible sur 24 pages web via le moteur de recherche, c’est 23 de trop ! Les places sont chères, le moteur a intérêt à présenter à l’internaute des pages variées.
- La priorisation du crawl. Il n’est pas utile de crawler plusieurs fois le même contenu. En détectant le duplicate, le moteur fait des économies en envoyant ses robots aux endroits où l’information est inédite.

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 4 pages (format A4 Word)
Auteur : Sylvain Peyronnet, Professeur des Universités à l'Université de Caen Basse-Normandie (http://sylvain.berbiqui.org/) et Guillaume Peyronnet, gérant de Nalrem Médias (http://www.gpeyronnet.fr/nalrem-medias.html).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 décembre 2013

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de décembre 2013

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :


- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de décembre 2013

- Tous les articles de l'année 2013

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings