Google, Caffeine et l'évolution des robots d'exploration

   
(English version - machine translation)


 
Qu'on les appelle "robots", "spiders", "bots" ou "crawlers", les logiciels capables d'explorer les sites web pour mettre à jour leurs index ont toujours été utilisés par les moteurs de recherche. Mais les techniques ont changé depui sbientôt 20 ans. Entre les "traitements par lots" du début et le système mis en place par Google pour sa dernière mise à jour d'indexation Caffeine, il y a un monde que cet article se propose de vous faire découvrir. De quoi apporter quelques solutions aux webmasters qui ont connu quelques soucis d'indexation de leurs pages dans Gogle ces derniers mois...

Cet article fait partie de la Lettre Recherche et Référencement #118 du mois de septembre 2010



Début de l'article :

Les robots d'exploration des moteurs de recherche, que l'on appelle plus volontiers "crawlers", "spiders" ou "bots" sont l'un des composants-clé des moteurs de recherche. Malgré leur simplicité conceptuelle, la mise en œuvre des robots d'exploration de haute performance représente un défi d'ingénierie d'envergure en raison de la taille gigantesque du Web, et de l'évolution toujours plus rapide des pages.

Afin d'explorer une fraction substantielle du Web dans un laps de temps raisonnable, les robots d'exploration doivent télécharger des milliers de pages par seconde, et sont généralement répartis sur des dizaines ou des centaines d'ordinateurs. Leurs deux principales structures de données - la "frontière" (liste d'URL non encore explorées) et l'ensemble des URL déjà découverts - sont trop importantes pour entrer dans la mémoire principale, quels que soient les astuces trouvées pour "compresser" les URL et les données. La volonté de donner la priorité de l'exploration vers des pages de haute qualité et de préserver la fraîcheur de l'index impose des défis d'ingénierie supplémentaires.

Enfin, à ces défis techniques s'ajoute une contrainte : celle de rester "poli" envers les serveurs web, c'est à dire d'éviter de perturber et/ou de surcharger ceux-ci.

Dans le même temps, la course à la fraîcheur et à la rapidité est lancée dans le petit monde des moteurs de recherche : après la recherche "temps réel", on parle maintenant de recherche "instantanée".

Dans cet article, nous allons nous intéresser à la manière dont Google semble intégrer cette contrainte de "politesse" dans sa manière de crawler nos sites webs, et nous demander quelles évolutions Caffeine a réellement apporté dans les méthodes de crawl de Google ?


La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 9 pages (format A4 Word)
Auteur : Philippe Yonnet, Global SEO Strategist, WEB DMUK (Londres) – Easyroommate / Vivastreet.

Formats disponibles : Word, PDF, HTML
Date de parution : 15 septembre 2010

Télécharger l'article au format PDF :
http://abonnes.abondance.com/archives/2010-09/

Sommaire de la lettre R&R de septembre 2010 :
http://abonnes.abondance.com/archives/2010-09/

Accès à la zone "Abonnés" du site Abondance.com :
http://abonnes.abondance.com/


Plus d'infos pour les non-abonnés :


Comment s'abonner à la lettre R&R ? :
http://commande.abondance.com/

Sommaire de la lettre R&R de septembre 2010 :
http://lettres.abondance.com/sommaire-RR-092010.html

Tous les articles de l'année 2010 :
http://lettres.abondance.com/articles-rechref-2010.html

Sélection des meilleurs articles des derniers mois : :
http://www.abondance.com/article-abonnes.html

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings