Retrouvez ici chaque mois un descriptif des articles de la lettre professionnelle Recherche et Référencement du site Abondance...
Google, Caffeine et l'évolution des robots d'exploration
Qu'on les appelle "robots", "spiders", "bots" ou "crawlers", les logiciels capables d'explorer les sites web pour mettre à jour leurs index ont toujours été utilisés par les moteurs de recherche. Mais les techniques ont changé depui sbientôt 20 ans. Entre les "traitements par lots" du début et le système mis en place par Google pour sa dernière mise à jour d'indexation Caffeine, il y a un monde que cet article se propose de vous faire découvrir. De quoi apporter quelques solutions aux webmasters qui ont connu quelques soucis d'indexation de leurs pages dans Gogle ces derniers mois... Cet article fait partie de la Lettre Recherche et Référencement #118 du mois de septembre 2010
Début de l'article : Les robots d'exploration des moteurs de recherche, que l'on appelle plus volontiers "crawlers", "spiders" ou "bots" sont l'un des composants-clé des moteurs de recherche. Malgré leur simplicité conceptuelle, la mise en œuvre des robots d'exploration de haute performance représente un défi d'ingénierie d'envergure en raison de la taille gigantesque du Web, et de l'évolution toujours plus rapide des pages. Afin d'explorer une fraction substantielle du Web dans un laps de temps raisonnable, les robots d'exploration doivent télécharger des milliers de pages par seconde, et sont généralement répartis sur des dizaines ou des centaines d'ordinateurs. Leurs deux principales structures de données - la "frontière" (liste d'URL non encore explorées) et l'ensemble des URL déjà découverts - sont trop importantes pour entrer dans la mémoire principale, quels que soient les astuces trouvées pour "compresser" les URL et les données. La volonté de donner la priorité de l'exploration vers des pages de haute qualité et de préserver la fraîcheur de l'index impose des défis d'ingénierie supplémentaires. Enfin, à ces défis techniques s'ajoute une contrainte : celle de rester "poli" envers les serveurs web, c'est à dire d'éviter de perturber et/ou de surcharger ceux-ci. Dans le même temps, la course à la fraîcheur et à la rapidité est lancée dans le petit monde des moteurs de recherche : après la recherche "temps réel", on parle maintenant de recherche "instantanée". Dans cet article, nous allons nous intéresser à la manière dont Google semble intégrer cette contrainte de "politesse" dans sa manière de crawler nos sites webs, et nous demander quelles évolutions Caffeine a réellement apporté dans les méthodes de crawl de Google ? La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance... Plus d'infos pour les abonnés : Taille de l'article : 9 pages (format A4 Word) Auteur : Philippe Yonnet, Global SEO Strategist, WEB DMUK (Londres) – Easyroommate / Vivastreet. Formats disponibles : Word, PDF, HTML Date de parution : 15 septembre 2010 Télécharger l'article au format PDF : http://abonnes.abondance.com/archives/2010-09/ Sommaire de la lettre R&R de septembre 2010 : http://abonnes.abondance.com/archives/2010-09/ Accès à la zone "Abonnés" du site Abondance.com : http://abonnes.abondance.com/ Plus d'infos pour les non-abonnés : Comment s'abonner à la lettre R&R ? : http://commande.abondance.com/ Sommaire de la lettre R&R de septembre 2010 : http://lettres.abondance.com/sommaire-RR-092010.html Tous les articles de l'année 2010 : http://lettres.abondance.com/articles-rechref-2010.html Sélection des meilleurs articles des derniers mois : : http://www.abondance.com/article-abonnes.html 0 Commentaires:<< Accueil |
![]()
Lettres d'actualité
Messages précédentsArchives
|
| Un site du Réseau Abondance (english version : Search Engine Tools) : |
|
Information :
Abondance -
Forums Abondance -
Baromètre Référencement -
Boutique Abondance -
Livre Référencement -
Livre Google Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic Divers / Jeux : Googlefight - Habitants - Googland - Grifil.com Moteurs de recherche : Mozbot.fr - Mozbot.com - Mozbot.co.uk - Goossip - Motref - Rugby engine - Grifil.net - Biomalin - Foot Engine - SearchWings |
| Applicatifs du site Abondance réalisés par les sociétés Brioude Internet Référencement et Iseom |