Les crawlers, des outils indispensables pour le SEO (1ère partie)

   
(English version - machine translation)


 

On connait tous les robots Googlebot et Bingbot, utilisés leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l'indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d'un audit SEO. Cet article en deux parties vous fera découvrir ces différents outils ce mois-ci ainsi que leur utilisation "classique", avant de s'attarder à des usages plus avancés le mois prochain...



Cet article fait partie de la Lettre Recherche et Référencement #157 du mois de mars 2014



Début de l'article :

CrawlersLes crawlers font partie de ces "briques" logicielles indispensables pour créer un moteur de recherche. La raison d'être de ces programmes est de permettre la découverte des pages et des documents publiés sur le web, et de les télécharger à fins d'indexation ou d'analyse. Au fil du temps, on les a affublés d'autres jolis noms anglais tout aussi imagés : harvesters (moissonneuses), spiders (araignées), bots (robots)…

Dans cette série de deux articles, nous allons passer en revue les raisons pour lesquelles les outils de type "crawler" sont indispensables dans la boîte à outils du référenceur. Le premier article sera consacré aux utilisations classiques des outils de crawl, et le second à des utilisations plus avancées…

Les moteurs de recherche explorent le web à l'aide de crawlers

Même si on peut trouver des exemples de moteurs de recherche qui, dans les premiers temps du web, ont référencé ou indexé des pages découvertes par "soumission" des webmasters, la règle pour les moteurs grand public consiste plutôt à utiliser un crawler pour découvrir les pages publiées sur le World Wide Web.

Le principe d'un crawler ou d'un spider qui fonctionne en mode exploration est le suivant :
1. On fournit une première URL au crawler.
2. Le crawler lance une requête http:// et télécharge le contenu de la page.
3. Le crawler analyse le contenu de la page, en extrait les informations utiles, et les stocke dans un entrepôt de données (data repository). Ces données sont ensuite retraitées pour créer le fameux "index" du moteur.
4. Parmi les données trouvées dans la page, figurent la mention d'autres URL dans le code HTML de la page (ou sous forme de liens hypertextes dans des PDF, des .doc Word…).
5. Ces liens sont placés dans une file d'attente.
6. Chaque lien fait à son tour l'objet d'une requête http://, le contenu de la page est téléchargé, analysé, de nouveaux liens sont découverts et ainsi (presque) à l'infini.

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 8 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Associé MySEO, groupe MyMedia. Président de l'association SEO Camp (http://www.seo-camp.org/).

Formats disponibles : Word, PDF, HTML
Date de parution : 17 mars 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de mars 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :


- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de mars 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings