Les crawlers, des outils indispensables pour le SEO (2ème partie)

   
(English version - machine translation)


 
Crawlers

On connait tous les robots Googlebot et Bingbot, utilisés par leur moteur de recherche respectif pour explorer des milliards de sites web chaque jour. Mais il existe également des outils qui simulent ces robots et vous donnent de nombreuses indications sur l'indexabilité de votre site web. Des systèmes qui sont devenus indispensables au fil du temps dans le cadre d'un audit SEO. Après la découverte des différents outils disponibles ainsi que leur utilisation "classique" le mois dernier, nous nous attaquons à des usages plus avancés dans cette seconde partie...

Début de l'article :

Le mois dernier, nous avons passé en revue les utilisations « classiques » des crawlers. Mais ces outils peuvent être utilisés pour des analyses plus avancées, qui s'avèrent particulièrement utiles pour le SEO.

L'analyse des problèmes de performance

La fréquence et l'intensité des crawls de Google peuvent être fortement influencées par les performances de votre site web. Nous ne parlons pas ici du « temps de rendition », celui qui est expérimenté par l'utilisateur dans son navigateur, qui dépend de multiples facteurs, mais uniquement du délai nécessaire entre une requête "http://" et la réception de l'intégralité du code d'une page ou fichier.

On observe couramment qu'au-delà d'une seconde de temps de téléchargement, les bots de Google commence à ignorer les pages d'un site, et a minima, les crawlent moins souvent.

Un exemple typique des phénomènes constatés : ici le temps de téléchargement moyen indiqué dans les Webmaster Tools explose d'un seul coup, pour atteindre les 4 sec. Immédiatement, le nombre de pages crawlées tombe de 51000 pages par jour à 350.

Dans la pratique, trouver les causes de ces mauvaises performances se révèle souvent problématique. En effet, les outils de mesure de performance peuvent ne pas détecter ces anomalies, car ils se basent souvent sur des scénarios d'utilisation du site qui correspondent à des comportements d'utilisateurs et non de robots d'exploration. Or ces derniers ont une fâcheuse tendance à :
- Appeler des pages qui ne sont pas en cache (tout simplement parce qu'ils sont les premiers à appeler ces pages depuis le moment où la page en cache est devenue obsolète).
- A déclencher massivement des requêtes lourdes à calculer (comme celles correspondant à des pages de pagination).
- A appeler des pages dans un ordre qui n'est pas forcément celui « imaginé » par le développeur.
- Etc.

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 7 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Associé MySEO, groupe MyMedia. Président de l'association SEO Camp (http://www.seo-camp.org/).

Formats disponibles : Word, PDF, HTML
Date de parution : 16 avril 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R d'avril 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R d'avril 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings