Octobre 2009 > Web-scraping : le Web vu comme un service

   
(English version - machine translation)


 
Résumé de l'article :

Les techniques de Web-scraping permettent de récupérer, de "piocher", de traiter et d'archiver le contenu ou une partie d'une page web. Le plus souvent pour se tenir au courant des modifications survenues en son sein, mais de nombreuses autres utilisations sont possibles. Ces différents outils sont indispensables à une veille au quotidien. Il en existe beaucoup sur le Web et nous avons décidé de vous en présenter trois, au travers d'exemples détaillés. Lorsqu'elles sont bien utilisées, ces différentes applications s'avèrent redoutables, et constitueront vite une aide précieuse, pour vous tenir au courant du moindre changement sur les sites web que vous surveillez...



Début de l'article :


Avant de commencer cet article, rappelons tout d'abord que les programmes de Web-scraping ont pour but de récupérer et archiver le contenu (ou partie) d'une page web en vue de réutiliser son contenu ou de mettre en évidence les changements intervenus. L'utilité de ce genre de programmes est triple :
- Archiver les pages en vue d'en conserver un historique (à la manière des "Wayback Machine") ;
- Etre prévenu d'un changement alors même qu'aucune alerte n'est générée nativement par le site ou que le type d'alertes qui est utilisé ne convient pas à vos besoins ;
- Filtrer le contenu qui est récupéré de façon à améliorer la lisibilité et l'efficacité de votre système de veille et d'alerte.

Les programmes de Web-scraping sont aussi capables de récupérer les données de toutes sortes de documents (DOC, PDF, etc.) ou des formulaires (en mode GET ou POST avec des identifiants de session dynamiques ou non).

Quelles sont les applications possibles ?
- Etre tenu au courant des modifications (prix, gamme de produits, informations-clés) intervenues sur les sites de vos concurrents ;
- Suivre de manière précise les changements qui ont marqué les marchés que vous occupez ;
- Gérer des systèmes d'alertes élaborés dans le cadre d'une stratégie de veille ou d'intelligence économique...


La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 15 pages (format A4 Word)
Auteur : Jean-Noël Anderruthy, webmaster spécialisé dans les technologies Google (http://googlexxl.blogspot.com/).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 octobre 2009

Télécharger l'article au format PDF :
http://abonnes.abondance.com/archives/2009-10/

Sommaire de la lettre R&R d'octobre 2009 :
http://abonnes.abondance.com/archives/2009-10/

Accès à la zone "Abonnés" du site Abondance.com :
http://abonnes.abondance.com/


Plus d'infos pour les non-abonnés :


Comment s'abonner à la lettre R&R ? :
http://commande.abondance.com/

Sommaire de la lettre R&R d'octobre 2009 :
http://lettres.abondance.com/sommaire-RR-102009.html

Tous les articles de l'année 2009 :
http://lettres.abondance.com/articles-rechref-2009.html

Sélection des meilleurs articles des derniers mois : :
http://www.abondance.com/article-abonnes.html

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings