Scraping : Quel impact sur vos ressources, comment s'en protéger ?

   
(English version - machine translation)


 

Vous avez un site web et vous proposez donc en ligne un contenu qui représente une certaine valeur - financière ou autre - à vos yeux. Dans ce cas, il y a de fortes chances pour que d'autres personnes, plus ou moins bien intentionnées, mettent en place des procédures automatisées et des robots pour "scraper" (copier/coller) vos informations afin de les utiliser sans votre accord. Pourtant, il existe des méthodes pour éviter ce vol potentiel ou pour le surveiller, afin d'agir par la suite. En voici quelques-unes...

Début de l'article :

Introduction

Le web grandit et grossit à une vitesse incroyable, de plus en plus de services sont interconnectés via les API (Application Programming Interface), permettant de récupérer les données de manière standardisée. Que vous ayez besoin de récupérer des données web de manière innocente, légitime ou illégitime, il est encore dans de nombreux cas nécessaire de récupérer la donnée par ses propres moyens. : c’est à dire en scrapant.

Fig.1 Nombre de sites sur le Web. Source : http://www.internetlivestats.com.

Le scraping est vieux comme le Web et le seul moyen de récupérer une donnée depuis un autre site web (à la genèse du web tel que nous le connaissons) était de récupérer la page via un outil spécialisé ou simplement via son bon vieux navigateur en enregistrant la page sur son disque dur local.

Tous les outils nécessaires pour extraire et traiter la donnée étaient déjà présent : Curl, Xpath, … (Xpath 1.0 est une recommandation W3C depuis le 16 Novembre 1999, la première version de Curl date de 1997).

Les outils classiques pour contrôler le scrap sur son site (robots.txt, user agent) sont arrivés en même temps que le Web (1994 pour robots.txt et 1989 pour http).

Puis, rapidement, sont arrivés les "aspirateurs de sites" qui ne faisaient pas dans le détail et récupéraient tout un site de manière massive, comme Httrack (1998).

Les techniques ont ensuite peu évolué, et à part les sélecteurs CSS (une alternative à Xpath pour cibler précisément un contenu dans le document HTML) et les navigateurs interprétants le Javascript, il n’y a rien eu de neuf depuis 20 ans.

Les différentes techniques de scrap

On l'a vu, la récupération de données sur le Web peut se faire de manière très simple via son navigateur en visitant et enregistrant les pages qui contiennent les données désirées puis en passant ces pages simplement dans un traitement de texte pour récupérer les informations de façon plus précise. ...
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteur : Benoît Chevillot, Consultant SEO, DivioSeo (http://divioseo.fr/).

Formats disponibles : HTML
Date de parution : 13 octobre 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R d'Octobre 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings