Comment fonctionne un moteur de recherche ? (2ème partie : index inversé et duplicate content)

   
(English version - machine translation)


 

Un moteur de recherche comme Google ou Bing est loin d'être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l'addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l'internaute qui l'utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d'articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d'un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Après le fonctionnement et les technologies de crawl le mois dernier, nous abordons ici le système d'index inversé du moteur et les différentes façons d'évaluer le contenu dupliqué sur le Web...

Début de l'article :

Ce mois-ci, nous poursuivons notre cycle sur le fonctionnement des moteurs de recherche par un article qui introduit la notion d’index, et qui déborde sur le concept de duplication de contenu.

Le mois dernier nous avions vu ce qu’était un crawler, et nous avons également analysé le schéma global du fonctionnement d’un moteur de recherche. Vous savez donc déjà que l’objectif du crawl est de rassembler les données contenues dans les pages web, en distinguant le contenu à proprement parler de la structure du web impulsée par les liens hypertextes entre les pages.

Cet index est littéralement le nerf de la guerre pour les moteurs puisque tous les résultats proposés sont issus des contenus indexés, avec un classement qui est modulé principalement grâce à l’index des liens (via un calcul de type PageRank).

L’index contient donc deux types d’information : une information structurelle qui décrit les liens entre les pages web (le graphe du web, limité aux pages de l’index), et une information de contenu des pages.

Comment est stocké le contenu textuel ?

La façon dont le moteur de recherche stocke le contenu textuel est bien entendu lié à des choix techniques spécifiques. Parfois, un champ de base de données sera défini comme binaire, afin qu’il soit plus rapide à traiter qu’un champ de type textuel pur. Mais sans entrer dans de telles considérations pratiques, qui sont bien sûr essentielles mais conceptuellement peu déterminantes, on peut saisir l’essence, et surtout l’enjeu du stockage des contenus textuels.

Lorsque le crawler découvre une page, le contenu de cette dernière est récupéré et stocké dans une base de données. Le moteur sait ainsi qu’il a dans son index une page “page 1” qui contient un texte égal au contenu présent sur la page lorsque le crawler l'a récupérée (les mises à jour régulières sont un autre enjeu).

Mais, si on réfléchit à l’enjeu principal du moteur de recherche qui est de pouvoir répondre rapidement à la requête d’un utilisateur, on pressent qu’il y a un problème avec une telle structure. En effet, l’exemple de l’internaute cherchant la requête “moteur” met en exergue ce souci : récupérant la requête, le moteur de recherche doit trouver un ensemble de pages susceptibles d’intéresser l’internaute. Imaginons, pour simplifier les choses, que les bonnes pages sont celles qui contiennent le mot “moteur” (ce serait un processus d’analyse bien basique, et nous verrons en détails dans les prochains mois que c’est effectivement plus complexe que cela).

Fig. 1. Stockage « basique » en base de données.

Le moteur de recherche, pour trouver les pages adéquates dans son index, doit prendre chaque page une par une, puis regarder si dans le contenu associé, le mot “moteur” est présent… un index de 10 pages implique donc d’interroger 10 enregistrements de la base, tandis qu’un index de 30 mille milliards de pages implique d’interroger 30 mille milliards d’enregistrements. Même en supposant que récupérer un enregistrement ne nécessite qu’une fraction de seconde, on se rend bien compte que le retour vers l’utilisateur demanderait vraiment beaucoup - trop - de temps. Dès lors, le stockage des contenus textuels ne peut être fait uniquement de cette façon.

...
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteurs : Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Formats disponibles : HTML
Date de parution : 15 février 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de Février 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings