Comment fonctionne un moteur de recherche ? (5ème partie : l'analyse de la requête)

   
(English version - machine translation)


 

Un moteur de recherche comme Google ou Bing est loin d'être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l'addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l'internaute qui l'utilise les résultats les plus pertinents. Cette série d'articles vous explique donc quelles sont les différentes briques d'un moteur et vous dévoile les arcanes qui constituent leurs entrailles. Après nos précédents articles sur les technologies de crawl, l'index inversé, le duplicate content, le PageRank thématique et la pertinence, nous abordons ce mois-ci la notion d'analyse et d'éventuelle reformulation de la requête de l'internaute. Comment le moteur prend-il en compte les mots clés tapés par ses utilisateurs et quels sont les traitements effectués pour mieux comprendre leur intention de recherche ? Explications...

Début de l'article :

Ce mois-ci, nous allons voir une étape particulièrement importante, à tel point qu’on pourrait la qualifier de cruciale, du fonctionnement d’un moteur de recherche : il s’agit de l’analyse et la modification de la requête. En effet la requête “brute” fournie par l’utilisateur est souvent insuffisante pour qu’un moteur puisse répondre de manière pertinente et rapide.
Nous allons voir qu’une requête est “travaillée” de différentes manières et qu’un certain nombres de pré-calculs sont effectués par le moteur de recherche pour pouvoir répondre en temps réel ou presque aux demandes des internautes utilisateurs.

Lorsqu’on évoque différents “travaux” sur une même requête, c’est surtout parce que la notion de requête intervient à plusieurs moments de la vie du moteur de recherche. Tout d’abord, la requête a un impact sur la popularité des pages à travers la notion de PageRank thématique. Pour mesurer cet impact, il faut avoir une idée de la catégorisation thématique de chaque requête.

Ensuite, la requête est associée à un certain nombre de signaux de pertinence, car il faut aller au-delà du cosinus de Salton ou de BM25 pour obtenir des résultats de qualité suffisante.

Enfin, pour mieux comprendre la requête, le moteur va tantôt l’étendre, tantôt la reformuler, voire faire les deux opérations, et cette reformulation aura un impact sur une partie des signaux précédemment définis. Nous y reviendrons plus tard, mais ces “travaux” sont nécessaires au moteur pour fournir des SERP de qualité en partie à cause de la brièveté des requêtes qui rend difficile leur compréhension pour le moteur.

La catégorisation de la requête

Nous avions évoqué dans la lettre d’Abondance du mois de mars dernier le concept de PageRank thématique mis au point par Taher Haveliwala (voir la référence [1] pour plus d’information). Cet algorithme a pour but d’affiner la notion de popularité pour améliorer la qualité des SERP proposées.

La figure 1 ci-dessous résume le fonctionnement de ce PageRank thématique. Sur le visuel, on peut observer que la requête, ici “jaguar”, se voit attribuer des pourcentages d’adéquation thématique : 70% à la thématique “animaux” et 30% à la thématique “auto”. Cette attribution permet au moteur de mieux classer les pages en réalisant une forme de filtrage favorisant les pages portant sur les thématiques les plus en adéquation avec la requête.
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteurs : Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Formats disponibles : HTML
Date de parution : 15 mai 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de Mai 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings