Comment fonctionne un moteur de recherche ? (1ère partie)

   
(English version - machine translation)


 

Un moteur de recherche comme Google ou Bing est loin d'être un système simple pouvant être expliqué en quelques lignes. Il est au contrainte l'addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l'internaute qui l'utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d'articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d'un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Ce mois-ci, nous détaillerons les différentes étapes de fonctionnement et les technologies de crawl...

Début de l'article :

Même si les moteurs de recherche sont relativement récents (on peut raisonnablement dire qu’ils remontent au début des années 90), les concepts qui les sous-tendent sont bien plus anciens (l’après-guerre pour les idées de structuration de l’information, les années 30 pour les outils de théorie des graphes, les années 60-70 pour la recherche d’information, etc.). Ces concepts ont beau être assez anciens, ils sont finalement assez peu connus des référenceurs de métier. Le but de la série d’articles qui commence avec celui que vous êtes en train de lire aujourd'hui est de vous présenter de A à Z ce qu’est un moteur de recherche et les concepts algorithmiques qui se cachent derrière les interfaces épurées que l’on a l’habitude de manipuler.

Ce mois-ci, nous allons commencer du début, par les choses les plus basiques, depuis la définition même de ce qu’est un moteur de recherche jusqu’à la toute première brique technique, qui a pour but essentiellement de récolter l’information. Nous n’aborderons jamais les détails les plus techniques, car ils ne sont pas utiles à la compréhension générale, et nous renvoyons ainsi les lecteurs intéressés par ces derniers vers le livre An introduction to information retrieval [1], référence du domaine, ou Recherche d'information : applications, modèles et algorithmes [2], qui est en Français.

Qu’est ce qu’un moteur de recherche ?

Avant de définir ce qu’est un moteur de recherche, il est pertinent de définir ce qu’est l’objet analysé par ces derniers : le Web. Le Web, pour dire les choses littéralement, est un système de navigation permettant de se mouvoir dans l’information, construit au dessus d’Internet. L’information est contenue dans des pages web (regroupées au sein de sites web) et on peut naviguer d’une page à une autre en suivant un lien hypertexte (traditionnellement un texte de couleur bleue, souligné). Pour les yeux de l’algorithmicien, le Web est donc un graphe orienté dont les nœux sont les pages web, et les arcs sont les liens qui permettent de naviguer d’une page à une autre. Cette structure du Web sous forme d’un graphe est très importante, puisqu’elle est à la base du calcul d’importance des pages qui a rendu Google si populaire : le PageRank (que nous aborderons en détails dans un prochain article).

Maintenant que la définition de ce qu’est le Web a été faite, on peut parler de moteur de recherche. Un moteur de recherche est tout simplement un site web (ou une application sur smartphone, ou une API, etc.) dont l’objectif est de renvoyer des résultats pertinents pour la requête saisie par l’utilisateur (par exemple, si un internaute fait une recherche cherchant à trouver un appartement, le moteur de recherche aura certainement bien fait son travail si les résultats font apparaître des biens actuellement en vente).

C’est bien évidemment à ce moment-là que les choses se compliquent : qu’est ce qu’un résultat pertinent ? qu’est ce qu’une requête ? ...
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteur : Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Formats disponibles : HTML
Date de parution : 15 janvier 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de Janvier 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings