Comment fonctionne un moteur de recherche ? (3ème partie : Popularité et PageRank)

   
(English version - machine translation)


 

Un moteur de recherche comme Google ou Bing est loin d'être un système simple pouvant être expliqué en quelques lignes. Il est au contraire l'addition de plusieurs technologies souvent assez complexes, lui permettant de renvoyer à l'internaute qui l'utilise les résultats les plus pertinents. Aussi, nous allons tenter, dans une série d'articles les plus pédagogiques possible, de vous expliquer quelles sont les différentes briques d'un moteur et de vous dévoiler les arcanes qui constituent leurs entrailles. Après nos précédents articles sur les technologies de crawl, l'index inversé et le duplicate content, nous abordons ce mois-ci un sujet souvent mal connu : la popularité, le PageRank mais également le PageRank thématique qui représente une forte évolution de ce concept...

Début de l'article :

Nous poursuivons notre cycle sur le fonctionnement des moteurs de recherche par cet article qui aborde ce mois-ci la notion d’importance des pages. Nous avons déjà vu que les moteurs de recherche stockent de manière différenciée l’information structurelle (les liens) et l’information de contenu (les textes des pages). Vous savez également que l’information structurelle va être utilisée principalement pour analyser l’importance des pages. En effet, lors de la construction des SERP pour une requête donnée, le moteur va prendre les pages les plus importantes parmi les plus pertinentes pour la requête et les renvoyer à l’utilisateur.

L’analyse de l’importance des pages peut se faire de différentes manières, mais l’algorithme le plus connu pour calculer le classement des pages en fonction de leur popularité supposée indépendamment de leur contenu, vous le connaissez puisqu’il s’agit du fameux PageRank. Cet algorithme qui fit la réussite de Google est décrit dans l’article The PageRank citation ranking: bringing order to the web.

Le PageRank, une vision de ce qu’est la popularité

Chez les référenceurs web, tout le monde est persuadé de savoir ce qu’est le PageRank, principalement parce que tout le monde a vu la formule “magique” qui relie valeur du PageRank et liens sortants des pages web. Mais la formule n’est rien de plus que le "moteur" technique, et elle ne dit pas grand chose de ce que c’est réellement.

Pour mieux comprendre, voyons ce qui se dit sur le PageRank... "C’est une mesure d’autorité" : cette affirmation n’est pas exacte, car le PageRank est plutôt une valeur de popularité. On fait ensuite un abus de langage en disant que si une page est populaire c’est parce qu’elle a une grande autorité. C’est souvent vrai, mais pas toujours.

Il se dit aussi que « le PageRank considère qu’un lien vers un site est un vote pour ce site ». Cette phrase est plutôt vraie, pour une raison que nous allons maintenant expliquer. Remontons le temps en 1998, date de la création de Google par Sergey Brin et Larry Page. L’objectif des moteurs était déjà de présenter aux utilisateurs des pages pertinentes pour leurs requêtes. Mais à cette époque les moteurs savaient seulement déterminer la pertinence d’une page pour une requête, sans être capable d’arbitrer quelle page choisir entre deux documents de pertinence égale. Or, cet arbitrage est crucial car il n’y a que dix places disponibles sur la première page de résultat.

L’idée de Larry Page (d’où le nom - assorti d'un jeu de mots - de PageRank) est de quantifier la popularité des pages : plus une page pertinente est populaire, plus on la présentera avant les autres.

La question est donc : comment quantifier la popularité, qui est une notion liée au comportement des internautes, de manière formelle et quantifiable par un calcul ?

La véritable définition du PageRank

L’idée derrière le PageRank, quand on observe la formule canonique, peut sembler très obscure. Pourtant, elle est intuitivement excessivement simple. Quand on y réfléchit, déterminer qu’un site web, et plus précisément une page spécifique d’un site web, ou n’importe quelle page du Web, est populaire, est quelque chose de très logique et évident : une page est populaire si les internautes s’y attroupent ! Ce n’est pas une surprise, une page qui est visitée est une page qui attire, qui est populaire.

...
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteurs : Thomas Largillier, Guillaume Peyronnet et Sylvain Peyronnet sont les fondateurs de la régie publicitaire sans tracking The Machine In The Middle (http://themachineinthemiddle.fr/).

Formats disponibles : HTML
Date de parution : 15 mars 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de Mars 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings