Le cosinus de Salton : un classique (méconnu) des moteurs de recherche

   
(English version - machine translation)


 

A la genèse des moteurs de recherche, on trouve plusieurs méthodes de calcul de la pertinence d'une page par rapport à une requête donnée. Et parmi ces méthodes, la plus connue est certainement celle du cosinus de Salton, expliquée et illustrée dans cet article. Il est difficile de dire si Google et Bing l'utilisent encore, mais la compréhension de cette technique, certes âgée de 40 ans, reste essentielle dans la compréhension du fonctionnement des moteurs de recherche modernes...



Cet article fait partie de la Lettre Recherche et Référencement #156 du mois de février 2014



Début de l'article :

Cosinus SaltonLes moteurs de recherche construits depuis les années 60 ont implémenté de nombreuses techniques inventées par des linguistes, et en particulier des outils de statistique linguistique. Parmi ces outils, le plus connu est sans conteste le Cosinus de Salton, utilisé en particulier dans les années 90 par feu le moteur AltaVista.

On ne sait pas vraiment si Google utilise également cet outil mathématique dans son algorithme : les techniques ont beaucoup évolué depuis, et il est probable que le moteur de recherche de Google utilise des méthodes plus « modernes » et plus sophistiquées pour classer ses pages. Mais les principes à l'œuvre dans le Cosinus de Salton sont intéressants à connaître pour tous ceux qui s'intéressent aux moteurs de recherche et leurs rouages internes.

Gerard (Gerry) Salton

Gerard Salton était un chercheur informatique de l'université de Cornell. D'origine allemande (son vrai nom est : Gerhard Anton Sahlmann, qu'il a américanisé en Gerard Salton), il a inventé le concept de « modèle vectoriel », le poids « TF*IDF » et le fameux Cosinus de Salton. Il est également à l'origine de la première implémentation pratique de ces outils dans un moteur, le fameux système « SMART » développé à l'université de Harvard. Il est décédé en 1995. Ses travaux ont inspiré de très nombreuses recherches ultérieures jusqu'à aujourd'hui.

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 6 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Associé MySEO, groupe MyMedia. Président de l'association SEO Camp (http://www.seo-camp.org/).

Formats disponibles : Word, PDF, HTML
Date de parution : 17 février 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de février 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :


- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de février 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings