Google utilise-t-il vraiment la méthode LDA (Latent Dirichlet Allocation) dans son algorithme ?

   
(English version - machine translation)


 
La méthode LDA (pour Latent Dirichlet Allocation) est une méthode qui permet de détecter et d'isoler des concepts et des relations sémantiques entre différents termes dans les documents. Elle a supplanté depuis plusieurs années LSI (Latent Semantic Indexing) souvent présentée - à tort - comme au coeur de l'algorithme de Google. Cet article a pour but de vous présenter LDA et pose la question de son éventuelle utilisation par le moteur de recherche leader, et bien sûr des implications que cela amène en SEO / référencement naturel...

Cet article fait partie de la Lettre Recherche et Référencement #129 du mois de septembre 2011



Début de l'article :

Il y a bientôt cinq ans, j'avais eu l'occasion de dénoncer l'utilisation de la méthode LSI (Latent Semantic Indexing) comme argument de vente par des agences SEO, essentiellement indiennes et américaines. LSI était une méthode permettant d'isoler, au milieu du "bruit", les relations sémantiques entre des termes. Or l'utilisation de LSI par Google semblait peu crédible, compte tenu des inconvénients et des limites de la méthode.

Une autre méthode l'a supplantée assez vite (dès 2003) : la méthode LDA (Latent Dirichlet Allocation). Or, LDA fournit des résultats beaucoup plus facile à réutiliser dans un algorithme de moteurs, et l'utiliser à grande échelle est envisageable. Ce qui est clair, c'est que LDA est réellement utilisée aujourd'hui pour des applications d'extraction d'information, en particulier sur la découverte des "sujets" abordés dans les documents.

SEOMoz a largement contribué à populariser LDA l'année dernière en annonçant que les classements de Google et LDA étaient remarquablement corrélés (http://www.seomoz.org/blog/lda-and-googles-rankings-well-correlated). Nous verrons plus loin ce que l'on doit penser de cette affirmation.

Mais commençons d'abord par rappeler ce que ce sont ces méthodes de calcul, et à quoi elles servent exactement.

Latent Semantic Indexing : une méthode déjà obsolète en 2005

La méthode LSI (aussi parfois appelée LSA), est toujours présentée par des agences, soit comme la clé de l'algorithme de Google ("Google utilise LSI pour classer ses résultats, donc nous allons optimiser votre site pour l'algorithme LSI"), soit comme mot magique pour valider que leurs méthodes de référencement sont "à la pointe" ("nos algorithmes sophistiqués utilisent l'algorithme LSI pour calculer les optimisations appropriées"). Soyons clairs : ces arguments sont fallacieux, et relèvent même dans certains cas de la tromperie manifeste (la méthode LSI n'est pas vraiment utilisée pour déterminer le contenu optimisé, on cherche juste à adapter le texte au contexte pour qu'il réponde à ce que l'on a compris de la méthode LSI).

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 7 pages (format A4 Word)
Auteur : Philippe YONNET , Directeur SEO international, Twenga.

Formats disponibles : Word, PDF, HTML
Date de parution : 16 septembre 2011

Télécharger l'article au format PDF :
http://abonnes.abondance.com/archives/2011-09/

Sommaire de la lettre R&R de septembre 2011 :
http://abonnes.abondance.com/archives/2011-09/

Accès à la zone "Abonnés" du site Abondance.com :
http://abonnes.abondance.com/


Plus d'infos pour les non-abonnés :


Comment s'abonner à la lettre R&R ? :
http://commande.abondance.com/

Sommaire de la lettre R&R de septembre 2011 :
http://lettres.abondance.com/sommaire-RR-092011.html

Tous les articles de l'année 2011 :
http://lettres.abondance.com/articles-rechref-2011.html

Sélection des meilleurs articles des derniers mois : :
http://www.abondance.com/article-abonnes.html

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings