Le Web Embedding, la vraie révolution cachée derrière RankBrain

   
(English version - machine translation)


 

L'annonce par Google de l'intégration dans son algorithme de classement de "Rankbrain", une brique logicielle qui selon ses créateurs embarque de l'intelligence artificielle, a fait couler beaucoup d'encre dans le petit monde du SEO. Beaucoup de commentateurs ont spéculé sur ce que pouvait entrainer l'emploi de l'intelligence artificielle dans un algorithme de moteur de recherche. Mais en réalité, la véritable révolution apportée par Rankbrain, c'est l'exploitation d'une méthode nouvelle et très prometteuse en linguistique informatique : le "word embedding". Et dans ces méthodes, le rôle de l'intelligence artificielle est assez mineur : les outils d'IA sont simplement utilisés pour "percevoir" des valeurs concernant des termes, des phrases ou des documents. Mais cela nous fait parfaitement comprendre la façon dont Google fonctionne aujourd'hui et surtout la direction qu'il prendra à l'avenir. Et donc les méthdes SEO à mettre en œuvre pour prendre en compte cette nouvelle vision. Décryptage...

Début de l'article :

Pour comprendre ce qu'est le "Word Embedding", et pourquoi ce concept est révolutionnaire, nous vous proposons de revenir aux concepts fondateurs qui ont été employés depuis des dizaines d'années par les moteurs de recherche. Et nous verrons ensuite en quoi cette nouvelle approche représente un "bond" technologique" majeur qui annonce une adoption rapide, et des applications dans de nombreux domaines nouveaux.

Un peu d'histoire sur les méthodes utilisées en linguistique informatique

L’analyse en sac de mots (bag of words)

Les méthodes utilisées encore aujourd’hui par les principaux moteurs de recherche trouvent leur origine dans des travaux menés dans les années 50. Ce paradigme aura donc tenu plus d’un demi-siècle sans être réellement bousculé dans ses fondements, essentiellement parce que ses applications étaient les seules qui pendant toute cette période permettaient des applications viables.

Sur le plan théorique, l’approche s’appuie sur les travaux du linguiste Noam Chomsky. Zelig Harris, un autre linguiste, a posé les principes de la méthode en 1954. En pratique, l’idée consiste à faire une analyse statistique de la fréquence d’apparition (la fréquence d’occurrence) des termes au sein des textes.

Pour faire ce travail, les occurrences d’un même terme sont comptées sans tenir compte de l’ordre d’apparition des termes dans le texte, ni de la phrase qui le contient : l’information n’est pas conservée. C’est pour cela que les pionniers de cette méthode l’ont appelé « bag of words » : le « sac de mots ».

Fig.1. Principe de l’analyse en sac de mots : les termes sont comptés, puis les statistiques d’occurrences analysées. ...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 9 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Général de l'agence Search-Foresight (http://www.search-foresight.com).

Formats disponibles : Word, PDF
Date de parution : 15 avril 2016

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R d'Avril 2016

- Tous les articles de l'année 2016

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings