De l'indexation des mots clés à l'indexation des concepts (2ème partie)

   
(English version - machine translation)


 
Depuis que les moteurs de recherche existent, le référencement existe. Mais les moteurs ont grandement évolué depuis près de 20 ans. D'un système "simple" d'indexation de mots clés isolés, ils sont passés à la détection de syntagmes, de synonymes puis aujourd'hui aux entités nommées et aux "index de concepts"... Nous continuons ce mois-ci notre exploration de ces technologies avec la seconde partie de notre article. Une évolution que les référenceurs devront prendre en compte à l'avenir pour s'adapter aux progrès toujours plus importants que font les moteurs de recherche pour mieux analyser le Web et rendre leurs résultats toujours plus pertinents...

Cet article fait partie de la Lettre Recherche et Référencement #139 du mois de juillet-août 2012



Début de l'article :


Identifier les entités nommées : une étape de plus dans l'indexation

La "reconnaissance des entités nommées", que nous avons souvent évoquée dans la lettre d'Abondance, est une technique permettant non seulement d'identifier au sein des pages web (et des requêtes) des noms de personne, de lieux, des marques, des numéros de téléphone, des raisons sociales de société etc., mais aussi d'identifier que les termes "Michael Jackson" font allusion, selon les pages, soit à un plombier du Bronx qui porte ce nom, soit à la Popstar.

Pour pouvoir utiliser cette information dans un moteur de recherche, il convient d'ajouter une étape supplémentaire de "balisage" (tagging) dans le processus d'indexation. Nous avons vu que dans le processus traditionnel, beaucoup d'étapes avaient pour objectif de supprimer des signaux, du code et des caractères inutiles. Ce processus de "toilettage" et de "normalisation" ou de "standardisation" est un processus qui détruit de l'information. Là, au contraire, il s'agit d'ajouter de l'information à la page : on part d'un texte non structuré, et on ajoute de l'information structurée.

Exemple de taggage (balisage sémantique) sur le terme Paris : dans le premier cas, le terme est étiqueté comme correspondant à une référence à la ville de Paris, dans le deuxième cas à la célébrité Paris Hilton.

On peut ensuite générer un index spécialisé en stockant pour chaque entité nommée les pages qui les contiennent, et compléter l'index inversé avec ces informations : ainsi, pour renvoyer les pages qui parlent de Michael Jackson, on pourra chercher dans les pages associées à l'entité nommée "Michael Jackson" comme dans les pages qui contiennent "Michael Jackson".

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 7 pages (format A4 Word)
Auteur : Philippe YONNET , Directeur SEO international, Twenga.

Formats disponibles : Word, PDF, HTML
Date de parution : 13 juillet 2012

Télécharger l'article au format PDF :
http://abonnes.abondance.com/archives/2012-07/

Sommaire de la lettre R&R de juillet-août 2012 :
http://abonnes.abondance.com/archives/2012-07/

Accès à la zone "Abonnés" du site Abondance.com :
http://abonnes.abondance.com/


Plus d'infos pour les non-abonnés :


Comment s'abonner à la lettre R&R ? :
http://commande.abondance.com/

Sommaire de la lettre R&R de juillet-août 2012 :
http://lettres.abondance.com/sommaire-RR-072012.html

Tous les articles de l'année 2012 :
http://lettres.abondance.com/articles-rechref-2012.html

Sélection des meilleurs articles des derniers mois : :
http://www.abondance.com/article-abonnes.html

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings