Mai 2009 > La reconnaissance des entités nommées par les moteurs de recherche

   
(English version - machine translation)


 
Résumé de l'article :

De nombreux moteurs de recherche majeurs basent aujourd'hui une partie de leurs algorithmes sur la détection des entités nommés : nom de personne, d'entreprise, de lieu, etc. Mais peut-on facilement définir ce qu'est une entité nommée et comment les moteurs les reconnaissent-ils dans les documents qu'ils indexent ? Où en sont les chercheurs dans ce domaine ? Les travaux actuels sont-ils fiables ? Qu'en est-il dans le cadre d'une approche multilingue ? Cet article aborde tous ces sujets et tente de faire le point sur un pan important du Web sémantique, exploré aujourd'hui par Google et ses concurrents...

Début de l'article :


Pour construire un moteur de recherche capable de renvoyer des résultats pertinents, savoir reconnaître qu'un terme représente un nom de personne, une raison sociale d'entreprise ou un nom de lieu représente un atout certain. Ce problème est pris en charge par les techniques de "reconnaissance d'entités nommées" ("Named entities recognition" (NER) en anglais). Certains spécialistes en extraction de l'information ont annoncé voila plusieurs années que leurs méthodes étaient à présent "mûres", annonçant savoir reconnaître plus de 85%, voire plus de 90% des "entités nommées" dans un texte.

En réalité, nous verrons que certains problèmes sont loin d'être résolus, même si les progrès faits dans ce domaine sont rapides, spectaculaires, et leurs applications multiples. Et les principales avancées dans ce domaine pour les moteurs de recherche sont accélérées par la compétition entre les chercheurs de Yahoo, Microsoft et Google. Mais nous verrons que ce sont les équipes de Google qui se sont avérées depuis quelques mois extrêmement prolifiques en brevets et en publications scientifiques, et nous commençons à voir apparaître dans le fonctionnement de Google de nombreuses applications de leurs recherches sur les entités nommées.


La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 10 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Technique @Position (http://www.aposition.com) et président de l'association SEO Camp (http://www.seo-camp.org/)

Formats disponibles : Word, PDF, HTML
Date de parution : 15 mai 2009

Télécharger l'article au format PDF :
http://abonnes.abondance.com/archives/2009-05/

Sommaire de la lettre R&R de mai 2009 :
http://abonnes.abondance.com/archives/2009-05/

Accès à la zone "Abonnés" du site Abondance.com :
http://abonnes.abondance.com/


Plus d'infos pour les non-abonnés :

Comment s'abonner à la lettre R&R ? :
http://commande.abondance.com/

Sommaire de la lettre R&R de mai 2009 :
http://lettres.abondance.com/sommaire-RR-052009.html

Tous les articles de l'année 2009 :
http://lettres.abondance.com/articles-rechref-2009.html

Sélection des meilleurs articles des derniers mois : :
http://www.abondance.com/article-abonnes.html

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings