L'Extraction d'Information Ouverte (OIE) : le Nouveau Graal des Moteurs de Recherche

   
(English version - machine translation)


 

Depuis que les moteurs de recherche existent, leur procédure d'interrogation est immuable : taper des mots clés dans un formulaire de recherche. Depuis quelques années, des outils comme Siri ou Google Now changent petit à petit la donne en intégrant des interfaces vocales à ces investigations. Mais tout cela pourrait aller bien plus loin à l'avenir avec les techniques d'OIE ou Extraction d'Information Ouverte, qui mettent en relation les mots, les faits et les concepts et qui pourraient révolutionner notr efaçon de nous adresser aux moteurs. Les obstacles sont encore nombreux mais les objectifs passionnants...



Cet article fait partie de la Lettre Recherche et Référencement #149 du mois de juillet-août 2013



Début de l'article :



En avril 2013, Google a fait l'acquisition d'une nouvelle startup à l'origine de l'application mobile Wavii. Cette acquisition est apparue comme une tentative de « contrer » l'acquisition par Yahoo ! de Summly. Mais en réalité, la technologie « embarquée » dans l'application Wavii est tout à fait différente : il s'agit tout bonnement de l'Open Information Extraction (Extraction d'Information Ouverte), une approche qui pourrait tout bonnement être à l'origine des moteurs de recherche du futur. On peut donc logiquement soupçonner Google d'avoir voulu mettre la main sur certains brevets, et certaines compétences, pour pouvoir utiliser l'OIE non seulement dans une application mobile (qui n'est déjà plus disponible), mais également pour améliorer son « knowledge graph » qui est aujourd'hui déployé dans une version très limitée.

Mais qu'est-ce exactement que l'OIE ? A quoi cela sert-il et pourquoi est-ce susceptible de révolutionner le fonctionnement des moteurs de recherche ? C'est ce que nous allons essayer de vous expliquer dans cet article.

Ne pas confondre « Information Extraction » et « Information Retrieval »

Mais commençons par un « caveat » (un avertissement) : en français, nous avons pris la mauvaise habitude de traduire « information retrieval » par « extraction d'information ». Le problème est qu'il existe un autre secteur de recherche en informatique, baptisé en anglais « information extraction ». Et les deux domaines de recherche sont très différents.

L' « information retrieval » fait allusion aux techniques de recherche d'information dans les documents utilisées par les moteurs de recherche actuels. Par la suite, nous utiliserons les termes « informatique documentaire », ou « recherche documentaire informatisée ».

L' « information extraction » fait allusion à des techniques plus ou moins automatiques de « web mining » (« fouille du web »), permettant de créer à partir des textes trouvés dans les pages web des bases de faits exploitables. Dans la suite de cet article, nous désignons ce domaine de recherche par les termes « extraction d'information ».

...

La suite de cet article est accessible aux abonnés à la lettre "Recherche et Référencement" du site Abondance...

Plus d'infos pour les abonnés :

Taille de l'article : 7 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Associé MySEO, groupe MyMedia. Président de l'association SEO Camp (http://www.seo-camp.org/).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2013

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2013

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :


- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2013

- Tous les articles de l'année 2013

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings