SEOQuantum : le deep learning au service des rédacteurs web

   
(English version - machine translation)


 

Depuis que le Web existe, on dit que le contenu est roi ("Content is King") et cette tendance s'est renforcée au fil des ans. Aujourd'hui, le travail sur les champs lexicaux d'un contenu est devenu indispensable et de nombreux outils (souvent développés par des entreprises françaises) voient le jour. Parmi eux, SEOQuantum a pour vocation d'aider les rédacteurs web à rédiger des textes ayant une meilleure richesse sémantique en s'aidant des dernières avancées algorithmiques du domaine. Leur but ? Plaire bien sûr aux internautes et... à Google !

Début de l'article :

Longtemps, on a pensé que l’optimisation sémantique pour le référencement naturel se limitait à l’écriture des balises title, et Hn. Depuis l’avènement de Google Panda, visant à sanctionner les sites de faible qualité, le contenu est devenu l’une des préoccupations majeures des SEO. Désormais, le moteur de recherche prend en considération la richesse sémantique intrinsèque liée au mot-clé cible. D'où notre envie de développer un outil allant dans ce sens pour aider les réacteurs web à proposer de textes de meilleure qualité qu'auparavant.

Cette aventure démarre donc en 2016. Le monde du référencement a évolué ces dernières années, notamment sur l’optimisation « on-site ». Sans une analyse des champs lexicaux, les contenus se positionnent plus difficilement. Au sein de notre agence, nous l’avons constaté très tôt et une question de rentabilité s’est vite posée : comment produire des contenus de qualité et surtout efficaces d’un point de vue SEO ? Comment le moteur de recherche perçoit-il ce contenu ? Que souhaite-t-il réellement ?

Un outil pour mieux se positionner

De ces questionnements, nous avons fait naitre un outil : SEOQuantum. Il s’agit d’un outil d’aide décisionnelle à la rédaction de contenu. Mais comment fonctionne-t-il ?

Afin d’être le plus pertinent possible, le moteur de recherche considère la qualité perçue par les internautes lors des visites des sites web, notamment à travers le pogosticking. Mais cela est une autre histoire… Le souhait de Google est avant tout de mettre en avant des contenus de qualité, afin de répondre à l’attente de l’internaute. De ce constat, nous avons décidé d’étudier ce qui plait à Google et d’analyser les pages que l’on trouve dans le TOP des SERP afin d’en extraire les principaux champs lexicaux.

Les résultats fournit par les SERP sont en effet une mine d’informations à exploiter. Dès lors, nous avons développé un crawler capable d’extraire le contenu textuel des pages des sites web. Ce n’est pas une mince affaire et nous avons à cette occasion compris les difficultés rencontrées par le moteur lorsqu’il consulte un site afin de l’analyser (mauvais encodage, balises HTML invalides, spam, etc.).

Comment améliorer le positionnement sur mon mot-clé ?

Nous avons inventé un concept sémantique appelé le WordPrint. Les Wordprints sont des notions sémantiques SEO propres à chacun de vos mots-clés : c'est "l'ADN" unique de votre mot clé. Il correspond aux "attentes" de Google en termes de champs lexicaux.

Prenons l’exemple d’un site souhaitant optimiser son contenu sur le mot-clé « comparateur d’assurance ».

Fig. 1. Wordprint pour "comparateur assurance".

Le WordPrint consiste en une liste de termes identifiés pour la requête « comparateur assurance », avec les deux colonnes suivantes :

Puissance : nombre de fois où la lexie (le terme) a été trouvée dans notre analyse, il s’agit de la fréquence (aspect quantitatif).
Indice : L'indice est basé sur BM25, une version évoluée du TF*IDF. Les lexies incontournables sont signalées en surbrillance (fond orange). Ces lexies ont été identifiées comme omniprésentes dans l'analyse.
L'idée est alors de demander aux rédacteurs d’utiliser les lexies proposées dans le tableau dans leur rédaction de contenu. Les lexies surlignées en orange sont très importantes (voire indispensables). Elles apparaissent sur la plupart des résultats (même à faible fréquence).

L'inconvénient est qu'avec cette technique, on peut très vite se retrouver à suroptimiser les pages avec un ensemble de mots. Nous avons donc dû faire évoluer notre analyse pour enrichir nos contenus sans suroptimisation.
...
La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Auteur : Anthony Techer, concepteur de l'outil SEOQuantum et co-créateur de l'agence Allorank

Formats disponibles : HTML
Date de parution : 18 avril 2017

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R d'Avril 2017

- Tous les articles de l'année 2017

- Sélection des meilleurs articles des 24 derniers mois

...

 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings