Comment utiliser intelligemment les Sitemaps XML ?

   
(English version - machine translation)


 
sitemap xml

Les fichiers Sitemaps XML fêteront l'année prochaine leurs 10 ans d'existence. Parfois décriés par certains au niveau de leur utilité pour le référencement, ils s'avèrent pourtant très importants dans de nombreux cas. Encore faut-il bien les mettre en place, dans les règles de l'art, et connaître leurs nombreuses possibilités. Voici un article détaillé sur les bonnes pratiques en la matière qui devrait aider votre site à être mieux crawlé et indexé par Google, Bing et leur confrères...

Début de l'article :


L'utilité des sitemaps XML n'a jamais totalement fait l'unanimité au sein de la communauté des experts SEO. Leur impact sur le référencement naturel des sites a également souvent été remis en question. Pourtant, si on comprend leur objectif réel et si on sait comment les implémenter, un référenceur peut tirer un réel bénéfice de la soumission de ces fichiers d'URL au format XML.

L'objectif de cet article est donc de faire le point sur les fonctions assurées par les sitemaps, sur les gains réels qu'ils apportent, et sur les précautions à prendre lorsqu'on les construit. Au passage, nous rappellerons quelques astuces avancées, parfois méconnues par les webmasters.

Pourquoi le protocole Sitemap a-t-il été inventé ?

Les moteurs de recherche comme Google ont abandonné très tôt le principe de la soumission d'URL aux moteurs, pour leur préférer une exploration automatique des pages du web en suivant les liens découverts dans les pages crawlées.

Mais lorsque l'on utilise ce mode d'exploration, deux défis apparaissent : assurer une "couverture" aussi parfaite que possible du web, et garantir la "fraicheur" des données explorées.

Le problème de la couverture

Une partie des pages se situe dans une zone du web que l'on appelle souvent le "web invisible". Il s'agit de pages que les moteurs de recherche ne peuvent pas découvrir en suivant des liens placés sur des pages explorables. La structure des sites web et de nombreux problèmes techniques peuvent créer des situations (volontaires ou involontaires) où une page n'est liée à aucune page accessible aux moteurs. Le problème s'aggrave si on considère que les moteurs décident aussi d'"oublier" parfois volontairement d'explorer des pages qu'ils considèrent comme inutiles (doublons, pages extrêmement profondes etc.).

La "couverture" d'un robot d'exploration d'un moteur de recherche est caractérisée par le ratio entre les pages web explorées et les pages web intéressantes.

Améliorer la couverture est apparu comme une priorité absolue aux ingénieurs de Google, dès le début des années 2000, tant le volume des pages "ignorées" semblait grand.

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 11 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Général de l'agence Search-Foresight (http://www.search-foresight.com).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Comment bien utiliser l'outil de planification des mots clés de Google ?

   
(English version - machine translation)


 
planificateur mots cles

Depuis le 6 Septembre 2014, Google a définitivement remplacé son « outil de génération de mots clés » par l'« outil de planification des mots clés » (ou « Google Keyword Planner »). Toujours utile pour le référencement naturel, l'outil a cependant fortement évolué. Dans cet article, nous allons aborder toutes les techniques pour réellement tirer parti de cet outil en SEO, notamment la fusion des listes de mots clés, le ciblage géographique ou encore le traitement et l'analyse des données fournies par Google...

Début de l'article :


L'outil de génération de mots clés de Google a toujours été utile pour savoir combien de fois un mot clé était recherché sur Google. Premier problème du nouvel outil (par rapport à l'ancien), disponible à l'adresse https://adwords.google.fr/KeywordPlanner : vous aurez besoin obligatoirement d'un compte Adwords (même inactif) pour y accéder. De même, l'interface a changé et il faudra vous y adapter.

Voyons maintenant ce qu'il est possible de faire avec cet outil dans le cadre du référencement naturel de votre site. Vous trouverez en effet 4 fonctionnalités différentes :

• la recherche de mots clés (ce qui correspond à l'ancien générateur de mots clés) ;
• l'obtention de volumes de recherche pour une liste de mots clés ;
• la prévision de trafic pour une liste de mots clés ;
• un outil pour fusionner des listes de mots clés.

Pour être utile en référencement ou dans un audit, il faut en effet respecter quelques règles de base que nous allons détailler tout au long de cet article :

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 8 pages (format A4 Word)
Auteur : Daniel Roch, Consultant WordPress, Référencement et Webmarketing chez SeoMix (http://www.seomix.fr/).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Google a-t-il le droit de 'scraper' nos contenus ?

   
(English version - machine translation)


 
scraping

Google propose de plus en plus dans ses résultats des extraits de pages web, comme il l'a montré récemment en reprenant purement et simplement des tutoriels directement dans ses SERP sans demander l'avis des éditeurs les ayant créés sur leurs sites respectifs. A-t-il juridiquement le droit de mettre en place de telles pratiques ? Peut-il être attaqué pour "vol de contenu", ce à quoi peut être assimilé le "scraping" ? Réponses dans cet article...

Début de l'article :


Le post de Matt Cutts, en décembre 2013, sur le scraping et la mise à disposition d’un formulaire de signalement de ce type de cas (http://www.abondance.com/actualites/20131205-13450-matt-cutts-et-le-scraping-de-textes.html) a rouvert le débat autour de cette pratique. Et ce, d’autant plus étrangement que, concomitamment et de plus en plus, Google recopie quelques lignes de contenu de certains sites (comme Wikipédia) dans le cadre de la fourniture de résultats naturels (http://www.abondance.com/actualites/20140626-14037-knowledge-graph-commence-afficher-tutoriels-scrape-web-vergogne.html). La nature et les risques juridiques de cette pratique sont pourtant précis et ne souffrent pas de discussion. Les exemples de procès perdus par Google Actualités dans le cadre de la reprise de filets d’actualités, sont là pour en témoigner.

Le concept de « scraping »

Le terme « scraping » vient de l’anglais et peut signifier « racler » ou « prélever ». Ce terme est notamment utilisé dans un sens médical.

Il semble exister plusieurs cas de scraping :
- Selon Wikipedia (http://fr.wikipedia.org/wiki/Web_scraping), le Web scraping (parfois appelé Harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte, par exemple le référencement ;
- Le scraping peut concerner uniquement les images ou vidéos, voire des écrans d’impression de sites ;
- Le scraping peut viser une technique d’aspiration de données structurées, dans une base de données, qui peut être réalisée entre deux applications (par exemple, en cas de clusterisation de données).

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 4 pages (format A4 Word)
Auteur : Alexandre Diehl, Avocat à la Cour, cabinet Lawint (http://www.lawint.com/).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Les personnes incontournables dans le 'search' chez Google

   
(English version - machine translation)


 
logo google

Le moteur de recherche Google est conçu et maintenu chaque jour par des miliers d'ingénieurs. Mais, parmi ceux-ci, certains sont des rouages essentiels de la machine, les « têtes pensantes » qui ont conçu et développent encore les nouveautés qui apparaissent pour innover et améliorer l'outil. Voici la présentation de 5 d'entre eux (en dehors, bien sûr, des classiques Larry Page, Sergey Brin et Matt Cutts, trop « célèbres » pour être listés ici). Les connaissez-vous tous ? Pas si sûr. En fait, nous sommes certains que non......

Début de l'article :


Avec l'été et les congés souvent associés, on aime lire des choses plus légères et moins techniques. Nous avons décidé de ne pas déroger à cette tradition, en vous proposant quelques portraits des personnes qui sont importantes dans le « search » chez Google. Pour chacune de ces personnes, nous vous expliquerons ci-dessous en quelques phrases son rôle chez Google, et ses grands faits d'armes. Certains sont important au sein du dispositif de la firme de Mountain View parce qu'ils ont fait de grandes contributions techniques, d'autres font simplement « tourner la boutique », mais tous sont essentiels dans les rouages de la machine.

Vous remarquerez qu'il manque quelques grands noms que vous connaissez tous. Point de Sergey Brin ou de Larry Page ici, encore moins de Matt Cutts, c'est totalement voulu, car vous savez déjà parfaitement qui sont ces gens et il n'es pas obligatoire de les présenter ici…

Amit Singhal

Le cheminement qui a amené Amit Singhal chez Google est assez amusant. Il a commencé ses études en Inde, et comme beaucoup, est parti au Etats-Unis pour obtenir un master en sciences. C'est à l'Université du Minnesota qu'il va arriver, pour mieux rebondir puisque c'est là qu'un de ses professeurs l'aiguille vers la recherche et plus particulièrement vers Gerard Salton. C'est sous la direction de ce dernier qu'il va faire une thèse sur la recherche d'information, qu'il soutiendra en 1996.

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 4 pages (format A4 Word)
Auteurs : Sylvain Peyronnet, co-fondateur et responsable des ix-labs, un laboratoire de recherche privé (http://www.peyronnet.eu/blog/) et Guillaume Peyronnet, gérant de Nalrem Médias (http://www.gpeyronnet.fr/nalrem-medias.html).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Les services de Content Discovery (3ème partie)

   
(English version - machine translation)


 
content discovery

Nous sommes tous connectés à des réseaux sociaux comme Twitter ou Facebook, mais, parfois, leur utilisation à des fins de veille ou de community management est complexe, l'information étant souvent noyée dans la masse. C'est là qu'interviennent les outils de "content discovery" qui permettent, comme leur nom l'indique, de découvrir des contenus intéressants en traitant et filtrant les flux de données proposés par ces outils. Après l'exploration en profondeur de sept d'entre eux le mois dernier et le précédent, en voici deux nouveaux ce mois-ci, parmi les plus intéressants, pour clôre cette série d'articles...

Début de l'article :


Depuis quelques années maintenant, l'animation de communautés sur le web ou « Community Management » (d'une page Facebook, d'un groupe LinkedIn, d'un compte Twitter) est devenue une profession à part entière. Si les interactions du community manager avec ses membres sous forme de réponses ou de discussions sont une des conditions de leur satisfaction, le fait d'apporter des contenus susceptibles de les intéresser sous forme d'articles, de vidéos ou de photos en est une autre. Encore faut-il identifier ce contenu. Les systèmes d'alertes par mots-clés de type Google Alertes jouent ce rôle depuis longtemps (pour d'autres solutions similaires voir ce tableau comparatif de 23 services : http://socialcompare.com/fr/comparison/services-gratuits-d-alertes-par-mots-cles-1pp8mohd) mais on voit arriver depuis quelques mois de nombreux autres services qui tentent d'« alimenter » le community manager (ou le veilleur bien sûr) en contenus pertinents en utilisant des techniques de repérage variées. Nous vous proposons d'en découvrir encore deux dans cette troisième partie de notre article sur les outils de "content discovery", après les sept déjà vus en mai et juin.

Après les services découverts durant ces deux derniers mois, il aurait pu sembler difficile d'en trouver d'autres pour un nouvel article sur le sujet. Ce n'est pourtant pas un problème tant il semble exister de l'effervescence autour de cette famille d'outils, le contenu étant plus que jamais le carburant du web social, et il n'est qu'à consulter la liste que met à jour Robin Good pour s'en convaincre (http://content-discovery-tools.zeef.com/robin.good).

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 9 pages (format A4 Word)
Auteur : Christophe Deschamps, Consultant et formateur en gestion de l'information. Responsable du blog Outils Froids (http://www.outilsfroids.net/).

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Revue d'outils moteurs et SEO (juillet-août 2014)

   
(English version - machine translation)


 

Cette rubrique signale chaque mois 5 outils (site web, logiciel, plug-ins Firefox...) qui nous ont parus intéressants (ou parfois étonnants...) pour le référencement naturel ou la recherche d'information. Des outils pas obligatoirement très récents, mais parfois méconnus ou qui gagnent à être utilisés selon nous. Chaque outil est décrit en quelques phrases, sous la forme d'une fiche signalétique vous permettant de le tester au plus vite...

Début de l'article :


Nom : Cute Rank

URL : http://cuterank.net/

Domaine : SEO

Type : Logiciel Windows/Mac

Descriptif : Comme chaque mois, ou presque, un outil de vérification de vos positionnements sur Google. Ici un logiciel qui a le mérite de fonctionner à la fois sur PC et Mac...

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 5 pages (format A4 Word)
Auteur : Rubrique proposée par Olivier Andrieu, éditeur du site Abondance.com.

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Revue d'URL (juillet-août 2014)

   
(English version - machine translation)


 

Les articles de notre veille sur les moteurs de recherche et le réferencement en français et en anglais, ainsi que le dossier du mois...

Début de l'article :

Revue d'URL en français...

-> Link building : 3 mauvaises habitudes à perdre
Tous les gens qui sont spécialisés dans le référencement depuis des années savent que le temps où l'obtention de centaines de liens en quelques heures pouvait améliorer le référencement d'un site est révolu (en tout cas, si on veut être référencé sur le long terme)...
http://www.referenceur.be/link-building-3-mauvaises-habitudes-a-perdre-13134.html

-> Les avantages de Google Webmaster Tools
L'utilisation de Google Analytics est devenue assez commune, celle de Google Webmaster Tools beaucoup moins. Pourtant les avantages de cet outil sont multiples bien que méconnus. Voici 6 avantages liés à l'utilisation de Google Webmaster Tools...
http://www.carrementplus.net/2014/07/07/les-avantages-dutiliser-google-webmaster-tools/

-> Quelle est la Formule pour Créer le Titre Parfait d'un Article ?
Savez-vous que 8 personnes sur 10 lisent un titre mais que seulement 2 sur 10 lisent le reste ? Si vous êtes un lecteur régulier du blog, nous avons abordé plusieurs fois ce sujet: le titre est l'élément le plus important d'un billet car il détermine le taux de clic et influence le comportement de vos lecteurs quant à la poursuite éventuelle de votre article...
http://www.emarketinglicious.fr/blogging/formule-titre-parfait-article

-> Choisir ses mots-clés pour le référencement de son site
Il faut bien avouer que la recherche de mots-clés n'est pas une tâche des plus amusantes dans le référencement d'un site ou d'une page et c'est pourtant une étape décisive...
http://www.pole-position-seo.com/2014/07/choisir-ses-mots-cles-pour-le-referencement-de-son-site.html

-> L'audit SEO ou la psychanalyse digitale (vu au SMX Paris 2014)
C'est un sujet extrêmement vaste, complexe et non linéaire. L'idée n'est pas de vous apprendre comment réaliser un audit par vous-même. 7500 mots ou une heure de présentation ne suffisent pas. C'est un vrai métier, je le répète inlassablement...
http://www.htitipi.com/blog/audit-seo-smx.html

-> Moteur de recherche : 11 alternatives à Google
Google est le moteur de recherche absolu en France et dans beaucoup de pays dans le monde. Et soyons honnêtes, il fonctionne quand même très bien...
http://www.webmarketing-com.com/2014/06/24/28742-moteur-recherche-11-alternatives-google

-> Les 5 erreurs à éviter après une formation en référencement
Erreur 1 : J'ai pris des notes, je vais les ranger dans l'étagère 1, dossier 4, intercalaire 8… En quelques heures, vous avez ingurgité une grande quantité d'informations...
http://optimiz.me/les-5-erreurs-eviter-apres-formation-en-referencement/

...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 9 pages (format A4 Word)
Auteur : Rubrique proposée par Olivier Andrieu, éditeur du site Abondance.com.

Formats disponibles : Word, PDF, HTML
Date de parution : 15 juillet 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juillet-août 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juillet-août 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Panda 4.0 : anatomie de la dernière version du filtre de Google

   
(English version - machine translation)


 
panda 4.0

Google a lancé le 20 mai dernier la quatrième version de son filtre Panda qui vise à lutter contre le contenu de faible qualité. Au travers de l'analyse des sites gagnants et perdants après ce lancement et des brevets déposés par le moteur de recherche, on peut en savoir un petit plus sur l'évolution de cet algorithme...

Début de l'article :

La dernière version du filtre Panda de Google a été déployée dans le Monde le 20 mai 2014 (http://www.abondance.com/actualites/20140521-13926-google-panda-4-0-en-cours-deploiement.html), selon les informations divulguées par Google. Pour la première fois depuis de nombreux mois, Google a officiellement communiqué sur une mise à jour de Panda, ce qui a évidemment suscité la curiosité : qu'est-ce que cette mouture recèle d'important aux yeux de Google ? En quoi est-elle différente des autres mises à jour ? Nous allons essayer de répondre à ces questions, en faisant le point au passage sur ce que l'on sait des mises à jour Panda.

Panda 4.0 : une mise à jour atypique

Une mise à jour "officielle"

L'une des premières surprises apportées par cette mise à jour est le fait qu'elle a fait l'objet d'une annonce officielle de la part de Google. En effet, depuis de nombreux mois, les mises à jour (Google les appelle des itérations) des filtres Panda étaient censées se dérouler chaque mois, mais plus aucune communication officielle ne le confirmait. Cette fois-ci l'annonce a pris la forme d'un tweet de Matt Cutts, datant du mardi 20 mai 2014.

Autre détail intéressant à remarquer, Matt Cutts appelle depuis dans sa communication la mise à jour Panda 4.0, au lieu de Panda 27 ou 28 (son numéro d'itération). On peut en déduire qu'il s'agit de la 4eme version de l'algorithme, et non d'un simple “recalcul”. Matt Cutts a effectivement confirmé, toujours sur Twitter, qu'il s'agissait d'un changement d'architecture logicielle.

Une mise à jour dont l'impact s'est révélé important

Au total, selon les dires de Matt Cutts au site Seroundtable, 7,5% des requêtes en langue anglaise ont été impactées par les changements de résultats apportés par Panda. Les itérations impactent entre 1% et 3% des requêtes habituellement. La première version de Panda en février 2011 avait chamboulé les résultats sur 11,8% des requêtes. C'est donc l'une des mises à jour les plus importantes dans l'histoire de ce filtre. On ne connait par contre l'impact sur les autres versions linguistiques de Google, en particulier en France. Mais les différents baromètres fournis par les outils ont montré des changements profonds dans les pages de résultats françaises également.
...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 11 pages (format A4 Word)
Auteur : Philippe Yonnet, Directeur Général de l'agence Search-Foresight (http://www.search-foresight.com).

Formats disponibles : Word, PDF, HTML
Date de parution : 16 juin 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juin 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juin 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Comment sortir d'une pénalité algorithmique Google ?

   
(English version - machine translation)


 
penalite algorithmique

Les pénalités algorithmiques qu'inflige Google peuvent faire peur : non seulement elles sont complexes à comprendre et à analyser, mais elles sont également difficiles à combattre et demandent parfois une patience infinie. Nous allons donc voir ici les différentes méthodes que l'on peut appliquer à un site web pour sortir des différentes pénalités du moment...

Début de l'article :

Peut-on sortir d'une pénalité algorithmique ?

C'est sans doute la première question à se poser : est-il réellement possible de sortir d'une pénalité algorithmique infligée par Google ? À cette question, les réponses sont multiples. Selon certains référenceurs et certaines agences, il serait quasiment impossible d'en sortir : une pénalité comme Google panda ou Google Penguin aurait un effet définitif sur le nom de domaine.

En réalité, il est tout à fait possible de sortir d'une pénalité algorithmique. La réelle problématique est qu'il faut mettre en place une procédure qui prend énormément de temps et d'énergie pour réussir. Et même lorsque vous allouez des moyens et un budget pour un tel travail, il est possible de ne sortir que partiellement de la pénalité et de ne jamais retrouver l'intégralité des positions et du trafic qui avaient été préalablement acquis par le site web.

Dans la lettre R&R du mois dernier (mai 2014), nous avions parlé des différents types de pénalité qui existent : http://recherche-referencement.abondance.com/2014/05/comment-savoir-si-son-site-est-penalise.html. La première étape consiste donc à savoir quelle est la pénalité que l'on doit combattre.

En effet, en fonction de l'algorithme qui vous touche, le travail de nettoyage et de désoptimisation sera complètement différent. Nous vous conseillons donc de relire l'article du mois dernier, mais aussi de consulter les changements d'algorithmes recensés par Moz sur cette page : http://moz.com/google-algorithm-change.
...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 8 pages (format A4 Word)
Auteur : Daniel Roch, Consultant WordPress, Référencement et Webmarketing chez SeoMix (http://www.seomix.fr/).

Formats disponibles : Word, PDF, HTML
Date de parution : 16 juin 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juin 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juin 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois

Spam de contenu : comment le reconnaître ? Comment le détecter ?

   
(English version - machine translation)


 
spam box

De nombreuses méthodologies sont utilisées par les moteurs de recherche actuels pour détecter le spam dans leur index et produire ainsi des résultats de la meilleure qualité possible. Parmi celles-ci, la notion de "classifieur" est fondamentale. Cet article détaille une étude et un algorithme détaillés il y a quelques années à cette fin, ainsi qu'un projet actuellement en cours et qui permettra d'avoir, d'ici quelques mois, plus d'informations précises à ce sujet, ainsi que des outils pour définir le niveau de qualité d'une page web. Passionnant......

Début de l'article :

Nous allons aborder aujourd'hui la notion de spam de contenu, ce que l'on appelle souvent "webspam" dans la littérature scientifique. Sans aucune surprise, la détection du webspam est un enjeu important pour les moteurs de recherche. L'objectif de cet article est de définir ce qu'est le spam de contenu et de donner les clés permettant de comprendre comment un moteur va le détecter en utilisant des outils de classification.

Nous décrirons ensuite l'étude du projet que nous réalisons actuellement, et qui a pour objectif de mettre en évidence les critères constitutifs du spam de contenu, pour ensuite créer un outil de qualification de contenu.

Qu'est-ce que le spam de contenu ?

La formule, amusante mais convenue, nous le dit : « webspam, you know it when you see it ». Dans le folklore scientifique, il n'y a pas donc pas de vraie définition formelle du spam de contenu. Au final, on s'aperçoit généralement que le spam de contenu se traduit par une page web de faible qualité, dont le texte est réalisé au kilomètre (automatiquement ou à la main) et qui est "moche" (template de faible qualité graphique). Mais ceci n'est pas une réelle définition, et pour le chercheur, c'est la qualification par des quality raters qui fera foi : une page est du spam si elle a été notée « spam » par des êtres humains.

Et là apparaît un petit drame, car les humains ne sont pas toujours d'accord entre eux. Bien sûr, pour les pages contenant du texte généré par des méthodes automatiques de base, tout le monde est d'accord sur la qualité du contenu. Mais il existe de nombreux cas très borderline, et souvent, seuls les initiés qui connaissent les astuces y verront du spam, tandis que l'internaute lambda n'y trouvera rien à redire. C'est par exemple le cas des sites qui vont faire une copie de Wikipedia en y rajoutant quelques publicités.

Bref, la détermination de ce qui est du spam de contenu est réalisé par le monitoring du comportement humain. Ce monitoring peut être explicite ou implicite. Explicite quand on demande à des "quality raters" de noter des pages web, ou implicite quand le moteur va regarder le comportement de ses utilisateurs (retour "post click", temps passé sur une page, etc.).
...

La suite de cet article est accessible aux abonnés à la lettre professionnelle "Recherche et Référencement" du site Abondance...


Plus d'infos pour les abonnés :

Taille de l'article : 5 pages (format A4 Word)
Auteurs : Sylvain Peyronnet, Professeur des Universités à l'Université de Caen Basse-Normandie (http://sylvain.berbiqui.org/) et Guillaume Peyronnet, gérant de Nalrem Médias (http://www.gpeyronnet.fr/nalrem-medias.html).

Formats disponibles : Word, PDF, HTML
Date de parution : 16 juin 2014

- Télécharger l'article au format PDF

- Sommaire de la lettre R&R de juin 2014

- Accès à la zone "Abonnés" du site Abondance.com


Plus d'infos pour les non-abonnés :

- Comment s'abonner à la lettre R&R ?

- Sommaire de la lettre R&R de juin 2014

- Tous les articles de l'année 2014

- Sélection des meilleurs articles des 24 derniers mois


 
Un site du Réseau Abondance  : Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Formation DVD Référencement | Outils : Outiref - Visiref - Spider SimulatorDivers / Jeux : Googlefight - Googland |  Moteurs de recherche : Mozbot.fr - Mozbot.com - Grifil.net - SearchWings