Le Blog Data par Lizeo

De la donnée produit à des descriptions produits uniques et performantes

De la donnée produit à des descriptions produits uniques et performantes

Saviez-vous que 25 à 30% des contenus sur le web sont dupliqués ?* 
Il est effectivement de plus en plus courant de voir apparaître des contenus identiques sur différents sites webs, notamment pour les descriptions produits. Déclassement des pages web, baisse du SEO, expérience utilisateur réduite, le problème du Duplicate Content est un véritable casse-tête pour les équipes marketing qu’il convient de résoudre. Bonne nouvelle, grâce à des données de qualité et à l’IA, il existe une technologie qui permet de répondre à ce problème : la Natural Language Generation (NLG).

De la donnée structurée à la description produits unique, multilingue et optimisée en SEO ​

Il est primordial pour un site e-commerce d’alimenter les produits en descriptions marketing de qualité, pour des raisons propres à l’expérience utilisateur mais aussi pour améliorer les performances du site web. Rédiger des fiches produits uniquement sur les produits stars ne suffit plus, pour optimiser les performances d’un site web, il est primordial de cocher plusieurs cases :
  • Avoir un catalogue éditorial complet de fiches produits couvrant la majeure partie des produits du site web afin de fournir un maximum d’informations aux utilisateurs,
  • Offrir aux utilisateurs des descriptions précises pour leur permettre d’avoir la meilleure expérience sur le site web et leur proposer un produit répondant à leurs besoins,
  • Proposer ces descriptions en plusieurs langues pour attirer et transformer de nouvelles visites online en achats,
  • Optimiser le SEO du site web pour obtenir un maximum de visibilité,
  • Faire face à la menace du Duplicate Content.

 

Créer et rédiger ces contenus est une tâche souvent chronophage, d’autant plus si le catalogue de produits à décrire est conséquent, qui ne permet pas toujours de rédiger manuellement des contenus sur la totalité des produits.
 
La technologie Natural Language Generation basée sur l’IA est une solution idéale pour répondre à ces problématiques. En effet, elle transforme des données structurées en des quantités conséquentes de textes aux formats souhaités et optimisés selon vos mots-clés sans différence avec l’écriture humaine, en plusieurs langues, et ce, en quelques secondes. 
 
Accompagnée d’un algorithme spécifique, comme Simhash qui est utilisé par Lizeo, et de données de qualité, elle permet même de proposer des contenus uniques, avec un taux de Duplicate Content quasi nul…

Une menace : le Duplicate Content ​

Qu’est-ce que c’est ?

En français, Duplicate Content signifie “Contenu dupliqué”. Le contenu d’une fiche produit, d’une page web ou d’un site internet est considéré comme étant en Duplicate Content à partir du moment où celui-ci est reproduit quasi ou totalement à l’identique ailleurs sur le Web. 

Alors, les moteurs de recherche jugent les informations comme étant copiées. Cela pose un véritable problème car ces derniers peuvent alors sanctionner les pages concernés, dont la page originale…

Il existe deux types de contenu dupliqué :

  1. Le contenu dupliqué sur un même site web, par le biais d’une erreur technique ou humaine, est le type de Duplicate Content le plus régulièrement rencontré. En effet, une page en version desktop et une page en version mobile d’un même site, lorsque réalisée séparément, peuvent être considérées en Duplicate Content. De même si une nouvelle et ancienne version d’une page web ne possèdent pas les balises dédiées. Ce type de contenu dupliqué est le plus fréquent sur les sites e-commerce.
  2. Le second type de contenu dupliqué est entre plusieurs sites web. Une description d’un produit peut être reprise de manière accidentelle sur un autre site, notamment lorsque celui-ci possède des caractéristiques comparables ou lorsque les deux sites possèdent un même fournisseur de contenus. Mais cela peut également être du plagiat, cas beaucoup plus grave, car le contenu original est volontairement copié à l’identique. C’est dans ce cas précis que les moteurs de recherche sanctionnent le plus durement les pages et sites concernés.

 

Les méthodes et systèmes de calcul de similarité utilisés par les moteurs de recherche sont strictement confidentielles.

Quel impact sur votre SEO ?

Les moteurs de recherche ont pour objectif d’afficher les résultats les plus pertinents par rapport à la requête effectuée.

Si deux contenus identiques répondent à une requête effectuée par un internaute, le moteur de recherche va perdre du temps à choisir quel contenu proposer à l’internaute et cela va dégrader l’expérience utilisateur. Les moteurs souhaitent donc perdre le minimum de temps pour effectuer ces tâches tout en proposant les contenus adéquats. 

C’est pourquoi ils « traquent » les contenus dupliqués avec des outils de détection et algorithmes très performants et de plus en plus précis (gardés secrets bien évidemment…), parfois en dépit du site ayant la paternité du contenu.

En effet, des tests ont démontré que les moteurs de recherche affichent le contenu du site le plus ancien et populaire. Cela signifie donc qu’un site ayant la paternité d’un contenu peut être jugé comme la copie par l’algorithme d’un moteur comme Google, car moins populaire.

Si un site copie en masse d’autres contenus sur le web, le site entier peut être pénalisé et cela peut mener à une baisse de trafic allant jusqu’à 95%, voire à la suppression de ces sites dans les résultats des moteurs de recherche dans les cas les plus extrêmes.

De plus, si l’on se met à la place d’un humain et non du robot Google, de manière évidente, le prospect ou client se rendant compte que votre contenu est identique à un site parcouru précédemment, n’offrira que peu de crédibilité à ce que vous proposez…

 Enfin, le Duplicate Content rentre également dans le cadre des articles L111-1 et L.123-1 du code de la propriété intellectuelle, car soumis au droit d’auteur. Plagier des contenus peut donc être sévèrement puni par la loi.

Comment l’éviter ?

  • Vérifiez régulièrement les contenus que vous proposez

Cela commence avant même la publication de nouveaux contenus. Il convient d’utiliser des solutions permettant de vérifier si les contenus peuvent être sujets au Duplicate Content ou non (pour rappel, il est impossible de connaître les algorithmes utilisés par les moteurs de recherche, mais il est possible de s’en approcher).

Pour ce faire, il existe 3 cas d’usages :

  1. Utiliser la solution Natural Language Generation en complément d’algorithmes spécifiques, comme Simhash qui est utilisé par Lizeo, afin de générer automatiquement des contenus sans Duplicate Content. En effet, la technologie NLG vous permet de générer des contenus différents, l’algorithme vous permet de vérifier le taux de Duplicate Content entre ceux-ci. Vous avez donc la main sur le taux de Duplicate Content entre les contenus que vous publiez et pouvez donc réduire drastiquement ce problème.
  2. Utiliser des outils en ligne permettant de comparer les contenus déjà publiés sur le web avec le vôtre. Ces outils scans internet afin de recenser les contenus similaires aux vôtres, et potentiellement les contenus jugés comme étant trop proches ou dupliqués. Si votre contenu à publier est trop proche d’un contenu existant, c’est à vous d’effectuer les modifications nécessaires sur vos textes. Il existe une multitude d’outils web proposant des solutions adaptées à ce besoin. Si le temps vous le permet, il vous est possible d’effectuer ces vérifications manuellement, simplement en copiant une partie de vos contenus sur la barre de recherche d’un moteur comme Google (n’oubliez pas les guillemets !).
  3. Dans le cadre de Duplicate Content interne, vérifiez bien que vos URLs, balises Title et Description soient bien uniques. Des outils web sont également disponibles pour faire vos analyses. Si vous traduisez un contenu, le problème de contenu dupliqué peut également se poser si vous n’utilisez pas les bonnes balises.

 

  •  Faites attention à vos paramétrages

Dans le cas où deux contenus sur votre site sont volontairement identiques, il vous faut intégrer des balises “rel=cannonical” avec l’URL original ou des redirections 301, qui indiqueront aux robots de crawl quel est le contenu original, qui sera le seul à être indexé. 

Vous pouvez également utiliser la balise “Noindex” afin de ne pas référencer une page avec du contenu copié d’une autre page ou d’un autre site.

Si votre site est multilingue, que vous souhaitez mettre en place une stratégie SEO internationale ou que vous possédez simplement des contenus identiques traduits en plusieurs langues dans plusieurs pays, il vous faudra utiliser la balise hreflang. Celle-ci permet de faire comprendre aux moteurs de recherche que les contenus ne se font pas concurrence les uns avec les autres mais qu’il s’agit d’un contenu s’adressant à différentes localités et donc différents publics.

Enfin, dans le cas où vous citez simplement des sources, des citations, des phrases citées par des experts, il vous est tout à fait possible d’afficher ces contenus en mettant vos textes entre les balises <blockquote>. Afficher des contenus de ce type sur votre site web est même recommandé pour améliorer l’expérience de lecture de l’utilisateur, prouver vos compétences auprès de celui-ci et améliorer votre référencement naturel.

Il est possible que les outils CMS que vous utilisez vous permettent d’effectuer des paramètres SEO de ce type (plugins…).

 

  • Rédigez correctement vos contrats

Si vous passez par un prestataire externe pour rédiger vos contenus, il est nécessaire de spécifier que les contenus que vous fournis le prestataire ne seront utilisés que par vous-même et que ce contenu n’a pas été fourni à des sites web tierces auparavant.

Avec NLG, la préparation et la qualité de la donnée = la qualité de la description produit ​

Le principal challenge pour générer des descriptions automatiquement grâce à la technologie d’Intelligence Artificielle ‘Natural Language Generation’ est d’avoir des données de qualité malgré la variété de sources, de dimensions, complexité, etc.
 
La technologie NLG utilise des données dites “structurées”. Cela signifie que ces données sont structurées dans un format prédéfini. Cela permet à l’outil de lire les mêmes catégories d’informations pour chaque produit.
 
Si l’on prend l’exemple des descriptions sur les pneumatiques effectuées par Lizeo, grâce à des données structurées, l’outil sera en mesure de lire pour chacun des pneus quel est le nom, la marque, les performances de freinage ou de confort, le type de terrain sur lequel chacun doit essentiellement rouler, etc.
 
Des données mal préparées, qui ne seraient pas correctement structurées ou de mauvaise qualité mènent à une lecture erronée d’une information par la technologie NLG, ou à des erreurs rendant les descriptions incompréhensibles pour un lecteur humain.
 
Mettre en place un système de préparation des données efficace et de Data Quality (définition des règles, dédoublonnage, harmonisation, suppression des données obsolètes, pérennisation, monitoring, etc.) sont des étapes obligatoires pour transformer les données collectées en informations exploitables par la technologie NLG. Afin de vous assurer que vos données soient correctement structurées et de qualité, vous pouvez vous faire accompagner par une entreprise experte de ces sujets comme Lizeo.
 
*https://www.youtube.com/watch?v=mQZY7EmjbMA (2013) – Matt Cutts – Travail au Groupe de Recherche sur la Qualité chez Google

Grâce à la technologie Natural Language Generation, les équipes marketing des sites e-commerce et entreprises de la distribution ont maintenant la possibilité de générer des descriptions marketing produits automatiquement sur la totalité de leur catalogue de produits, avec une structure et des mots-clés permettant d’optimiser le référencement naturel, et ce, sans Duplicate Content. 
 
Vous êtes un site e-commerce, un fabricant avec un important réseau de distribution online et vous souhaitez obtenir des descriptions optimisées en SEO, uniques et multilingues pour booster vos ventes ?