Aller au contenu

Détection de doublons

Le contenu dupliqué cannibalise les rankings. Deux articles sur le même sujet se partagent le jus SEO ; Google en choisit un (souvent le mauvais) et déclasse le reste. SeoFreshUp détecte deux types de doublons.

Similarité classique

Comparaison basée sur les tokens : prend le titre + 500 premiers mots de chaque article, calcule un score de similarité, flag les paires au-dessus d’un seuil (par défaut 80 %).

Détecte : articles republiés, contenu syndiqué, articles copiés d’un à l’autre avec des modifs mineures.

Manque : articles couvrant le même sujet en mots complètement différents.

Matching sémantique IA

Détection par LLM : groupe tes articles en ~clusters et demande à l’IA lesquels couvrent le même sujet quel que soit le wording.

Détecte : « 10 meilleurs plugins SEO WordPress » + « Top plugins SEO WordPress 2026 » + « Meilleurs plugins WP pour le SEO » (mots différents, même sujet).

Coût : ~0,005 $ par article analysé via gpt-4o-mini. Pour un blog de 1000 articles : ~5 $ pour le scan sémantique complet.

Comment lancer

Dans l’onglet 📑 Doublons :

  1. Clique 🔍 Scan classique (gratuit, rapide — 30 sec pour 1000 articles)
  2. Optionnellement clique 🤖 Scan IA sémantique (payant, plus lent — 2-5 min pour 1000 articles)

Les deux scans se complètent — lance le classique d’abord pour nettoyer les doublons évidents, puis le sémantique pour analyse plus profonde.

Travailler avec les résultats

Chaque cluster de doublons montre :

  • Les articles concernés (titre, URL, trafic, verdict IA, âge)
  • Score de similarité ou niveau de confiance IA
  • Canonique recommandé (l’article avec le plus de trafic / meilleur verdict / URL la plus ancienne)

Pour chaque cluster, choisis :

  • ✓ Choisir comme canonique — garde celui-ci, redirige ou NOINDEX le reste
  • 🔀 Redirect — redirige 301 des doublons vers le canonique (préserve le SEO)
  • 🗑 Supprimer — corbeille les doublons (auto-301 vers canonique)
  • 🚩 Pas un doublon — marque comme faux positif, ignoré dans futurs scans

Pourquoi c’est important

L’équipe qualité Google mentionne explicitement le contenu dupliqué comme signal thin/spam. Un blog avec 30 % d’articles dupliqués récolte un signal de pénalité globale qui affecte même ton contenu unique.

Nettoyer les doublons est l’une des actions les plus rentables pour un blog vieillissant.

Impact performance

  • Scan classique : pas cher, rapide. À lancer hebdo si tu publies beaucoup.
  • Scan IA sémantique : plus cher, à lancer trimestriellement ou après ajouts de contenu majeurs.

La suite ?