Détection de doublons
Le contenu dupliqué cannibalise les rankings. Deux articles sur le même sujet se partagent le jus SEO ; Google en choisit un (souvent le mauvais) et déclasse le reste. SeoFreshUp détecte deux types de doublons.
Similarité classique
Comparaison basée sur les tokens : prend le titre + 500 premiers mots de chaque article, calcule un score de similarité, flag les paires au-dessus d’un seuil (par défaut 80 %).
Détecte : articles republiés, contenu syndiqué, articles copiés d’un à l’autre avec des modifs mineures.
Manque : articles couvrant le même sujet en mots complètement différents.
Matching sémantique IA
Détection par LLM : groupe tes articles en ~clusters et demande à l’IA lesquels couvrent le même sujet quel que soit le wording.
Détecte : « 10 meilleurs plugins SEO WordPress » + « Top plugins SEO WordPress 2026 » + « Meilleurs plugins WP pour le SEO » (mots différents, même sujet).
Coût : ~0,005 $ par article analysé via gpt-4o-mini. Pour un blog de 1000 articles : ~5 $ pour le scan sémantique complet.
Comment lancer
Dans l’onglet 📑 Doublons :
- Clique 🔍 Scan classique (gratuit, rapide — 30 sec pour 1000 articles)
- Optionnellement clique 🤖 Scan IA sémantique (payant, plus lent — 2-5 min pour 1000 articles)
Les deux scans se complètent — lance le classique d’abord pour nettoyer les doublons évidents, puis le sémantique pour analyse plus profonde.
Travailler avec les résultats
Chaque cluster de doublons montre :
- Les articles concernés (titre, URL, trafic, verdict IA, âge)
- Score de similarité ou niveau de confiance IA
- Canonique recommandé (l’article avec le plus de trafic / meilleur verdict / URL la plus ancienne)
Pour chaque cluster, choisis :
- ✓ Choisir comme canonique — garde celui-ci, redirige ou NOINDEX le reste
- 🔀 Redirect — redirige 301 des doublons vers le canonique (préserve le SEO)
- 🗑 Supprimer — corbeille les doublons (auto-301 vers canonique)
- 🚩 Pas un doublon — marque comme faux positif, ignoré dans futurs scans
Pourquoi c’est important
L’équipe qualité Google mentionne explicitement le contenu dupliqué comme signal thin/spam. Un blog avec 30 % d’articles dupliqués récolte un signal de pénalité globale qui affecte même ton contenu unique.
Nettoyer les doublons est l’une des actions les plus rentables pour un blog vieillissant.
Impact performance
- Scan classique : pas cher, rapide. À lancer hebdo si tu publies beaucoup.
- Scan IA sémantique : plus cher, à lancer trimestriellement ou après ajouts de contenu majeurs.