L’optimisation sémantique des contenus en SEO passe par l’évaluation des termes d’un corpus. L’une des méthodes pour déterminer la pertinence des mots dans un texte est l’analyse de la fréquence des termes. La fréquence des termes (TF : term frequency) n’est qu’une partie de la fameuse méthode TF-IDF pour la récupération d’informations. L’autre partie est la fréquence inverse des documents (IDF : inverse document frency), faisons un zoom sur l’IDF. L’article de cette semaine explique la façon dont l’IDF fonctionne. Mon objectif est de vous montrer l’importance de créer du contenu qui présente un caractère unique. Bien entendu, il existe de nombreuses raisons autres que le SEO : réputation, notoriété…
🤔 Qu’est-ce que la fréquence inverse de document (IDF) ?
Prenons un exemple :
Dans la pratique, la première étape consiste à mesurer la fréquence d’apparition des termes dans le corpus (un ensemble de documents). Dans cet exemple, nous voyons que le mot « les » apparaît dans chaque document, cela n’offre aucune information pour distinguer les documents.
Cependant, le mot « enfant » apparaît dans seulement 1000 des documents. De toute évidence, ce mot offre un élément de différenciation pour les documents qui le contiennent. C’est une mesure de la rareté d’un terme.
La fréquence des documents mesure la ressemblance (le fait que les documents possèdent des termes similaires dans leur contenu), ici nous préférons mesurer la rareté.
La formule ressemble à ceci :
Pas d’inquiétudes, voici l’explication. Pour chaque terme, nous prenons le nombre total de documents dans le corpus et le divisons par le nombre de documents contenant notre terme. Cela nous donne la mesure de la rareté du terme. Cependant, nous ne voulons pas que le calcul résultant indique que le mot « enfant » est 500 fois plus important que le mot « jeu », nous prenons le Log Base 10 du résultat, pour linéariser ce calcul. D’un point de vue de moteur de recherche, « Enfant » est donc 10x plus pertinent que le terme « jeu » dans ce corpus.
Voici le tableau des IDF pour les termes :
Vous pouvez constater que le meilleur score revient au terme qui est le plus rare. Intéressant…
❓ À quoi me sert l’IDF ?
« L’IDF comme une mesure de l’unicité » : en cela, les moteurs de recherche peuvent identifier ce qui rend un document donné unique et spécial. Pour ma part, l’IDF apporte beaucoup plus de valeur et d’information que la fréquence d’apparition des termes (densité de mots clés).
Prenons un exemple :
Vous souhaitez vous positionner parmi l’un des 36 millions de sites internet qui apparaissent pour la requête de recherche « jeux d’extérieur, » ? Vous avez donc en concurrence des millions de sites ! Vos chances d’être positionné en TOP10 dans Google pour ce terme basé sur la qualité de votre contenu sont proches de zéro. La seule façon pour vous d’être classé sur cette SERP compétitive et de travailler d’autres facteurs de référencement comme le netlinking, les réseaux sociaux…
Si vous êtes un nouveau sur ce marché, vous n’avez aucune chance de vous démarquer ainsi face à vos concurrents ! Mon conseil est de chercher une alternative différente : vous devriez utiliser des termes supplémentaires afin de compléter la demande de l’internaute. Dans notre exemple, si nous ajoutons le mot « idée » pour « idée de jeux d’extérieur » le nombre de résultats est seulement de 340 000. Avouez-le, c’est nettement moins concurrentiel !
En contournant le sujet principal à l’aide de mots rares, vous avez enfin une chance d’apparaître sur la première page de la SERP. C’est d’ailleurs la raison pour laquelle l’utilisation des mots-clés de longue traîne est aujourd’hui si importante ! Posez-vous les bonnes questions, répondez à l’intention de recherche, et vous serez visible sur le Web !
🔎 Comment trouver en SEO les mots rares ?
L’IDF souligne l’importance de l’unicité dans les contenus que nous créons. Oui, cette stratégie d’unicité ne génère pas autant de visiteurs que si vous étiez classé sur un mot-clé plus générique. Mais si vous êtes nouveau sur un marché concurrentiel, vous ne pourrez pas vous positionner dans le TOP 10 seulement avec votre contenu.
Sur l’outil sémantique SEOQuantum, nous utilisons un indice dans nos analyses WORDPRINT basé sur Okapi BM25, une version évoluée du TF*IDF et probablement utilisée par Google. Cet indice se mesure de 0 à 10 000, une valeur de 10 000 signifie que la lexie est omniprésente dans l’analyse. C’est grâce à cette analyse du Wordprint pour « jeu d’extérieur » que j’ai trouvé les mots rares suivant :
- Idée
- Protection
- Échelle
- Filet
- etc.
Si vous pouvez choisir un nombre plus restreint de mots-clés (ou d’expressions) avec beaucoup moins de concurrence et créer du contenu autour de ces demandes, vous pouvez commencer à vous positionner plus facilement et ainsi obtenir des visiteurs et monétiser votre audience : il s’agit d’une stratégie SEO ROIste. Car même si le volume de recherche mensuel est faible, le trafic que vous attirez est hautement qualifié, ce qui augmente considérablement vos chances de convertir vos prospects en clients !
🎬 Conclusion sur l’utilisation des mots rares en SEO
Lorsque j’ai débuté en 2003, j’étais persuadé que l’analyse et la stratégie de mots-clés reposaient sur la volumétrie de recherches. Avec le temps, cette stratégie s’est trouvée être longue, douloureuse et hasardeuse. Assez rapidement, j’ai compris l’importance de sortir des « sentiers battus » en se démarquant grâce à la fréquence de document inverse (IDF). La création de contenu qui apporte un nouvel angle est souvent un moyen très puissant de débuter votre stratégie de référencement et d’attirer rapidement du trafic qualifié.
🙏 Sources utilisées pour rédiger cet article
Need to go further?
If you need to delve deeper into the topic, the editorial team recommends the following 5 contents: