Muitas ferramentas ou consultores de SEO baseiam suas criações e/ou otimizações de conteúdo no método TF*IDF. Embora o TF IDF nos dê a impressão de melhorar nossos conteúdos, na realidade ele não resolve os problemas de SEO.
Ao aprender mais sobre seu uso e funcionamento, você descobrirá que o uso do TF-IDF pode induzir ao erro suas otimizações de conteúdo.
O que é o TF*IDF?
O TF-IDF (para Term Frequency e Inverse Document Frequency) é uma medida usada para determinar a relevância de um termo em um documento. A fórmula leva em conta a frequência de um termo (TF) em um documento específico, bem como o número de documentos que contêm essa palavra (IDF). O TF IDF permite distinguir os elementos diferenciadores (neste caso, as palavras) de um documento para outro.
Para saber mais sobre o método e seu cálculo, visite aqui https://www.seoquantum.com/billet/optimisez-vos-contenus-mots-rares
O Google usa o método TF IDF? Esta medida ainda é relevante?
O Google (via John Mueller) sugeriu que o uso deste método pelo mecanismo de busca é limitado. Ele menciona o TF-IDF pela primeira vez quando aborda o assunto da exclusão de palavras vazias.
Isso não é surpreendente, dado o avanço do banco de dados Knowledge Graph e dos algoritmos Colibri e Rankbrain. O Google está constantemente evoluindo. Sua compreensão da linguagem está sempre melhorando à medida que aprende a lidar com as ambiguidades da linguagem humana.
O Google também está melhorando sua capacidade de lidar com consultas com múltiplos significados. No entanto, o algoritmo está longe de ser perfeito. Como veremos, isso representa um sério desafio para aqueles que usam o método de análise TF-IDF para otimização de conteúdo.
Por que o TF-IDF nos dá a impressão de funcionar?
Apesar do uso limitado desta tecnologia datada pelo Google, muitos consultores de SEO e ferramentas semânticas apreciam o TF-IDF. Por quê?
O TF-IDF é um conceito relativamente desconhecido na comunidade SEO. Como este método de análise não é familiar para muitos especialistas em SEO ou ferramentas, eles erroneamente pensam que é uma tecnologia de ponta. Isso lhe confere um certo prestígio.
Poucos conhecem a história do TF-IDF. A maioria não conhece sua verdadeira idade (os anos 1970) nem seu verdadeiro objetivo. Dica: este método não foi criado para otimização de conteúdo. Para saber mais, visite os trabalhos de G. Salton e K. Spärck Jones.
Os especialistas em SEO acreditam que o TF-IDF desempenha um papel importante no funcionamento dos algoritmos de pesquisa do Google. Como vários patentes e algumas publicações fazem referência a ele, existe uma suposição errônea sobre o papel que esta tecnologia desempenha.
O TF-IDF parece um método sofisticado para a maioria dos consultores de SEO. É raro que eles tenham sido treinados em ciência de dados. É por isso que é fácil para eles supor que a complexidade aparente deste método se traduz em sua eficácia.
Quem não gostaria de usar uma tecnologia sofisticada e revolucionária para otimizar os motores de busca? Parece tão promissor!
Exceto que não é.
6 dificuldades encontradas com o TF IDF
Existem várias ferramentas de SEO, gratuitas ou de baixo custo, que prometem ajudá-lo a otimizar seu conteúdo usando o método de análise TF-IDF. Todas essas ferramentas apresentam os seguintes problemas.
O TF-IDF é uma abordagem primitiva
O TF-IDF permite medir a importância de um documento dentro de um corpus, com base em um termo específico. Suas habilidades são limitadas, especialmente quando você usa sinônimos. De fato, um documento considerado muito relevante para "bebê" pode ser ignorado para o termo "recém-nascido".
O Google, por outro lado, sabe que as palavras "bebê" e "recém-nascido" estão fortemente relacionadas (são sinônimos). Ele entende que uma página relevante para um provavelmente é relevante para o outro, a menos que haja indícios de contexto no restante da consulta que provem o contrário. Isso é baseado na co-ocorrência, bem como na probabilidade de ambos serem usados em contextos semelhantes.
O uso do TF para determinar a importância de um termo é uma medida imperfeita
Determinar a importância de um termo com base em sua frequência de uso em uma SERP é uma medida imperfeita.
Se as intenções de pesquisa de metade do corpus diferirem da outra metade, o peso do termo (sua importância) será de 50%. No entanto, se todos os documentos deste corpus usarem uma palavra comum, esta será considerada o termo mais importante, independentemente da intenção.
Portanto, você terá que escolher e se concentrar em uma única intenção. Mas a ferramenta irá desencorajá-lo, pois apenas cinco resultados usam o termo. Ele irá indicar que há apenas cinco resultados em 10.
O IDF, por outro lado, permite contrabalançar a medida do TF para determinar a raridade (os elementos diferenciadores) de uma página.
O uso do método se baseia nas SERPs do Google
As ferramentas semânticas que usam o TF-IDF geralmente exploram os 10 ou 20 primeiros resultados de uma SERP sem estudar as razões pelas quais essas páginas contêm esses tópicos, levantando assim dois vieses:
- As páginas podem dever seu "bom" posicionamento a fatores que não o conteúdo, como o linkagem externa, por exemplo
- O uso de um número pequeno de documentos afeta significativamente a qualidade dos resultados. Essas ferramentas não levam em conta conteúdos de qualidade medíocre ou textos curtos.
A margem de erro é tão alta que mesmo levando em conta as fraquezas dessas ferramentas, você não terá as informações necessárias para tomar decisões informadas.
Eu sugiro que você economize tempo usando outras ferramentas mais eficazes. É importante analisar todo o conteúdo que aborda seu tópico.
O método de análise TF-IDF e as ferramentas que calculam a densidade de palavras-chave não permitem isso. Se você seguir seus conselhos, terá tantas chances de sucesso quanto se tivesse jogado na loteria.
O TF-IDF analisa e agrupa páginas com objetivos diferentes
Selecionar todas as páginas que aparecem entre os primeiros resultados do Google cria outros problemas. Você pode incluir páginas muito gerais, muito específicas ou relacionadas a um setor diferente do seu.
Além disso, o TF-IDF não entende as intenções de pesquisa.
Em outras palavras, se você tem um conteúdo de qualidade, focado em uma intenção de pesquisa diferente, você será induzido ao erro.
Se você tem um conteúdo de baixa qualidade cujo SEO off-site foi bem otimizado, você também será direcionado para o caminho errado. Se você está indeciso entre várias intenções, a ferramenta também não será eficaz.
Em azul, as páginas com um objetivo informativo, em verde as páginas com um objetivo comercial e em amarelo um objetivo transacional.
As ferramentas que usam o método TF-IDF levam em conta apenas as páginas
Ao se limitar às páginas, essas ferramentas não têm consciência da totalidade do seu site.
Escrever uma única página sobre um assunto geralmente não é suficiente para otimizar o conteúdo. Para fazer bem, você terá que criar outros conteúdos que aumentarão sua relevância temática e permitirão o uso de textos âncora e links internos.
Na SEOQuantum, criamos o crawler semântico para ajudá-lo nesta tarefa.
Uma nota que não tem significado
Dar uma nota a uma página com base em sua conformidade com o TF-IDF parece à primeira vista uma boa ideia. Mas se você não pode aprender mais sobre o site ou a página, essa informação é sem sentido e não é utilizável.
Considere que a página com a nota mais alta pode:
- ter um objetivo diferente do seu
- Ter muito mais ou muito menos autoridade
- Ter vários objetivos
- Cobrir vários tópicos
Acreditamos na IA e em sua ajuda valiosa no enriquecimento de conteúdos, especialmente por meio de conceitos-chave. Aqui para babyphone, a IA distinguiu 3 conceitos: as funções do aparelho, a emissão de ondas e a distância do emissor.
Socorro, meu copywriter usa o TF IDF
As ferramentas que usam o método TF-IDF promovem maus hábitos entre os copywriters e especialistas em SEO. Eles tentam construir o conteúdo em torno de palavras que não são adequadas ou adicionam seções que não correspondem à intenção de pesquisa.
Mesmo que seja possível encontrar inspiração com esta lista, ela está longe de ser uma solução real.
O que acontece quando você cria uma lista de palavras-chave usando esta metodologia? Os tópicos e as intenções dos diferentes termos variarão. A pessoa que receberá esta lista não saberá o que fazer com ela. É simplesmente ineficaz.
O TF-IDF: as vantagens
Apesar de sua ineficácia e imprecisão, parece haver valor em usar este tipo de abordagem. Este método permite, entre outras coisas, inspirar você ou fazer você descobrir um tópico no qual você não havia pensado. Mas também pode ajudá-lo a perceber que você superotimizou sua página (muitas palavras-chave...).
Conclusão
Esta metodologia tem mais de 50 anos e desempenha um papel muito limitado no funcionamento dos algoritmos de pesquisa do Google. Não é uma tecnologia de ponta.
Suas páginas devem ser completas e de qualidade (princípio do pilar de conteúdo).
O modelo TF-IDF não o ajudará a alcançar este objetivo.
Os motores de busca às vezes usam o modelo TF-IDF em complemento a outros fatores.
É apenas um dos elementos para fazer pesquisas no âmbito da otimização de conteúdo. As ferramentas de SEO que usam o TF-IDF não são soluções completas. Eles não fornecerão as informações necessárias para tomar decisões informadas.
Você pode muito bem confiar em seu copywriter para tomar essas decisões.
Outros recursos:
- Você pode consultar o artigo de Quentin Fily TF-IDF: Determinar uma pontuação de relevância. Cuidado, eu não concordo com sua conclusão sobre o TF IDF ;)
Need to go further?
If you need to delve deeper into the topic, the editorial team recommends the following 5 contents: