Qué es TF*IDF y por qué debes usarlo. O no.

Análisis TF*IDF. Sexto tutorial de la serie Palabras clave: La guía definitiva.

El análisis TF*IDF está en boca de todos los SEOs y crea disputas allá por dónde pasa pero, ¿funciona o no funciona? En este tutorial descubrirás toda la verdad.

Todo esto lo tienes explicado en el videotutorial de aquí abajo  👇🏼 (si estás suscrito, claro 😉)

Este contenido está restringido a los usuarios de Kiwosan. Accede o regístrate para ver este y el resto de tutoriales.

 

Índice

  • 00:40 Qué es TF-IDF
  • 04:07 Diferencia entre TF-IDF y densidad de palabra clave
    • 03:00 Ejemplo de TF-IDF
  • 04:54 ¿Usa Google el algoritmo TF-IDF?
  • 06:17 Diferencia entre Relevancia y Prominencia de palabras clave
  • 08:05 Para qué sirve el análisis KF – IDF
  • 14:15 Pero entonces, ¿el análisis TF-IDF funciona o no funciona?

 

Qué es TF-IDF

Tf-idf (Term frequency – Inverse document frequency, Frecuencia de término – frecuencia inversa de documento) es una función matemática que expresa cuán relevante es una palabra para un documento en una colección.  Si lo llevamos al mundo web podemos decir que:

Tf-IDf  es una función matemática que expresa cuán relevante es una palabra para el contenido de una web respecto a un conjunto de webs.

Este algoritmo fue desarrollado en los años 1970 como método de Recuperación de la información (Information Retrieval) para encontrar el documento más relevante para cierto término dentro de una colección de documentos.

La fórmula original es la siguiente:

TfIdf (t, d, D)  =  tf (t,d) · idf (t, D)

Se compone de 2 partes:

TF (term frequency)

Calcula la Frecuencia de Término, también conocida como el número de veces que una palabra aparece en un documento, dividido por el número total de palabras en ese documento.

IDF (inverse document frequency – Frecuencia inversa del documento)

Calculada como el logaritmo del número de documentos en el corpus dividido por el número de documentos donde aparece el término específico. Mide la importancia/relevancia, también denominado peso, de un término en un conjunto de documentos.

El producto de ambos valores nos da una métrica que nos permite saber cómo de únicas y relevantes son las palabras de un documento.

Un ejemplo para que se entienda todo mejor:

  • Queremos saber que relevancia tiene la palabra «gato» en nuestra web de gatos en comparación con 10.000.000 de webs de gatos que hay en Internet.

Nuestro web contiene 100 palabras en las que aparece la palabra gato 3 veces. La frecuencia del término (es decir, tf) para gato es (3 / 100) = 0,03.
Supongamos que en esas 10 millones de webs la palabra gato aparece en 1000 de ellas. Entonces, la frecuencia de documento inversa (es decir, idf) se calcula como log (10.000.000 / 1.000) = 4. Por lo tanto, la métrica Tf-idf es el producto de estas cantidades:

TfIdf (gato) = (3/100) · log(10000000/1000) = 0.03 * 4 = 0.12

Si hacemos eso para cada palabra de nuestra web obtenemos un puntuación de relevancia de cada palabras y al ordenarlas de mayor a menor nos podemos hacer una idea de las palabras más importantes del contenido.

En resumen, lo que hace esta fórmula es eliminar las palabras poco relevantes (ya sea porque se repiten mucho o porque aparecen en todos los documentos), como por ejemplo artículos (el, la, los, las…), preposiciones (a, bajo, con, contra…) y dejar solo las palabras relevantes además de asignarle una puntuación según si es más relevante o menos.

 

¿Tf*Idf, Kf*Idf, Wdf*Idf?

Es posible que además de Tf-Idf hayas visto otras terminologías como KF*IDF, Wdf*idf y similares. Esto es porque no existe una única formula, hay variaciones y a cada variación se le llama de otra manera pero al final vienen a hacer todas lo mismo con ligeras diferencias o modificaciones.

formulas tf idf seo
Diferentes fórmulas para el Tf-Idf. Wikipedia.

 

Diferencia entre TF-IDF y densidad de palabra clave

La densidad de palabra clave es el número de veces que repite un palabra dividido entre el número de palabras totales de un texto. Es una medida en porcentaje (%) de 0 a 100. Solo se tiene en cuenta esta palabra clave para ese texto, nada más. No existe una densidad de palabra clave ideal que se pueda aplicar a cualquier tema a la hora de escribir un contenido, dependerá del término, de la temática, del tipo de contenido, etc.

Sin embargo, en la fórmula TF IDF tenemos 2 partes, la parte TF que, como he comentado antes, se puede asemejar a una variación logarítmica de la densidad de palabra clave pero por otro lado tiene la parte de IDF que tiene en cuenta el conjunto de todos los textos y es dónde reside la principal diferencia y hace que esta fórmula tenga sentido.

 

¿Usa Google el algoritmo TF-IDF?

Respuesta corta: (Probablemente) No.

Respuesta larga:  John Mueller dijo en un directo «usamos una tonelada de técnicas diferentes de recuperación de información. Y hay toneladas de estas métricas que han salido a la luz a lo largo de los años». La fórmula TF-IDF es antigua, la tecnología avanza muy rápido y Google va a la cabeza de la inteligencia artificial por lo que es de suponer que tengan algoritmos propios mejorados, redes neuronales y cosas que ni imaginamos para poder analizar todo el contenido de Internet.

¿Por qué he dicho en la respuesta corta «probablemente»? Porque realmente no lo sabemos ya que ni lo han negado ni confirmado pero es posible que usen algoritmos mejorados (como el Okapi BM25) que parten de la fórmula original del TF IDF.

Diferencia entre Relevancia y Prominencia de palabras clave

Se habla mucho sobre prominencia y relevancia de las palabras clave y normalmente se habla erróneamente. Así que vamos a zanjar este asunto con 2 sencillas definiciones y ejemplos.

Prominencia: Hace referencia a la ubicación de las palabras en un contenido.

No es lo mismo poner la palabra clave principal en medio del tercer párrafo que en el H1, o poner una long tails al final del texto que en un H2. Dónde esté colocada esa palabra importa. Lo recomendado es que las palabras clave principales y las long tails se pongan en los títulos (H1-H4), URL, texto ancla de los enlaces (anchor text), negritas y texto alternativo de una imagen. Por supuesto, puedes escribir un texto sin hacer nada de eso y poner las palabras clave donde quieras pero esas palabras tendrán menos prominencia.

Relevancia: Hace referencia a la importancia de las palabras en un contenido.

Hay palabras que para una temática con una intención de búsqueda definida son mejores que otras. Si por ejemplo un usuario busca «razas de perros» es porque busca información sobre razas de perros y tu hablarás de razas de perros, de tamaños, de pedigree, etc. Pero no hablarás, por ejemplo, de que los chihuahuas suelen tener luxación de rótula porque no es relevante. Informarse de enfermedades de perros sería otra búsqueda diferente donde si tendría sentido y sería relevante hablar de eso. Por lo tanto la relevancia es la importancia que tienen las palabras para esa temática e intención independientemente de donde estén ubicadas.

¿Quieres probar Kiwosan 🐴 GRATIS durante 15 días?

¡Sí, quiero! 😄

Para qué sirve el análisis KF – IDF

Vale, después de todas estás explicaciones puede que te estés preguntando, ¿pero todo esto para qué sirve? Lo que hacen las herramientas que tienen este análisis es para una palabra clave dada, van a Google, cogen el contenido de las 10-20 primeras webs y lo analizan aplicando la fórmula.  Como resultado da una lista de todos los términos encontrados con su puntuación de relevancia. No hay que usar todas las palabras que nos dé el análisis. Nuestro trabajo como SEOs será analizar esas palabras y elegir las adecuadas para nuestro contenido.

El análisis KF*IDF de Kiwosan nos arroja en primer lugar esta gráfica para ver de un vistazo como de optimizado está nuestro contenido (línea amarilla) frente al contenido del TOP 10 de Google (barras azules). Si el la línea amarilla se encuentra en la zona azul oscuro quiere decir que esa palabra está optimiza, si está por encima entonces está sobreoptimizada y si queda por debajo es que necesita mejorar.

analisis kf idf formato gráfica
Análisis KF*IDF de Kiwosan en formato gráfica. Palabra clave analizada «qué es seo».

 

Después tenemos los mismos datos de la gráfica pero en formato tabla para ver que palabras o términos está bien, cuáles están al límite (o sobreoptimizados), cuales tenemos que añadir y por último, cuales necesitan mejorar.

analisis kf idf formato tabla
Análisis KF*IDF de Kiwosan en formato tabla. Palabra clave analizada «qué es seo».

Con estas palabras podremos:

  • Optimizar el contenido actual y SEO On Page de una web (URL) comparando la relevancia del contenido con el del TOP de Google.
    Puedes utilizarlo para medir la relevancia que tiene tu palabra clave objetivo en comparación con tus competidores. Calcula fácilmente los términos relacionados. Y lo que es más importante, es posible que hayas pasado por alto términos que tendrían un gran impacto en la relevancia de tu contenido.
  • Crear nuevos contenidos.
    Antes de empezar a escribir puedes conseguir todos los términos relevantes de las webs TOP de Google y asegurarte que no te pierdes ninguno.
  • Investigación de palabras clave.
    Todos los términos que consigues con este análisis pueden ser simples términos relevantes de mencionar, términos LSI y por supuesto, palabras clave long tails.

Si quieres conocer en profundidad esta herramienta aquí tienes el tutorial 👉🏼 Tutorial Análisis KF*IDF

 

Pero entonces, ¿el análisis TF-IDF funciona o no funciona?

La controversia que genera este análisis es porque Google supuestamente no lo utiliza y en caso de que lo utilizara usaría todas las webs de Internet para hacer el análisis mientras que las herramientas SEO solo hacen el análisis usando el TOP 10 o 20 de Google por lo que tienen mucha menos información y el análisis es peor.

Mi conclusión es que da igual si Google lo usa o no lo usa. Este análisis analiza las páginas web TOP de Google, es decir las mejor posicionadas, y me da los términos más relevantes que luego yo analizaré y usaré en mi contenido si creo conveniente. ¿Dónde está el problema? 🤔

Por lo tanto yo, Horse Luis, digo que el análisis TF-IDF SÍ FUNCIONA.

Otros artículos muy interesantes y que merecen mucho la pena 👇

Categorías SEO

7 comentarios en “Qué es TF*IDF y por qué debes usarlo. O no.

    • Gracias Carlos, la verdad es que hay mucha infoxicación en Internet y es difícil encontrar contenidos de calidad sobre este tema, por eso me decidí yo a crear uno propio.

      Me alegra que te haya servido 😄

      Un saludo

      Responder
  1. Me super encanto el articulo, pues estaba buscando mayor información sobre esto y aquí me despejaron mis preguntas, sobre si los 10 millones es un número estandarizado o de donde sacan 1000…. etc. Así que me agrado la manerra en la que se explicara y sobre todo el WDF pues pensé que era lo mismo y la prominencia también, pensé que era lo mismo. Muchas gracias me súper gusto el tema

    Responder
    • Muchas gracias Joaquín, me alegra que te haya ayudado y resuelto las dudas.

      Ese el objetivo de estos artículos, enseñar nuevos conceptos SEO explicados de la mejor forma y con ejemplos 😄

      Un saludo

      Responder
  2. Buenísimo el artículo.
    Ya sabes que uso mucho esta métrica para los textos de mis clientes y tu explicación me va genial para ayudarles a comprender la importancia del TF*IDF

    Responder
    • Gracias Sofía 😄

      La verdad es que es un tema técnico y algo complejo de entender, he intentado explicarlo de la forma más sencilla posible para que se entienda, espero haberlo conseguido 😊

      Un saludo

      Responder

Deja un comentario

Información sobre la Protección de Datos
Responsable: Ángel Rodríguez
Finalidad: Moderar los comentarios a los artículos publicados en el blog.
Legitimación: Consentimiento del usuario.
Destinatarios: No se comunicarán datos a persona u organización alguna.
Derechos: Tienes derecho a Acceder, rectificar y suprimir los datos.
Plazo de conservación de los datos: Hasta que no se solicite su supresión por el interesado.