Contenido duplicado: Causas y soluciones

Los motores de búsqueda como Google tienen un problema. Le llaman “contenido duplicado”: tu contenido está siendo mostrado en diferentes páginas adentro y afuero de tu sitio y no saben cual es la ubicación que deben de mostrar. Especialmente cuando las personas comienzan a vincular diferentes versiones del contenido, el problema crece. Este artículo está diseñado para que entiendas las diferentes causas de contenido duplicado y encuentras las soluciones para cada una de ellas.

  1. Causas del contenido duplicado
    1. No entender el concepto de una URL
    2. Identificadores de sesión
    3. Parámetros de URL
    4. Sindicación de contenidos
    5. Orden de parámetros
    6. Paginación de comentarios
    7. Páginas listas para imprimir
    8. WWW vs. sin-WWW
  2. Solución conceptual: URL Canónica
  3. Identificar problemas de contenido duplicado
    1. Google Search Console
    2. Buscar títulos o fragmentos duplicados
  4. Soluciones prácticas para contenido duplicado
    1. Evitar contenido duplicado
    2. Redirecciones 301
    3. rel=”canonical”
    4. Vínculo al contenido original
  5. Conclusión

Lo puedes comparar con estar en una calle, y las señales van en dos direcciones diferentes pero llegan al mismo destino: ¿Qué camino deberías de seguir? Y ahora, para hacerlo “peor”, el destino también es diferente, pero solo un poco. Como lector, no te molesta: encuentras el contenido que buscas. Pero un motor de búsqueda tiene que elegir que mostrarte en los resultados, porque no quiere mostrarte el mismo resultado dos veces.

Digamos que tienes un artículo sobre la palabra clave x que aparece en http://ejemplo.com/palabra-clave-x/ y exactamente mismo contenido también aparece en http://ejemplo.com/categoria-articulo/palabra-clave-x/, una situación que no es de ficción: esto sucede mucho con los sistemas de manejo de contenido actuales. Tu artículo lo han encontrado muchas personas y algunas de ellas hacen un vínculo hacia la primera URL, otros vinculan la segunda URL. Es ahora cuando el problema del motor de búsqueda revela su verdadera naturaleza: es tu problema. Este contenido duplicado es tu problema porque esos links están promocionando diferentes URLs. Si todos hacen un link a la misma URL, tus probabilidades de estar en primeras posiciones con la palabra clave x debe de ser.

1. Causas del contenido duplicado

Hay docenas y docenas de razones que causan contenido duplicado. La mayoría de ellas son técnicas: no es común que un humano decida poner el mismo contenido en diferentes lugares sin distinguir la fuente original. Sin embargo, la razones técnicas son muchas. Sucede porque muchos desarrolladores no piensan como un explorador o como un usuario y mucho menos como un motor de búsqueda, piensan como desarrolladores. Por lo tanto el artículo mencionado arriba, que aparece en http://ejemplo.com/palabra-clave-x/ y http://ejemplo.com/categoria-articulo/palabra-clave-x/, si le preguntas al desarrollador te dirá que solamente existe una vez.

1.1 No entender el concepto de una URL

¿El desarrollador se ha vuelto loco? No, solo está hablando un idioma diferente. Probablemente, si usas WordPress por ejemplo, todo el sitio web está basado en una base de datos. En esa base de datos, solo hay un artículo, solo que el software del sitio web permite que ese mismo artículo en la base de datos pueda ser accedido a través de varias URLs. Eso sucede porque en los ojos del desarrollador, el identificado único de ese artículo es un ID que tiene en la base de datos, no la URL. Sin embargo, para los motores de búsqueda, la URL es el identificador único de una pieza de contenido. Si le explicas eso a un desarrollador, comenzará a entender el problema. y después, si es como muchos desarrolladores, te dirá muchas razones por las cuales eso es una estupidez del motor de búsqueda y que no puede hacer nada al respecto. Eso NO es cierto.

1.2 Identificadores (ID) de sesión

Muchas veces quieres rastrear tus visitantes, y si es posible, por ejemplo, guardar los productos que quieren comprar en un carrito de compras. Para hacer eso, tienes que darles una “sesión”. Una sesión es básicamente un breve historial de lo que el visitante hizo en tu sitio, y puede contener cosas como los productos en su carrito de compras. Para mantener esa sesión mientras que un usuario da clicks a varias páginas, el identificador único de esa sesión, debe de ser guardado en algún lugar. La solución más común es usar cookies, sin embargo, los motores de búsqueda usualmente no guardan las cookies.

Lo que sucede en esos casos es que muchos sistemas guardan la ID de la sesión en la URL. En ese caso todos los links internos en el sitio web tienen esa ID al final de la URL, y como esa ID es única para cada sesión, crea nuevas URLs y por lo tanto contenido duplicado.

1.3 Parámetros de URL usados para rastreo y clasificación

Otra causa de contenido duplicado es el uso de parámetros de URL que no cambien el de contenido de la página, por ejemplo, links de rastreo. Verás,

http://ejemplo.com/palabra-clave-x/

y

http://ejemplo.com/palabra-clave-x/?source=rss

no son la misma URL para un motor de búsqueda. La última te permitirá rastrear de donde llegaron tus visitas, pero también te hará más difícil tener un buen ranking, un efecto secundario muy malo.

Esto no sólo es cierto para parámetros de rastreo, también lo es para cualquier parámetro que puedes agregar a una URL que no cambie el contenido de la misma. No importa si ese parámetro está clasificando los productos o mostrando otra barra lateral: todos causan el mismo impacto.

1.4 Sindicación de contenidos

Aunque la mayoría de las causas de contenido duplicado se deben errores tuyos, o por lo menos de tu sitio web, algunas veces otros sitios usan tu contenido, con o sin tu consentimiento. Estos no siempre vinculan tu artículo original, por lo que los motores de búsqueda no lo entienden y tienen que tratar con otra versión del mismo artículo.

Mientras más popular se vuelva tu sitio, este problema será más grande.

1.5 Orden de parámetros

Otra causa común es que los sistemas de manejo de contenido no usan URLs bonitas y limpias, en vez de eso usan URLs como: /?id=1&cat=2, donde la ID se refiere al artículo y cat se refiere a la categoría. La URL /cat=2&?id=1 mostrará los mismos resultados en la mayoría de los sistemas, pero son completamente diferentes para un motor de búsqueda.

1.6 Paginación de comentarios

Tanto en WordPress como en otros sistema de contenido, hay una opción de incluir paginación en los comentarios. Esto lleva a que el contenido este duplicado en la URL de ese artículo, y la URL + /pagina-de-comentarios-1/, /pagina-de-comentarios-2/, etc.

1.7 Páginas listas para imprimir

Si tu sistema de manejo de contenido crea páginas listas para imprimir y haces un vínculo hacia ellas desde tu artículo, en la mayoría de los casos, Google las encontrará si no las bloqueas. ¿Qué versión debería de mostrar Google?

1.8 WWW vs. sin-WWW

Uno de los más viejos en el libro, pero aún así los motores de búsqueda no lo entienden: contenido duplicado WWW vs. sin-WWW, cuando ambas versión son accesibles. Una situación menos común también es problemática: http vs. https, cuando el mismo contenido es servido en ambos protocolos.

2 Solución conceptual: Una URL “canónica”

Como lo vimos arriba, el hecho de que muchas URLs lleven al mismo contenido es un problema, pero puede ser resuelto. Un humano trabajando en un artículo probablemente te pueda decir fácilmente cual es la URL “correcta” para ese artículo. La cuestión divertida es que, a veces, cuando le preguntas a tres personas en la misma empresa, te van a dar tres respuestas diferentes…

Ese es un problema que necesita solución, porque al final, solo puede haber una URL. Esa URL “correcta” para esa pieza contenido es la llamada URL Canónica para los motores de búsqueda.

En una nota irónica: canónica es un término derivado de la tradición católica romana, donde se creó una lista de libros sagrados y aceptados como genuinos, que fueron apodados los Evangelios canónicos del Nuevo Testamento. La ironía es: la iglesia católica romana se tomó cerca de 300 años y numerosas peleas para llegar a esa lista canónica, y finalmente optó por 4 versiones de la misma historia …

3 Identificar problemas de contenido duplicado

Puede ser que no sepas que tienes problemas de contenido duplicado en tu página web o en tu contenido. Aquí hay algunos métodos para que descubras si los tienes:

3.1 Google Search Console

Google Search Console es una gran herramienta para identificar contenido duplicado. Si vas a Google Search Console para tu sitio, revisa Apariencia de búsqueda -> Mejoras HTML y verás algo así:

search console contenido duplicado en mi pagina web

Si las páginas tienen títulos o descripciones duplicadas, eso casi nunca es algo bueno. Hacer click en ellas te revelará las URLs que tienen títulos o descripciones duplicadas y te ayudará a identificar el problema. El problema es que si tienes un artículo como el de arriba de “palabra clave x”, y aparece en dos categorías, puede ser que los títulos sean diferentes. Podrían ser “Palabra Clave X – Categoría X – Sitio de Ejemplo” y “Palabra Clave X – Categoría Y – Sitio de Ejemplo”. Google no detectará esos títulos duplicados, pero puedes encontrarlos buscando.

Si no encuentras o no sabes si tu página web tiene problemas de contenido duplicado no dudes en enviarme un mensaje.

3.2 Busca títulos o fragmentos duplicados

Hay muchos operadores de búsqueda que son muy útiles para casos como estos. Si quieres encontrar todas las URLs de tu sitio que contengan la Palabra Clave X, debes de ingresar esto en Google:

site:ejemplo.com intitle:"Palabra Clave X"

Google te mostrará todas las páginas en ejemplo.com que contengan esa palabra clave. Mientras más específica sea la parte de intitle, más fácil te resultará encontrar contenido duplicado. Puedes usar el mismo método para encontrar contenido duplicado en internet. Digamos que el título completo de tu artículo era “Palabra Clave X – Porque es increíble”, entonces tendrías que buscar:

intitle:"Palabra Clave X - Porque es increíble"

Entonces Google te mostraría una lista de todos los sitios que tengan ese título. Algunas veces vale la pena hacer una búsqueda de un par de enunciados completos de tu artículo, ya que algunos rastreadores podrían cambiar el título. En algunos casos, cuando haces una búsqueda así, Google te mostrará un mensaje como este en la última página de resultados:

contenido duplicado en Google

Esto es una señal de que Google ya está depurando los resultados. Pero eso no es lo que buscas, así que vale la pena hacer click en el link y ver todos los otros resultados.

4 Soluciones prácticas para contenido duplicado

Una vez que has decido que URL es la URL canónica para una pieza de contenido, debes de comenzar un proceso de canonicalización. Esto básicamente significa que debes de decirle al motor de búsqueda cual es la versión canónica de una página tan pronto como sea posible. Básicamente, hay cuatro métodos de resolver el problema, en orden de preferencia:

  1. Evitar contenido duplicado
  2. Hacer redirecciones 301 del contenido duplicado
  3. Usar vínculos rel=”canonical”
  4. Hacer un vínculo al contenido original

4.1 Evitar contenido duplicado

Algunas de las causas anteriores de contenido duplicado tienen soluciones muy sencillas:

  • ¿Tienes ID de sesión en un tus URLs?
    Estas muchas veces pueden ser desactivadas en tu sistema.
  • ¿Tienes páginas listas para imprimir duplicadas?
    Estas son completamente innecesarias: debes de utilizar un CSS para impresora.
  • ¿Estás usando paginación de comentarios en WordPress?
    Esta característica debe de ser desactivada en el 99% de los sitios (Ajustes -> Comentarios)
  • ¿Parámetros en diferente orden?
    Dile a tu programador que escriba un script para que los parámetros siempre estén en el mismo orden.
  • ¿Problemas con links de rastreo?
    En la mayoría de los casos puedes usar un rastreo basado en hashtags en lugar de parámetros.
  • ¿Problemas de WWW vs sin-WWW?
    Elige uno y quédate con el redirigiendo el uno al otro. También puedes seleccionar en Google Search Console, pero tendrás que registrar ambas versiones del dominio.

Si tu problema no se soluciona así de fácil, sigue valiendo la pena el esfuerzo y prevenir que el contenido duplicado aparezca. Es por mucho la mejor solución al problema.

4.2 Hacer redirecciones 301 del contenido duplicado

En algunos casos es imposible prevenir completamente que el sistema que estés usando cree una URL incorrecta para el contenido, pero si es posible hacer redirecciones. Si esto no es lógico para ti (lo cual es entendible) mantenlo en mente cuando hables con tus desarrolladores. Si no logras eliminar todos los problemas de contenido duplicado, asegúrate que todo el contenido duplicado viejo utilice las correctas URLs canónicas.

4.3 Usar vínculos rel=”canonical”

A veces no quieres o no puedes eliminar completamente una versión duplicada de un artículo, pero si sabes cual es la URL incorrecta. Para ese caso específico, los motores de búsqueda han introducido el elemento canónico. Este se coloca en el de tu sitio y se así:

<link rel="canonical" href="http://ejemplo.com/URL-canonica-correcta">

En la sección href debes de poner la URL canónica correcta de tu artículo. Cuando Google (o cualquier otro motor de búsqueda que lo soporte) encuentre el elemento, sabrá que es una redirección 301 suave: transfiere la mayoría del valor del vínculo generado por esa página a la página canónica.

Este proceso es un poco más lento que una redirección 301, por lo que si puedes hacer redirecciones 301 sería mucho mejor.

4.4 Hacer un vínculo al contenido original

Si no puedes hacer nada de lo arriba mencionado, tal vez por que no tengas control de la sección <head> del sitio donde aparece tu contenido, añadir un vínculo a tu contenido original antes o después del artículo siempre es una buena idea. Esto es algo que tal vez quieras hacer en el contenido RSS: añadir un vínculo al artículo en el. Algunos rastreadores filtrarán ese vínculo, pero muchos otros lo dejaran ahí, si Google encuentra muchos vínculos hacia tu artículo se dará cuenta que esa es la versión canónica del mismo.

5 Conclusión: El contenido duplicado puede y debe de ser arreglado

El contenido duplicado sucede en todos lados. Sería muy difícil encontrar un sitio con más de 1,00 páginas que no tenga por lo menos un poco de problemas de contenido duplicado. Es algo que debes de tomar en cuenta siempre. Claro que lo puedes arreglar y la recompensa es grande. Tu contenido de calidad puede surgir en las primeras posiciones solo deshaciéndote del contenido duplicado en tu sitio.

Si necesitas más ayuda con el contenido duplicado en tu página web, no dudes en enviarme un mensaje.

Fuente: Yoast

2 Comentarios

  1. Muy completo e interesante articulo me saco unas cuentas dudas y me ayudo a resolver varias situaciones que me habian quedado pendientes en algunos casos.

Deja un comentario

You have to agree to the comment policy.