Natzir Turrado es Consultor SEO

Natzir Turrado

  • Sobre Mi
  • Artículos
    • SEO (Posicionamiento en Buscadores)
    • CRO (Conversión Web)
    • Analítica Web
  • Mi Curso SEO
  • LinkedIn
  • RSS
  • Twitter

647 50 39 47

hola@natzir.com

Estás aquí: Portada > SEO (Posicionamiento en Buscadores) > ¿Nueva forma de tratar el contenido duplicado por parte de Google?

¿Nueva forma de tratar el contenido duplicado por parte de Google?

28 octubre, 2014 por Natzir Turrado

Es probable que Google esté empezando a detectar y a tratar mejor el contenido duplicado que se produce por error dentro de una web y que afecta al SEO de la misma. Me refiero al contenido que suele aparece en webs grandes con filtros, categorías y demás. Porque para el que se produce para copar más resultados alrededor de una query y de baja calidad ya queda bien atado con Google Panda y la detección de n-gramas como podemos ver en esta patente.

Tabla de contenidos

  • 1 Antecedentes
  • 2 Toca SEO-investigar :)
  • 3 Conclusión

Antecedentes

Os pongo en antecedentes para que veáis a qué me refiero. Justo el día que me encuentro con este nuevo aviso de Google Analytics:

Google Analytics alerting on possible duplicate content issues pic.twitter.com/Kc6dRPBrBc

— Natzir Turrado (@natzir9) octubre 15, 2014

Miguel Pascual me comenta (a mi y a otros) un caso extraño de SEO que se ha encontrado con un e-commerce hecho a medida y con bastante antigüedad. Los productos de este e-commerce tienen graves problemas de duplicados por mala definición de arquitectura y sin control de la misma mediante robots.txt, meta robots o canonical:

  • /cat-1/subcat-1/prodID-12
  • /cat-1/subcat-2/prodID-12
  • /cat-2/subcat-1/prodID-12
  • …

Esto provoca que un producto esté duplicado y que Google lo identifique como tal (hasta 8 veces en el producto del siguiente ejemplo):

contenido-duplicado Si miramos la caché de todas las páginas duplicadas vemos que comparten la misma página en caché aunque las otras también estén en su índice. Curiosamente no muestra la caché de la página que debería ser la canónica, sino la que recibe más enlaces internos:

cache-contenido-duplicado Ya sabemos que si existe un canonical en una página Google muestra la versión cacheada de la original, pero como he comentado al principio no existe canonical en ninguna página. Tampoco está implementado el canonical mediante HTTP y no han hecho redirecciones.

Toca SEO-investigar :)

Con todo esto me pongo a investigar y me encuentro que a Google en 2009 le concedieron la patente de un sistema de detección de contenido duplicado. En la patente se habla de varios sistemas para detectar contenido duplicado y de cómo identificar la mejor dirección (canónica) que representa al conjunto: patente-google-contenido-duplicado

En la patente se menciona que a la hora de escoger el documento canónico no lo hace necesariamente por la que tiene más «Page Rank u otra métrica query-independiente». Con lo que no tiene porqué mostrar la que más enlaces internos o externos recibe (como antes he mencionado que ocurría en el ejemplo), pero tampoco lo excluye. Uno de los indicadores posiblemente usados según la patente sería el anchor text y el texto que se encuentra alrededor del enlace (¡semántica!).

También se comenta las razones de porqué es necesario para un buscador identificar este tipo de documentos idénticos (y por consecuencia al SEO):

For example, on the back end of a search engine, if duplicate copies of a same document are treated as different documents not related with one another in terms of their content, this would cause the search engine to waste resources, such as disk space, memory, and/or network bandwidth, in order to process and manage the duplicate documents. On the front end, retaining duplicate documents would cause the search engine to have to search through large indices and to use more processing power to process queries. Also, a user’s experience may suffer if diverse content that should be included in the search results is crowded out by duplicate documents.

Siguiendo con la investigación me encuentro que lo que se menciona en esta patente aparece incluso en el soporte para webmasters de Google:

Cuando Google detecta contenido duplicado, como pueden ser las páginas del ejemplo anterior, un algoritmo de Google reúne las URL duplicadas en una agrupación y selecciona la URL que el algoritmo cree que es la mejor para representar a la agrupación en los resultados de búsqueda (por ejemplo, Google podría seleccionar la URL con más contenido). A continuación, Google intenta consolidar lo que sabe acerca de las URL de la agrupación, como la popularidad de enlaces, en la URL representante para, en última instancia, mejorar la precisión de clasificación de la página y los resultados de búsqueda de Google.

Conclusión

Google hasta ahora no mostraba otra canónica si no se lo indicábamos nosotros con instrucciones SEO. Así que es muy probable que Google esté empezando a agrupar contenidos en clústers y a escoger mejor la página canónica sin tener que indicárselo nosotros.

Mi opinión es que no es nada recomendable permitir a Google que escoja la canónica (en el ejemplo hemos visto cómo lo hacía mal) y además si le dejamos hacer le haremos consumir recursos (algo que odian los buscadores). Entonces que exista esta nueva forma de detectar el contenido duplicado no quiere decir que no tengamos que seguir haciendo nuestro trabajo, y sobretodo sabiendo que el canonical es una sugerencia y no una directiva ¿qué caso le hará ahora? ¡Ojito con Google Panda!

El Panda no se come tu web, se la f***a http://t.co/uG5mVa7ltn — Natzir Turrado (@natzir9) octubre 22, 2014

Comentarios en "¿Nueva forma de tratar el contenido duplicado por parte de Google?"

  1. Miguel Pascual dice

    28 octubre, 2014 at 12:49

    Buen post Natzir,
    Además de que los buscadores odian consumir CPU para entender tu web habría que indicar que si es el robot el que decide que url es la canónica para un clúster de contenido duplicado puedes encontrarte que en el futuro tu linkbuilding se ha dispersado entre las distintas urls (la que tu crees que es la principal, la que realmente encuentran los usuarios o la que les muestra google).

    Siempre es mala idea dejar que sea Google el que elija por ti que página es la importante de tu web :p

    Responder
  2. Antonio Miró dice

    29 octubre, 2014 at 10:32

    Buen post Natzir y buena investigación, muy útil la información.

    Responder
  3. juanjo dice

    29 octubre, 2014 at 11:41

    Muy buen post Natzir.
    Tanta investigación y tanto rollo para al final no decir nada nuevo.
    Smoke on the water my friend¡¡¡

    Responder
    • Natzir Turrado dice

      29 octubre, 2014 at 12:11

      Hola Juanjo,

      He reescrito el final gracias a tu trolleada. Quizás a la gente como tú que está empezando en esto les da pie a entender que no hay nada nuevo y lo que realmente supone este cambio. Si aún así sigues sin entenderlo dímelo por favor y lo vuelvo a revisar. Y si es usted un gurú espero Su Excelencia me perdone por mi ignorancia.

      Responder
      • Jaime dice

        30 octubre, 2014 at 16:07

        Buen post Natzir!
        Siempre investigando y compartiendo
        Oye una duda que me surge a raíz de leer esto y con un asunto que tengo entre manos.
        Tengo un cliente con un site mega grande y necesito una buena herramienta de contenido duplicado que llegue a todo. ¿Sabes alguna que funcione realmente bien?

        Saludo!

        Responder
        • Natzir Turrado dice

          30 octubre, 2014 at 18:47

          Hola! Tanto sistrix como semrush tienen una sección de contenido duplicado en las auditorías del sitio. Pero también en google webmaster tools puedes ver errores de este tipo.

          Responder
          • edu dice

            16 julio, 2015 at 10:19

            Hola yo tengo una web com urls duplicadas y no hay forma de bajarlas de ninguna manera no se como lo puedo hacer para bajarlas e modificado httces y no hay forma de nada para que bajes las urls que puedo hacer

  4. Sico dice

    29 octubre, 2014 at 12:20

    Gracias por la información Natzir, pese a lo que piensen algunos, es muy útil conocer toda tendencia de Google. Ya que hay que tenerla en cuenta para hacer nuestro trabajo. Como bien dices tenemos que seguir igual pero no debemos olvidarnos de que el que quiere sobrevivir al SEO, debe tomar como útil cualquier info sobre cambios en el comportamiento del buscador.

    Gracias

    Responder
  5. Alex dice

    4 noviembre, 2014 at 11:14

    Vaya pedazo de investigaciones que te pegas… fantásticas. Tal vez, en el futuro, Google aprenda a decidir mejor qué url representa mejor al contenido, aliviando a propietarios de sitios web a los que el SEO aún les suena a magia vudú.

    Un saludo!

    Responder
  6. Alejandro Castaño dice

    3 marzo, 2015 at 22:24

    Hola, me han parecido muy buenas tus lecciones,y recomendaciones, poco a poco voy comprendiendo mas este temas, aunque para mi es un enredo, poco a poco lo voy comprendiendo. además de conocer que guarda google un universo poco comprendido. Gracias.

    Responder
  7. Santos Guerra dice

    1 mayo, 2020 at 14:33

    Supongo que así como o es nada recomendable permitir a Google que escoja la canónica, tampoco debe servnada recomendable dejarlo que decida que hacer con las 404.

    Responder

Dejar un comentario en "¿Nueva forma de tratar el contenido duplicado por parte de Google?" Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.