Es probable que Google esté empezando a detectar y a tratar mejor el contenido duplicado que se produce por error dentro de una web y que afecta al SEO de la misma. Me refiero al contenido que suele aparece en webs grandes con filtros, categorías y demás. Porque para el que se produce para copar más resultados alrededor de una query y de baja calidad ya queda bien atado con Google Panda y la detección de n-gramas como podemos ver en esta patente.
Tabla de contenidos
Antecedentes
Os pongo en antecedentes para que veáis a qué me refiero. Justo el día que me encuentro con este nuevo aviso de Google Analytics:
Google Analytics alerting on possible duplicate content issues pic.twitter.com/Kc6dRPBrBc
— Natzir Turrado (@natzir9) octubre 15, 2014
Miguel Pascual me comenta (a mi y a otros) un caso extraño de SEO que se ha encontrado con un e-commerce hecho a medida y con bastante antigüedad. Los productos de este e-commerce tienen graves problemas de duplicados por mala definición de arquitectura y sin control de la misma mediante robots.txt, meta robots o canonical:
- /cat-1/subcat-1/prodID-12
- /cat-1/subcat-2/prodID-12
- /cat-2/subcat-1/prodID-12
- …
Esto provoca que un producto esté duplicado y que Google lo identifique como tal (hasta 8 veces en el producto del siguiente ejemplo):
Si miramos la caché de todas las páginas duplicadas vemos que comparten la misma página en caché aunque las otras también estén en su índice. Curiosamente no muestra la caché de la página que debería ser la canónica, sino la que recibe más enlaces internos:
Ya sabemos que si existe un canonical en una página Google muestra la versión cacheada de la original, pero como he comentado al principio no existe canonical en ninguna página. Tampoco está implementado el canonical mediante HTTP y no han hecho redirecciones.
Toca SEO-investigar :)
Con todo esto me pongo a investigar y me encuentro que a Google en 2009 le concedieron la patente de un sistema de detección de contenido duplicado. En la patente se habla de varios sistemas para detectar contenido duplicado y de cómo identificar la mejor dirección (canónica) que representa al conjunto:
En la patente se menciona que a la hora de escoger el documento canónico no lo hace necesariamente por la que tiene más «Page Rank u otra métrica query-independiente». Con lo que no tiene porqué mostrar la que más enlaces internos o externos recibe (como antes he mencionado que ocurría en el ejemplo), pero tampoco lo excluye. Uno de los indicadores posiblemente usados según la patente sería el anchor text y el texto que se encuentra alrededor del enlace (¡semántica!).
También se comenta las razones de porqué es necesario para un buscador identificar este tipo de documentos idénticos (y por consecuencia al SEO):
For example, on the back end of a search engine, if duplicate copies of a same document are treated as different documents not related with one another in terms of their content, this would cause the search engine to waste resources, such as disk space, memory, and/or network bandwidth, in order to process and manage the duplicate documents. On the front end, retaining duplicate documents would cause the search engine to have to search through large indices and to use more processing power to process queries. Also, a user’s experience may suffer if diverse content that should be included in the search results is crowded out by duplicate documents.
Siguiendo con la investigación me encuentro que lo que se menciona en esta patente aparece incluso en el soporte para webmasters de Google:
Cuando Google detecta contenido duplicado, como pueden ser las páginas del ejemplo anterior, un algoritmo de Google reúne las URL duplicadas en una agrupación y selecciona la URL que el algoritmo cree que es la mejor para representar a la agrupación en los resultados de búsqueda (por ejemplo, Google podría seleccionar la URL con más contenido). A continuación, Google intenta consolidar lo que sabe acerca de las URL de la agrupación, como la popularidad de enlaces, en la URL representante para, en última instancia, mejorar la precisión de clasificación de la página y los resultados de búsqueda de Google.
Conclusión
Google hasta ahora no mostraba otra canónica si no se lo indicábamos nosotros con instrucciones SEO. Así que es muy probable que Google esté empezando a agrupar contenidos en clústers y a escoger mejor la página canónica sin tener que indicárselo nosotros.
Mi opinión es que no es nada recomendable permitir a Google que escoja la canónica (en el ejemplo hemos visto cómo lo hacía mal) y además si le dejamos hacer le haremos consumir recursos (algo que odian los buscadores). Entonces que exista esta nueva forma de detectar el contenido duplicado no quiere decir que no tengamos que seguir haciendo nuestro trabajo, y sobretodo sabiendo que el canonical es una sugerencia y no una directiva ¿qué caso le hará ahora? ¡Ojito con Google Panda!
El Panda no se come tu web, se la f***a http://t.co/uG5mVa7ltn — Natzir Turrado (@natzir9) octubre 22, 2014
Buen post Natzir,
Además de que los buscadores odian consumir CPU para entender tu web habría que indicar que si es el robot el que decide que url es la canónica para un clúster de contenido duplicado puedes encontrarte que en el futuro tu linkbuilding se ha dispersado entre las distintas urls (la que tu crees que es la principal, la que realmente encuentran los usuarios o la que les muestra google).
Siempre es mala idea dejar que sea Google el que elija por ti que página es la importante de tu web :p
Buen post Natzir y buena investigación, muy útil la información.
Muy buen post Natzir.
Tanta investigación y tanto rollo para al final no decir nada nuevo.
Smoke on the water my friend¡¡¡
Hola Juanjo,
He reescrito el final gracias a tu trolleada. Quizás a la gente como tú que está empezando en esto les da pie a entender que no hay nada nuevo y lo que realmente supone este cambio. Si aún así sigues sin entenderlo dímelo por favor y lo vuelvo a revisar. Y si es usted un gurú espero Su Excelencia me perdone por mi ignorancia.
Buen post Natzir!
Siempre investigando y compartiendo
Oye una duda que me surge a raíz de leer esto y con un asunto que tengo entre manos.
Tengo un cliente con un site mega grande y necesito una buena herramienta de contenido duplicado que llegue a todo. ¿Sabes alguna que funcione realmente bien?
Saludo!
Hola! Tanto sistrix como semrush tienen una sección de contenido duplicado en las auditorías del sitio. Pero también en google webmaster tools puedes ver errores de este tipo.
Hola yo tengo una web com urls duplicadas y no hay forma de bajarlas de ninguna manera no se como lo puedo hacer para bajarlas e modificado httces y no hay forma de nada para que bajes las urls que puedo hacer
Gracias por la información Natzir, pese a lo que piensen algunos, es muy útil conocer toda tendencia de Google. Ya que hay que tenerla en cuenta para hacer nuestro trabajo. Como bien dices tenemos que seguir igual pero no debemos olvidarnos de que el que quiere sobrevivir al SEO, debe tomar como útil cualquier info sobre cambios en el comportamiento del buscador.
Gracias
Vaya pedazo de investigaciones que te pegas… fantásticas. Tal vez, en el futuro, Google aprenda a decidir mejor qué url representa mejor al contenido, aliviando a propietarios de sitios web a los que el SEO aún les suena a magia vudú.
Un saludo!
Hola, me han parecido muy buenas tus lecciones,y recomendaciones, poco a poco voy comprendiendo mas este temas, aunque para mi es un enredo, poco a poco lo voy comprendiendo. además de conocer que guarda google un universo poco comprendido. Gracias.
Supongo que así como o es nada recomendable permitir a Google que escoja la canónica, tampoco debe servnada recomendable dejarlo que decida que hacer con las 404.