Siempre digo que es mejor remar a favor que ir en contra de los algoritmos de los buscadores y este post es un ejemplo de ello. En él os voy a enseñar el concepto de «frecuencia de rastreo» y lo vital que es su optimización (sobre todo en sitios de gran tamaño) para mejorar el tráfico orgánico.
Tabla de contenidos
Entendiendo la frecuencia de rastreo
Tal y como nos cuenta Google en el apartado de Rastreo e Indexación de Inside Search: «Los programas informáticos [refiriéndose a los algoritmos de Google] determinan qué sitios rastrear, con qué frecuencia y cuál es el número de páginas que se deben explorar en cada sitio.» Es decir, todas las páginas tienen asignado un crawl budget o crawl rate que como explicó Matt Cutts en 2010, es directamente proporcional al PageRank (autoridad) de la página.
Estamos ante un término que no es nuevo y que por desgracia muy pocos SEOs conocen, ya no tanto el término en sí como el impacto que tiene la optimización del crawl rate en incremento de tráfico orgánico.
Como hemos visto los sitios tienen asignado un crawl budget que está determinado por la autoridad del sitio, pero también por la facilidad de crawleo y calidad de la página. Hay una serie de trabas que los bots como Google odian porque les hacen consumir una cantidad enorme de recursos, con lo cual tu crawl rate se verá reducido. Entre ellas se encuentran:
- URLs poco accesibles
- porcentaje alto de URLs inservibles o poco efectivas (mala UX en página, poco tráfico por URL, duplicados…)
- porcentaje alto de URLs con errores (4XX, 5XX, 7XX ) o excesivas 3XX.
- tiempo de descarga del HTML de la página más alto de 500ms.
Así que nuestro trabajo como SEOs es hacer que Google consuma menos recursos y si le ayudamos nos premiará. Porque aunque Google pueda rastrear e indexar todas las páginas de tu sitio, él se reserva el derecho de hacerlo si considera que tu sitio no lo merece:
@teedubya that’s incorrect: we know about that many URLs, we don’t have them all indexed
— Gary Illyes (@methode) junio 3, 2015
Las mejores páginas se rastrean más
Todo el mundo sabe que Caffeine aceleró la velocidad de crawleo e indexación para contenidos nuevos, pero lo que no sabe es que también sirve para mantener frescas las mejores páginas de su índice. Google sabe perfectamente qué es una URL efectiva y se encarga de crawlearla más porque es una página que le interesa tener actualizada siempre en su índice. Y esto ocurre gracias al Percolator, el sistema que se encarga de este mecanismo desde el Caffeine (aquí la patente: Large-scale Incremental Processing Using Distributed Transactions and Notifications). Si analizáis en vuestros logs los accesos de Google a vuestra web veréis que las secciones que se crawlean menos reciben menos tráfico y al revés, las secciones que se crawlean más reciben más tráfico. Aquí podéis pensar que es porque son páginas más enlazadas internamente y que reciben más enlaces externos pero esto no siempre es así. A parte de que es algo que cuentan las patentes y Matt Cutts ha explicado en entrevistas, este comportamiento lo he visto más de una vez con mis socios en FunnelPunk (Daniel Pinillos y Lino Uruñuela). Nos hemos encontrado con secciones que sin ser las más enlazadas suelen ser las que reciben más tráfico orgánico y su frecuencia de rastreo es superior al resto. Así que puedes ganar a una página con más autoridad teniendo más crawl rate que tu competidor. Nosotros mismos mejoramos a nuestros clientes el ranking de las URLs de las secciones efectivas incrementando el crawl rate hacia ellas. ¿Y cómo se hace esto rastreear más una página? pues capando el acceso a las inefectivas, haciendo que su descarga sea rápida y que no haya un porcentaje de alto de URLs con errores. Aquí podemos ver un ejemplo del tráfico orgánico de uno de los verticales de un directorio que salió con todas las facetas abiertas permitiendo combinaciones que duplicaban y generaban thin content:
Al principio todo va bien y hay un boost de tráfico orgánico, pero en el momento que Googlebot se cansa de crawlear páginas basura automáticamente reduce el crawl rate y te filtra. Una de las razones de Google Panda es hacer consumir menos recursos a GBot filtrando sitios con contenido basura, no lo olvidéis.
Cómo optimizar el rastreo de tu sitio
Si queremos que las páginas efectivas se rastreen más tenemos que:
Tener una URL por intención de búsqueda
el resto capadas a menos que exista mucho volumen de búsquedas y no canibalices.
Evitar la “canonicalitis” y la “noindex, followitis”
Estas instrucciones no bloquean el acceso al bot y siguen consumiéndole recursos. Y lo de usar “noindex, nofollow” siempre ha sido una chorrada como una casa. Aunque como siempre depende del caso, lo mejor es cortar de raíz con disallow. Aquí podemos ver otro ejemplo de exceso de URLs inservibles y es el propio Google quejándose a través de un aviso en Search Console. Tras recibirlo y ver la muestra de urls que nos enseñaba lo que hicimos para recuperar el site fue: primero eliminar directamente por robots todas las secciones duplicadas y segundo mover a subdominios con 301 los contenidos mal traducidos en otros idiomas mientras se acababan de traducir (si metíamos noindex, follow nos cargábamos un porcentaje que interesaba por negocio). Y ahora mismo a un cliente de ecommerce le voy a desindexar por robots el 80% de las URLs del sitio (unas 400K URLs de facetas duplicadas) que solo han aportado un 1,4% del tráfico orgánico.
Links que quieras que se rastreen siempre accesibles
Analiza siempre las páginas en modo texto en caché (o navega con Lynx) y no hagas caso del fetch & render para esto (observad la imagen) Tener cuidado con los parámetros (querystrings y sessions) Una web con 10K URLs finales podría generar 1 millón de ellas tranquilamente (muchas veces por culpa de las paginaciones que hacen crecer las combinaciones posibles hasta el infinito). Sobre los parámetros es mucho mejor usar # que ? siempre que se pueda para ahorrar trabajo al bot porque no rastrea URLs con #.
Limita al máximo el número de paginaciones
Intenta poner más productos en los listados (ojo con afectar el tiempo de carga). Prueba qué te consume menos recursos y que no te fastidie el SEO: rel next/prev, disallow por robots, view all o prueba con distintas combinaciones de estas instruciones y/o aplicándolo solo ciertas páginas de la serie (ej: solo deja las 3 primeras páginas de la serie).
Enlaza internamente contra páginas finales
No enlaces en tu AI contra páginas que tengan rel=canonical o redirects, siempre contra páginas canónicas y con estado 200.
Controlar los errores y las redirecciones del sitio
Todo lo que no sea 200 OK hará perder el tiempo a Google en páginas que no existen o están detrás de varias redirecciones.
Tener una buena Arquitectura de la Información
Para ello intenta conseguir una AI de 3 niveles de distancia desde la home (que es diferente del número de directorios). Si no puedes apóyate en en sitemaps HTML y sistemas de organización para acortar distancias. También es muy útil potenciar las zonas que interesen por negocio (link sculpting). En la siguiente imagen vemos como al mes de mejorar la AI de un sitio la frecuencia de rastreo se estabiliza y pasa a ser el doble de antes (manteniendo los tiempos de descarga).
Hacer que las páginas que se descarguen rápido
Sobre esto hay que saber diferenciar entre los tiempos de descarga de una página para el bot y para el usuario. Por ejemplo, una página puede tardar en descargarse 200ms para el bot y 20 segundos al usuario. Hay que intentar tener un TTFB (Time to First Byte) no más alto de 500ms (con en SSL es difícil). En la imagen siguiente los primeros tiempos de TTFB le encantan a GoogleBot, en cambio los segundos son un crimen. El impacto directo en SEO es lo que tarda una página en ser leída por el bot porque afecta al crawling (TTFB + descarga). En cambio el tiempo de descarga para el usuario, aunque también tiene impacto en SEO, no es de forma directa. Al existir una mala perfomance para el usuario, las probabilidades de rebotar contra la SERP son muy altas. Esto se llama pogo-sticking y el pogo-sticking es más importante que el CTR para el rankeo en Google. Al no haber ni un long-click ni un segundo click, Google considera la UX de esa página negativa y lo tiene en cuenta dentro de su proceso de machine-learning basado en los datos obtenidos del usuario de la SERP. Eso sí, Google es más restrictivo en mobile que en desktop y podría incluir el TTI (Time To Interact) en sus factores de ranking mobile, pero esto todavía no lo sabemos. En la siguiente imagen podemos ver cómo al mejorar la descarga de la página para Google el rastreo aumenta:
Y aquí lo que ocurre cuando en esa misma página se coloca un script síncrono, el crawl rate se va a tomar por culo y como consecuencia bajó el tráfico orgánico:
Analiza los logs dejados por Gbot antes de tomar una decisión
En la siguiente imagen podemos ver uno de los informes que sacamos a nuestros clientes. En él se puede ver en cuántas URLs ha accedido Googlebot de cada sección de la web y en cuántas los usuarios han accedido a ellas desde Google. En rojo podemos ver las URLs con un ratio muy negativo, lo que quiere decir que son URLs que tiene Google pero que no son útiles para el usuario. Lo primero que podemos pensar es porque no están lo suficientemente optimizadas a nivel onpage, pero no, se trata de secciones que son muy parecidas a otras que ya existen en el sitio (es otro directorio). En este caso, si capas todas estas URLs duplicadas, automáticamente aumentas la velocidad de rastreo de las buenas y no solo eso, también harás que Google acceda a aquellas que no podía por la cantidad de crawl rate que tenía asignado. Con lo cual ya no solo ganarás tráfico por mejorar el rastreo, también por tener más páginas efectivas en su índice (en este caso prácticamente se doblaron):
Cuando montas una web desde cero es más sencillo plantear una arquitectura sin problemas de duplicados y con todo lo planteado aquí. El problema viene cuando te encuentras con webs que ta están hechas y tienes que tocar cosas con precisión de cirujano porque cualquier decisión erronea (y sobre todo con robots.txt de por medio) puede salirte caro. Ante la duda lo mejor es que me contactes a mi o a cualquier otro SEO con experiencia en este tipo de trabajos.
Conclusión
Como he dicho al principio el trabajo de un SEO es ayudar a que los buscadores consuman pocos recursos, y esto va desde hacerles las páginas fácilmente ‘entendibles’ a que usen bien el poco tiempo que se pasan en tu sitio. Si queréis aprender un poco más os comparto las charlas que dimos Daniel Pinillos, Lino Uruñuela y yo en el Congreso Web. ¡Os recomiendo que compréis los vídeos del streaming para entenderlo todo mejor!
Hola Natzir
Podrías comentar algo sobre los trackings conde, almohadillas y Google Analytics? cual es la mejor opción?
Gracias!
Hola!
Universal Analytics soporta los # para pasar parámetros de campaña, así que ningún problema. Con el Classic Analytics no va el hash y tienes que meterle una función para eso. Otra opción en Classic es sobreescribir la URL si detectas que te viene una campaña con hash y la metes con interrogante por ejemplo.
Saludos!
Excelente! :)
Natzir, una vez mas excelente articulo sobre la importancia del análisis del ratio de rastreo en la actualidad, ayudándonos a analizar indicadores del rendimiento SEO…. que muchos profesionales SEO de este país y me atrevería a decir del continente, pasan desapercibidos como las paginas huérfanas que por ejemplo siguen indexando y generando trafico pero que están fuera de las estructuras web, o al revés, por que Gbot por ejemplo no rastrea todas las paginas de una web, que paginas y por que? tiempos de carga? pagination? duplicidades…
Otra pregunta interesante seria,
¿Que indicadores hay que medir y monitorizar para incrementar el tráfico orgánico mejorando la frecuencia de rastreo?
También es importante yo creo disponer de un flow chart analítico transparente que no se convierta en un parálisis por análisis donde podamos ver potentes gráficos DIY ……por categoría……., (por ejemplo, idioma, pagina de productos, newsletters, noticias, categorías de del blog, secciones, buscador -Baidu,google, yandex, etc)… permitiendonos visualizar un fotografía completa de los urls que son seo activos, los que no, los que están en la estructura, los que están fuera de la estructura, por que, y poder incluirlos, re-direccionar, o eliminarlos….
Esta técnica no es es solo buena para realizar optimizaciones si no para realizar auditorias detalladas del rendimiento de una web.
Y a su vez lo que encuentro vital es poder obtener una foto completa de como esta estructurada la web, la profundidad, los tiempos de carga tan importantes o aun mas complejo, que pasa cuando queremos hacer una migración sobre todo en webs con volúmenes muy altos de urls…
Un excelente articulo para entender la importancia del rastreo web.
Slds.
Gracias Rick por tus palabras que además enriquecen el artículo :)
Hola Natzir
Comentas que: «… Evitar la “canonicalitis” y la “noindex, followitis” …»
Tú te refieres a cuando ya está indexada y hay que hacer disallow?
Porque leyendo el último post del blog de sistrix: http://www.sistrix.es/blog/jardineria-como-modelo-seo/
mencionan este tema y hablan de «…Depende del objetivo, pero la única forma de no ser indexado por Google es haciendo uso de la metaetiqueta NOINDEX: …» citando las recomendaciones de Google al respecto:
“¡Importante! Para que la metaetiqueta noindex sea eficaz, no debes bloquear la página meidante un archivo robots.txt. Si la página está bloqueada mediante un archivo robots.txt, el rastreador no verá la etiqueta noindex, y la página seguirá apareciendo en los resultados de búsqueda si, por ejemplo, otras páginas están enlazadas con ella.“
Tengo pendiente hacer la implementación de Analytics porque los logs del servidor son un coñazo.
un saludo.
Ya que Natzir no contestó dejo mi valoración a lo que comentas Daniela.
Lo que quiere decir ese artículo, es que primero debes de desindexar la/las urls que te interesen. Mediante etiqueta NoINDEX y mandando a desindexar desde Search Console.
Una vez que estas Urls no aparecen en las búsquedas de Google, es el momento de bloquearlas con el el robots.
Es un proceso.
Otra cosa sería, que comenzaras un proyecto y desde el comienzo bloquearas desde el robot cierta categoría o sección con disallow, no necesitarías realizar un noindex ya que el bot no llegaría (aunque siempre hay posibilidad de que llegue si existe algún enlace que apunte a esta url).
Espero haberme explicado.
Gracias por el artículo y por la información.
Hola Natzir, como haces para evitar que miles de páginas sean rastreadas, devuelves un 410 ???
Es decir, si ves que el bot visita miles de páginas que no tienen tráfico, y no es posible usar regla en el robots.txt, que haces? que devuelvan un 410? o creas un robots.txt dinamicamente de miles de líneas ( no se los límites )??
Un saludo
Un salud
Muy bueno señor, aunque no tengo el nivelón para captarlo todo al 100%, me ha venido de perlas para mis proyectos.
Hola Natzir,
Muy interesante, como siempre tus post. El Time to first byte (TTFB) de mi web es de entre 0,6 y 0.8 segundos, ¡una pasada! Es una tienda en Prestashop. Sin usar un CDN, ¿cómo podría reducirlo? ¿es fallo de mi proveedor de hosting, y por tanto, debería hablar con ellos o cambiar de compañía? Mil gracias!
Si en tu caso tienes módulos instalados, prueba a desactivarlos todos y ves activando uno a uno mientras compruebas ese TTFB.
No trabajo con PrestaShop, entonces quizás no sea el más adecuado para aconsejar, pero creo que te puede ayudar a descartar posibles fuentes de problemas. A mi al menos me solventó un problema TTFB con WP.
Suerte!
Gran artículo, Natzir. Una consulta ¿para ecommerce qué es mejor, scroll infinito o paginado para los productos? Cuando digo lo mejo me refiero a rastreo de Gbot. Saludos y como siempre mil gracias.
Increíble! No se puede explicar mejor.
Gracias por compartir con nosotros tus conocimientos!
Gracias por tu aporte.
Nuestra web Adecuacionlopd. es tiene un FBT muy alto 2110 ms First Byte Time (weebpagetest. org/result/160514_81_HJJ/1/performance_optimization/#first_byte_time).
¿Puedes darnos alguna recomendación para mejorarlo y reducirlo sin cambiar de servidor?
Utilizamos el CDN de Cloudflare.
Gracias y saludos
Hola, he leído tu artículo y me parece muy interesante. Sin embargo, lo que dices de bloquear siempre las páginas que no quieres indexar, no lo termino de ver tan claro.
Me explico: puedes tener el caso en el que tienes un ecomerce con algunos productos que no tienen búsquedas y no te merece la pena posicionar ni que indexe. Sin embargo, sí puedes vender o usar esos productos para mejorar la experiencia de usuario de una pagina de aterrizaje que sí tenga un alto nivel de búsquedas (Por ejemplo: la pagina de aterrizaje con la kw «Multivitaminicos» tiene un «produco 1» que no conoce ni dios pero que está a muy buen precio y que se puede vender bien).
En ese caso, yo creo que si no vas muy sobrado de recursos, te puedes ahorrar la redacción de la ficha de productos y copiarla para ponerla noindex,follow. Digo follow porque con una arquitectura web bien hecha también se traspasa linkjuice por enlaces internos al meter en la misma ficha de productos más enlaces internos a productos relacionados que también mejoren la respuesta de usuario… Tambien en caso de recibir un enlace a dicho producto mejor tenerlo follow, ¿cierto?.
En cuanto a los enlaces internos «nofollow» se usan mucho, pero está desaconsejado:
https://www.youtube.com/watch?v=bVOOB_Q0MZY
Yo mismo he probado en algun proyecto quitar los enlaces internos nofollow, y he tenido una mejoría notable…
Saludos.
Natzir para desindexar que recomiendas:
Capar con el robot o directamente disallow?
Robot y disallow es lo mismo no? :P
Con disallow no desindexas, quizás si pasa mucho tiempo lo acaba haciendo pero lo ideal es poner noindex y dejarlo abierto a Google, luego lo puedes bloquear si quieres (y así no tiene en cuenta esas urls para el cálculo de calidad), pero mientras siga teniendo enlaces entrantes esa url aparecerá en índice (no su contenido).
Hola Natzir, en el artículo pones » ahora mismo a un cliente de ecommerce le voy a desindexar por robots el 80% de las URLs del sitio», imagino que con disallow, pero a Ruben le aconsejas hacerlo por Noindex, ¿cual de las dos sería la forma correcta?
Tendo que desindexar unas 1000 url de una proyecto E-commerce, ya las tengo indentificadas y creadas con disallow y redirecciones a las nuevas URL, ¿es correcto?, aconsejas la eliminación de las URL también por Search Console?, por cierto magnifico artículo, como siempre :=)
Saludos.
Natzir, impresionante explicación.
Me encantaría conocer dos consejos.
Dos temas:
– Las páginas de tags y autor, si son muchas, como no recomiendas recomiendas hacer noindex,follow, ¿recomientas hacerles disallow en el robots? Si se indexan imagino que la el score para que Panda te pegue puede llegar.
– La paginación, en categorías, home, tags o páginas de autor, la desactivamos o lo dejamos con rel prev next?
Información muy útil y poco tratada en blogs. Luego es necesario que cada uno experimente y analice sus propios resultados. Enhorabuena!
Excelente artículo! Enhorabuena Natzir por compartir esta valiosa información. Estoy totalmente de acuerdo que implementando estas medidas podemos alcanzar un número mayor de tráfico orgánico.
muchisimas gracias por el artículo, la verdad que me has ayudado muchísimo, con una web de empleo no siempre es fácil saber como trabajar y a mí que me encanta andar por la red buscando nuevas soluciones, he dado con tu blog, de verdad que se aprende mucho con tus explicaciones. Feliciades por el blog.
Estos consejos servirán actualmente? Tengo muy poco tráfico
Your articles still valid these days too And it’s ever green :) You’re awesome, and covered a lot of technical things.
The magic of working in between the data science and marketing.
Have you tried removing the JS for the bots? It’s working well for me. Just show the final HTML for the bots.
It’s been a great learnings from you and your tweets :)
Namaste from India :)
Gran post! Gracias!