Natzir Turrado es Consultor SEO

Natzir Turrado

  • Sobre Mi
  • Artículos
    • SEO (Posicionamiento en Buscadores)
    • CRO (Conversión Web)
    • Analítica Web
  • Mi Curso SEO
  • LinkedIn
  • RSS
  • Twitter

647 50 39 47

hola@natzir.com

Estás aquí: Portada > SEO (Posicionamiento en Buscadores) > Cómo incrementar el tráfico orgánico mejorando la frecuencia de rastreo

Cómo incrementar el tráfico orgánico mejorando la frecuencia de rastreo

9 junio, 2015 por Natzir Turrado

Siempre digo que es mejor remar a favor que ir en contra de los algoritmos de los buscadores y este post es un ejemplo de ello. En él os voy a enseñar el concepto de «frecuencia de rastreo» y lo vital que es su optimización (sobre todo en sitios de gran tamaño) para mejorar el tráfico orgánico.

Tabla de contenidos

Entendiendo la frecuencia de rastreo

Tal y como nos cuenta Google en el apartado de Rastreo e Indexación de Inside Search: «Los programas informáticos [refiriéndose a los algoritmos de Google] determinan qué sitios rastrear, con qué frecuencia y cuál es el número de páginas que se deben explorar en cada sitio.» Es decir, todas las páginas tienen asignado un crawl budget o crawl rate que como explicó Matt Cutts en 2010, es directamente proporcional al PageRank (autoridad) de la página.

Estamos ante un término que no es nuevo y que por desgracia muy pocos SEOs conocen, ya no tanto el término en sí como el impacto que tiene la optimización del crawl rate en incremento de tráfico orgánico.

Como hemos visto los sitios tienen asignado un crawl budget que está determinado por la autoridad del sitio, pero también por la facilidad de crawleo y calidad de la página. Hay una serie de trabas que los bots como Google odian porque les hacen consumir una cantidad enorme de recursos, con lo cual tu crawl rate se verá reducido. Entre ellas se encuentran:

  • URLs poco accesibles
  • porcentaje alto de URLs inservibles o poco efectivas (mala UX en página, poco tráfico por URL, duplicados…)
  • porcentaje alto de URLs con errores (4XX, 5XX, 7XX ) o excesivas 3XX.
  • tiempo de descarga del HTML de la página más alto de 500ms.

Así que nuestro trabajo como SEOs es hacer que Google consuma menos recursos y si le ayudamos nos premiará. Porque aunque Google pueda rastrear e indexar todas las páginas de tu sitio, él se reserva el derecho de hacerlo si considera que tu sitio no lo merece:

@teedubya that’s incorrect: we know about that many URLs, we don’t have them all indexed

— Gary Illyes (@methode) junio 3, 2015

Las mejores páginas se rastrean más

Todo el mundo sabe que Caffeine aceleró la velocidad de crawleo e indexación para contenidos nuevos, pero lo que no sabe es que también sirve para mantener frescas las mejores páginas de su índice. Google sabe perfectamente qué es una URL efectiva y se encarga de crawlearla más porque es una página que le interesa tener actualizada siempre en su índice. Y esto ocurre gracias al Percolator, el sistema que se encarga de este mecanismo desde el Caffeine (aquí la patente: Large-scale Incremental Processing Using Distributed Transactions and Notifications). google-caffeine-percolator Si analizáis en vuestros logs los accesos de Google a vuestra web veréis que las secciones que se crawlean menos reciben menos tráfico y al revés, las secciones que se crawlean más reciben más tráfico. Aquí podéis pensar que es porque son páginas más enlazadas internamente y que reciben más enlaces externos pero esto no siempre es así. A parte de que es algo que cuentan las patentes y Matt Cutts ha explicado en entrevistas, este comportamiento lo he visto más de una vez con mis socios en FunnelPunk (Daniel Pinillos y Lino Uruñuela). Nos hemos encontrado con secciones que sin ser las más enlazadas suelen ser las que reciben más tráfico orgánico y su frecuencia de rastreo es superior al resto. Así que puedes ganar a una página con más autoridad teniendo más crawl rate que tu competidor. Nosotros mismos mejoramos a nuestros clientes el ranking de las URLs de las secciones efectivas incrementando el crawl rate hacia ellas. ¿Y cómo se hace esto rastreear más una página? pues capando el acceso a las inefectivas, haciendo que su descarga sea rápida y que no haya un porcentaje de alto de URLs con errores. Aquí podemos ver un ejemplo del tráfico orgánico de uno de los verticales de un directorio que salió con todas las facetas abiertas permitiendo combinaciones que duplicaban y generaban thin content: google-panda Al principio todo va bien y hay un boost de tráfico orgánico, pero en el momento que Googlebot se cansa de crawlear páginas basura automáticamente reduce el crawl rate y te filtra. Una de las razones de Google Panda es hacer consumir menos recursos a GBot filtrando sitios con contenido basura, no lo olvidéis.

Cómo optimizar el rastreo de tu sitio

Si queremos que las páginas efectivas se rastreen más tenemos que:

Tener una URL por intención de búsqueda

el resto capadas a menos que exista mucho volumen de búsquedas y no canibalices.

Evitar la “canonicalitis” y la “noindex, followitis”

Estas instrucciones no bloquean el acceso al bot y siguen consumiéndole recursos. Y lo de usar “noindex, nofollow” siempre ha sido una chorrada como una casa. Aunque como siempre depende del caso, lo mejor es cortar de raíz con disallow. Aquí podemos ver otro ejemplo de exceso de URLs inservibles y es el propio Google quejándose a través de un aviso en Search Console. exceso-urls-search-console Tras recibirlo y ver la muestra de urls que nos enseñaba lo que hicimos para recuperar el site fue: primero eliminar directamente por robots todas las secciones duplicadas y segundo mover a subdominios con 301 los contenidos mal traducidos en otros idiomas mientras se acababan de traducir (si metíamos noindex, follow nos cargábamos un porcentaje que interesaba por negocio). Y ahora mismo a un cliente de ecommerce le voy a desindexar por robots el 80% de las URLs del sitio (unas 400K URLs de facetas duplicadas) que solo han aportado un 1,4% del tráfico orgánico.

Links que quieras que se rastreen siempre accesibles

Analiza siempre las páginas en modo texto en caché (o navega con Lynx) y no hagas caso del fetch & render para esto (observad la imagen) fetch-and-render Tener cuidado con los parámetros (querystrings y sessions) Una web con 10K URLs finales podría generar 1 millón de ellas tranquilamente (muchas veces por culpa de las paginaciones que hacen crecer las combinaciones posibles hasta el infinito). Sobre los parámetros es mucho mejor usar # que ? siempre que se pueda para ahorrar trabajo al bot porque no rastrea URLs con #.

Limita al máximo el número de paginaciones

Intenta poner más productos en los listados (ojo con afectar el tiempo de carga). Prueba qué te consume menos recursos y que no te fastidie el SEO: rel next/prev, disallow por robots, view all o prueba con distintas combinaciones de estas instruciones y/o aplicándolo solo ciertas páginas de la serie (ej: solo deja las 3 primeras páginas de la serie).

Enlaza internamente contra páginas finales

No enlaces en tu AI contra páginas que tengan rel=canonical o redirects, siempre contra páginas canónicas y con estado 200.

Controlar los errores y las redirecciones del sitio

Todo lo que no sea 200 OK hará perder el tiempo a Google en páginas que no existen o están detrás de varias redirecciones.

Tener una buena Arquitectura de la Información

Para ello intenta conseguir una AI de 3 niveles de distancia desde la home (que es diferente del número de directorios). Si no puedes apóyate en en sitemaps HTML y sistemas de organización para acortar distancias. También es muy útil potenciar las zonas que interesen por negocio (link sculpting). En la siguiente imagen vemos como al mes de mejorar la AI de un sitio la frecuencia de rastreo se estabiliza y pasa a ser el doble de antes (manteniendo los tiempos de descarga).

frecuencia-rastreo-AI Hacer que las páginas que se descarguen rápido

Sobre esto hay que saber diferenciar entre los tiempos de descarga de una página para el bot y para el usuario. Por ejemplo, una página puede tardar en descargarse 200ms para el bot y 20 segundos al usuario. Hay que intentar tener un TTFB (Time to First Byte) no más alto de 500ms (con en SSL es difícil). En la imagen siguiente los primeros tiempos de TTFB le encantan a GoogleBot, en cambio los segundos son un crimen. TTFB-time-to-first-byte El impacto directo en SEO es lo que tarda una página en ser leída por el bot porque afecta al crawling (TTFB + descarga). En cambio el tiempo de descarga para el usuario, aunque también tiene impacto en SEO, no es de forma directa. Al existir una mala perfomance para el usuario, las probabilidades de rebotar contra la SERP son muy altas. Esto se llama pogo-sticking y el pogo-sticking es más importante que el CTR para el rankeo en Google. Al no haber ni un long-click ni un segundo click, Google considera la UX de esa página negativa y lo tiene en cuenta dentro de su proceso de machine-learning basado en los datos obtenidos del usuario de la SERP. Eso sí, Google es más restrictivo en mobile que en desktop y podría incluir el TTI (Time To Interact) en sus factores de ranking mobile, pero esto todavía no lo sabemos. En la siguiente imagen podemos ver cómo al mejorar la descarga de la página para Google el rastreo aumenta: crawl-rate-budget Y aquí lo que ocurre cuando en esa misma página se coloca un script síncrono, el crawl rate se va a tomar por culo y como consecuencia bajó el tráfico orgánico:  frecuencia-de-rastreo-google

Analiza los logs dejados por Gbot antes de tomar una decisión

En la siguiente imagen podemos ver uno de los informes que sacamos a nuestros clientes. En él se puede ver en cuántas URLs ha accedido Googlebot de cada sección de la web y en cuántas los usuarios han accedido a ellas desde Google. En rojo podemos ver las URLs con un ratio muy negativo, lo que quiere decir que son URLs que tiene Google pero que no son útiles para el usuario. Lo primero que podemos pensar es porque no están lo suficientemente optimizadas a nivel onpage, pero no, se trata de secciones que son muy parecidas a otras que ya existen en el sitio (es otro directorio). analisis-logs-seo En este caso, si capas todas estas URLs duplicadas, automáticamente aumentas la velocidad de rastreo de las buenas y no solo eso, también harás que Google acceda a aquellas que no podía por la cantidad de crawl rate que tenía asignado. Con lo cual ya no solo ganarás tráfico por mejorar el rastreo, también por tener más páginas efectivas en su índice (en este caso prácticamente se doblaron):   desindexar-con-robots

 

Cuando montas una web desde cero es más sencillo plantear una arquitectura sin problemas de duplicados y con todo lo planteado aquí. El problema viene cuando te encuentras con webs que ta están hechas y tienes que tocar cosas con precisión de cirujano porque cualquier decisión erronea (y sobre todo con robots.txt de por medio) puede salirte caro. Ante la duda lo mejor es que me contactes a mi o a cualquier otro SEO con experiencia en este tipo de trabajos.

Conclusión

Como he dicho al principio el trabajo de un SEO es ayudar a que los buscadores consuman pocos recursos, y esto va desde hacerles las páginas fácilmente ‘entendibles’ a que usen bien el poco tiempo que se pasan en tu sitio.  Si queréis aprender un poco más os comparto las charlas que dimos Daniel Pinillos, Lino Uruñuela y yo en el Congreso Web. ¡Os recomiendo que compréis los vídeos del streaming para entenderlo todo mejor!

Comentarios en "Cómo incrementar el tráfico orgánico mejorando la frecuencia de rastreo"

  1. Javier Lorente dice

    9 junio, 2015 at 07:24

    Hola Natzir

    Podrías comentar algo sobre los trackings conde, almohadillas y Google Analytics? cual es la mejor opción?

    Gracias!

    Responder
    • Natzir Turrado dice

      11 junio, 2015 at 12:09

      Hola!

      Universal Analytics soporta los # para pasar parámetros de campaña, así que ningún problema. Con el Classic Analytics no va el hash y tienes que meterle una función para eso. Otra opción en Classic es sobreescribir la URL si detectas que te viene una campaña con hash y la metes con interrogante por ejemplo.

      Saludos!

      Responder
  2. David Zapata dice

    9 junio, 2015 at 09:18

    Excelente! :)

    Responder
  3. Ricardo Alcalde dice

    10 junio, 2015 at 21:33

    Natzir, una vez mas excelente articulo sobre la importancia del análisis del ratio de rastreo en la actualidad, ayudándonos a analizar indicadores del rendimiento SEO…. que muchos profesionales SEO de este país y me atrevería a decir del continente, pasan desapercibidos como las paginas huérfanas que por ejemplo siguen indexando y generando trafico pero que están fuera de las estructuras web, o al revés, por que Gbot por ejemplo no rastrea todas las paginas de una web, que paginas y por que? tiempos de carga? pagination? duplicidades…

    Otra pregunta interesante seria,

    ¿Que indicadores hay que medir y monitorizar para incrementar el tráfico orgánico mejorando la frecuencia de rastreo?

    También es importante yo creo disponer de un flow chart analítico transparente que no se convierta en un parálisis por análisis donde podamos ver potentes gráficos DIY ……por categoría……., (por ejemplo, idioma, pagina de productos, newsletters, noticias, categorías de del blog, secciones, buscador -Baidu,google, yandex, etc)… permitiendonos visualizar un fotografía completa de los urls que son seo activos, los que no, los que están en la estructura, los que están fuera de la estructura, por que, y poder incluirlos, re-direccionar, o eliminarlos….

    Esta técnica no es es solo buena para realizar optimizaciones si no para realizar auditorias detalladas del rendimiento de una web.

    Responder
    • Ricardo Alcalde dice

      10 junio, 2015 at 21:58

      Y a su vez lo que encuentro vital es poder obtener una foto completa de como esta estructurada la web, la profundidad, los tiempos de carga tan importantes o aun mas complejo, que pasa cuando queremos hacer una migración sobre todo en webs con volúmenes muy altos de urls…

      Un excelente articulo para entender la importancia del rastreo web.

      Slds.

      Responder
      • Natzir Turrado dice

        11 junio, 2015 at 12:18

        Gracias Rick por tus palabras que además enriquecen el artículo :)

        Responder
  4. Daniela dice

    16 junio, 2015 at 13:15

    Hola Natzir
    Comentas que: «… Evitar la “canonicalitis” y la “noindex, followitis” …»
    Tú te refieres a cuando ya está indexada y hay que hacer disallow?

    Porque leyendo el último post del blog de sistrix: http://www.sistrix.es/blog/jardineria-como-modelo-seo/
    mencionan este tema y hablan de «…Depende del objetivo, pero la única forma de no ser indexado por Google es haciendo uso de la metaetiqueta NOINDEX: …» citando las recomendaciones de Google al respecto:
    “¡Importante! Para que la metaetiqueta noindex sea eficaz, no debes bloquear la página meidante un archivo robots.txt. Si la página está bloqueada mediante un archivo robots.txt, el rastreador no verá la etiqueta noindex, y la página seguirá apareciendo en los resultados de búsqueda si, por ejemplo, otras páginas están enlazadas con ella.“

    Tengo pendiente hacer la implementación de Analytics porque los logs del servidor son un coñazo.

    un saludo.

    Responder
    • Manuel - Pilladoxlared dice

      5 septiembre, 2017 at 20:11

      Ya que Natzir no contestó dejo mi valoración a lo que comentas Daniela.
      Lo que quiere decir ese artículo, es que primero debes de desindexar la/las urls que te interesen. Mediante etiqueta NoINDEX y mandando a desindexar desde Search Console.
      Una vez que estas Urls no aparecen en las búsquedas de Google, es el momento de bloquearlas con el el robots.
      Es un proceso.
      Otra cosa sería, que comenzaras un proyecto y desde el comienzo bloquearas desde el robot cierta categoría o sección con disallow, no necesitarías realizar un noindex ya que el bot no llegaría (aunque siempre hay posibilidad de que llegue si existe algún enlace que apunte a esta url).
      Espero haberme explicado.
      Gracias por el artículo y por la información.

      Responder
  5. jacasu dice

    29 junio, 2015 at 12:14

    Hola Natzir, como haces para evitar que miles de páginas sean rastreadas, devuelves un 410 ???

    Es decir, si ves que el bot visita miles de páginas que no tienen tráfico, y no es posible usar regla en el robots.txt, que haces? que devuelvan un 410? o creas un robots.txt dinamicamente de miles de líneas ( no se los límites )??

    Un saludo

    Un salud

    Responder
  6. Javier Tejerina dice

    1 julio, 2015 at 03:40

    Muy bueno señor, aunque no tengo el nivelón para captarlo todo al 100%, me ha venido de perlas para mis proyectos.

    Responder
  7. David dice

    6 julio, 2015 at 09:07

    Hola Natzir,
    Muy interesante, como siempre tus post. El Time to first byte (TTFB) de mi web es de entre 0,6 y 0.8 segundos, ¡una pasada! Es una tienda en Prestashop. Sin usar un CDN, ¿cómo podría reducirlo? ¿es fallo de mi proveedor de hosting, y por tanto, debería hablar con ellos o cambiar de compañía? Mil gracias!

    Responder
    • Javier Tejerina dice

      30 julio, 2015 at 23:55

      Si en tu caso tienes módulos instalados, prueba a desactivarlos todos y ves activando uno a uno mientras compruebas ese TTFB.

      No trabajo con PrestaShop, entonces quizás no sea el más adecuado para aconsejar, pero creo que te puede ayudar a descartar posibles fuentes de problemas. A mi al menos me solventó un problema TTFB con WP.

      Suerte!

      Responder
  8. Miguel Angel Gómez dice

    23 octubre, 2015 at 19:30

    Gran artículo, Natzir. Una consulta ¿para ecommerce qué es mejor, scroll infinito o paginado para los productos? Cuando digo lo mejo me refiero a rastreo de Gbot. Saludos y como siempre mil gracias.

    Responder
  9. Andrés dice

    15 febrero, 2016 at 11:08

    Increíble! No se puede explicar mejor.
    Gracias por compartir con nosotros tus conocimientos!

    Responder
  10. jose dice

    14 mayo, 2016 at 10:49

    Gracias por tu aporte.
    Nuestra web Adecuacionlopd. es tiene un FBT muy alto 2110 ms First Byte Time (weebpagetest. org/result/160514_81_HJJ/1/performance_optimization/#first_byte_time).

    ¿Puedes darnos alguna recomendación para mejorarlo y reducirlo sin cambiar de servidor?
    Utilizamos el CDN de Cloudflare.
    Gracias y saludos

    Responder
  11. Jose Maria dice

    6 julio, 2016 at 17:14

    Hola, he leído tu artículo y me parece muy interesante. Sin embargo, lo que dices de bloquear siempre las páginas que no quieres indexar, no lo termino de ver tan claro.

    Me explico: puedes tener el caso en el que tienes un ecomerce con algunos productos que no tienen búsquedas y no te merece la pena posicionar ni que indexe. Sin embargo, sí puedes vender o usar esos productos para mejorar la experiencia de usuario de una pagina de aterrizaje que sí tenga un alto nivel de búsquedas (Por ejemplo: la pagina de aterrizaje con la kw «Multivitaminicos» tiene un «produco 1» que no conoce ni dios pero que está a muy buen precio y que se puede vender bien).

    En ese caso, yo creo que si no vas muy sobrado de recursos, te puedes ahorrar la redacción de la ficha de productos y copiarla para ponerla noindex,follow. Digo follow porque con una arquitectura web bien hecha también se traspasa linkjuice por enlaces internos al meter en la misma ficha de productos más enlaces internos a productos relacionados que también mejoren la respuesta de usuario… Tambien en caso de recibir un enlace a dicho producto mejor tenerlo follow, ¿cierto?.

    En cuanto a los enlaces internos «nofollow» se usan mucho, pero está desaconsejado:

    https://www.youtube.com/watch?v=bVOOB_Q0MZY

    Yo mismo he probado en algun proyecto quitar los enlaces internos nofollow, y he tenido una mejoría notable…

    Saludos.

    Responder
  12. Rubén Salcedo dice

    22 octubre, 2016 at 14:34

    Natzir para desindexar que recomiendas:

    Capar con el robot o directamente disallow?

    Responder
    • Natzir Turrado dice

      24 octubre, 2016 at 12:10

      Robot y disallow es lo mismo no? :P

      Con disallow no desindexas, quizás si pasa mucho tiempo lo acaba haciendo pero lo ideal es poner noindex y dejarlo abierto a Google, luego lo puedes bloquear si quieres (y así no tiene en cuenta esas urls para el cálculo de calidad), pero mientras siga teniendo enlaces entrantes esa url aparecerá en índice (no su contenido).

      Responder
      • César M dice

        19 febrero, 2017 at 20:57

        Hola Natzir, en el artículo pones » ahora mismo a un cliente de ecommerce le voy a desindexar por robots el 80% de las URLs del sitio», imagino que con disallow, pero a Ruben le aconsejas hacerlo por Noindex, ¿cual de las dos sería la forma correcta?

        Tendo que desindexar unas 1000 url de una proyecto E-commerce, ya las tengo indentificadas y creadas con disallow y redirecciones a las nuevas URL, ¿es correcto?, aconsejas la eliminación de las URL también por Search Console?, por cierto magnifico artículo, como siempre :=)

        Saludos.

        Responder
  13. Pepe dice

    15 diciembre, 2016 at 22:40

    Natzir, impresionante explicación.

    Me encantaría conocer dos consejos.

    Dos temas:

    – Las páginas de tags y autor, si son muchas, como no recomiendas recomiendas hacer noindex,follow, ¿recomientas hacerles disallow en el robots? Si se indexan imagino que la el score para que Panda te pegue puede llegar.

    – La paginación, en categorías, home, tags o páginas de autor, la desactivamos o lo dejamos con rel prev next?

    Responder
  14. josefino dice

    17 diciembre, 2016 at 15:19

    Información muy útil y poco tratada en blogs. Luego es necesario que cada uno experimente y analice sus propios resultados. Enhorabuena!

    Responder
  15. vasatriunfar en España dice

    15 mayo, 2017 at 21:32

    Excelente artículo! Enhorabuena Natzir por compartir esta valiosa información. Estoy totalmente de acuerdo que implementando estas medidas podemos alcanzar un número mayor de tráfico orgánico.

    Responder
  16. ivan dice

    16 marzo, 2018 at 20:59

    muchisimas gracias por el artículo, la verdad que me has ayudado muchísimo, con una web de empleo no siempre es fácil saber como trabajar y a mí que me encanta andar por la red buscando nuevas soluciones, he dado con tu blog, de verdad que se aprende mucho con tus explicaciones. Feliciades por el blog.

    Responder
  17. David dice

    16 febrero, 2021 at 16:43

    Estos consejos servirán actualmente? Tengo muy poco tráfico

    Responder
  18. Suresh dice

    7 marzo, 2021 at 04:53

    Your articles still valid these days too And it’s ever green :) You’re awesome, and covered a lot of technical things.

    The magic of working in between the data science and marketing.

    Have you tried removing the JS for the bots? It’s working well for me. Just show the final HTML for the bots.

    It’s been a great learnings from you and your tweets :)

    Namaste from India :)

    Responder
  19. Diego dice

    18 octubre, 2021 at 00:26

    Gran post! Gracias!

    Responder

Dejar un comentario en "Cómo incrementar el tráfico orgánico mejorando la frecuencia de rastreo" Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.