¿Qué es el archivo robots txt?¿cómo y por qué se aplica?

Al hablar de los diversos temas vinculados con el SEO, el archivo robots txt juega un papel importante dentro de la dinámica de indexación de los buscadores. Aunque para muchos la configuración de este archivo puede suponer ciertas dificultades técnicas lo cierto es que siguiendo unas pautas es sencillo usarlo en tu beneficio. Además Google te aporta una guía básica con algunas indicaciones fundamentales.

Como ya sabemos, los bots, crawlers o arañas son los encargados de rastrear el contenido de cada website para establecer las pautas de indexación y posicionamiento. Para guiarlos, hace falta un protocolo adecuado, sencillo y concreto como el archivo robots.txt. Dada su importancia para etiquetas, palabras clave y la información que queremos mostrar, detallaremos cómo funciona.

¿Qué es el archivo robots txt?

En términos directos, hablamos de un protocolo de exclusión/inclusión de distintos contenidos para los robots utilizados por los motores de búsqueda encargados de indexar y rastrear las páginas de una web determinada. En esencia, contiene una redacción simple en forma de órdenes que indica a los crawlers el contenido destinado a ser tomado en cuenta o no.

La creación del archivo robot txt tiene que seguir una serie de directrices propias para su correcta interpretación. Esto significa conocer bien los comandos aceptados, el uso de mayúsculas o minúsculas y la colocación de espacios. No debe confundirse con el sitemap.xml, que es una guía de rastreo, con lo que se denomina como REP (Robots Exclusion Protocol).

Desde un punto de vista técnico, este código presenta una serie de características que pueden variar de una araña a otra en función del algoritmo que usen. Resumimos estos elementos así:

Dominio público. Por razones de transparencia, este archivo está disponible para cualquiera que quiera conocer las restricciones de una página web. En consecuencia, se recomienda que la información sensible o confidencial que no se quiera indexar disponga de medidas de seguridad adicionales.

Patrones compatibles. Si tomamos como referencia a Bing y Google, estos motores captan 2 comandos similares para identificar subcarpetas o páginas. El administrador SEO tiene a su disposición el signo de dólar ($) y el asterisco (*) para incluir o excluir elementos. El primero representa el final de una URL y el segundo es un comodín que incluye una secuencia completa.

Etiquetas de omisión para bots. Es importante entender que los buscadores tienen su propia interpretación del código restrictivo. Por eso existen ciertas etiquetas para dirigir las acciones de búsqueda, consulta e indexación. Un ejemplo es el “noindex”, que para Google significa eliminar las referencias ODP y las URLs únicas, mientras Bing las muestra como prohibidas.

Microformatos. La aplicación de instrucciones con esta configuración tiene la capacidad de invalidar aspectos puntuales de la codificación HTML. Mediante conocimientos avanzados en HTTP y servidores, puedes utilizar directrices de indexadores diseñadas para manejar las URIs. Esto te permite emular la “X-Robots-Tags” con parámetros puntuales.

robot txt

Cómo configurar el archivo robots txt

Ya hemos establecido algunas prerrogativas con respecto a la redacción del archivo robots txt, las cuales requieren cierta precisión. La exactitud es un factor crucial si quieres que los bots encuentren el contenido relevante que deseamos mostrar. Así evitas que pierdan tiempo en URLs insignificantes o que no indexen las páginas SEO en el buscador.

La elaboración en sí es sencilla, pero requiere de ciertos comandos que son universales para la mayoría. Mientras que algunos motores de búsqueda pueden interpretar otras directrices, resulta esencial respetar la sintaxis establecida, el hecho de que cada grupo User-Agent/Disallow necesita una línea en blanco de separación y la posibilidad de incluir comentarios con el hash (#).

Teniendo claras estas reglas, podemos describir los comandos más comunes de la siguiente forma:

  • Allow. Como su nombre lo indica, permite que los crawlers realicen ciertas acciones y tengan acceso a las secciones establecidas de nuestro website.
  • Disallow. Contrario al anterior, se utiliza para crear las excepciones o exclusiones para las arañas exploradoras. Esta directriz sirve para negar el acceso a directorios y páginas del sitio web.
  • User-agent. Utiliza este comando para seleccionar el robot que debe cumplir con el protocolo de restricciones o permisos. Aunque existe malware o programas maliciosos que no acatan el código, los bots de Google, Yahoo, Bing, etc., sí lo hacen.
  • Crawl-delay. Esta instrucción le indica al crawler específico o a todos el tiempo establecido para ir de una página a otra. No obstante, esta indicación no sirve para Google sino para los demás rastreadores.
  • Sitemap. La inclusión del mapa del sitio resulta esencial para que la mayoría de bots puedan rastrear nuestro sitio web. Si bien no hace falta cuando manejamos el Google Search Console, ayuda a los demás.

La creación del archivo robots txt requiere una ubicación en el nivel más alto de la página web, como por ejemplo: https://www.midominio/robots.txt. Como el protocolo afecta a un host específico, la inclusión de subdominios también debe contar con sus respectivas directrices. Contrario a lo que se cree, el REP no afecta a carpetas concretas de tu web.

Función del archivo robots txt

Cada vez que los buscadores rastrean en internet un contenido asociado con tu página, los crawlers ubican las posibles restricciones (si las hay). Ahora bien, la elaboración de dicho archivo no es obligatoria, pero facilita las operaciones asociadas con el posicionamiento SEO. Puede verse como una lista selectiva de bots que tienen acceso a tu contenido.

Procurando que el rastreo de tu website sea más eficiente, tienes la opción de configurar tu contenido más relevante. Esto te permite negar el acceso a páginas, directorios, utilidades y fuentes de códigos; evitar la indexación de información duplicada con carácter de prueba; y dar una ubicación más precisa del sitemap.xml para los buscadores.

SEMrush

Otras consideraciones importantes sobre el REP

Tanto si tienes un conocimiento básico o más avanzado, hay varios factores que pueden afectar el funcionamiento del robots txt que vale la pena conocer. Entre ellos, podemos mencionar:

El tamaño y formato del archivo

Para una lectura apropiada, el texto debería estar codificado en UTF-8, aunque pueden haber variaciones en los formatos del bloc de notas o cualquier otro procesador de palabras. El problema fundamental consiste en que el servidor podría generar comandos distintos a los creados, produciendo caracteres extraños que provoquen un mal funcionamiento.

Por otra parte, el tamaño del archivo debe estar limitado a 500 MB, que es la cantidad máxima permitida por Google. Al tratarse de un recurso muy consultado por las arañas, es preferible mantenerlo por debajo de ese tamaño para facilitar el proceso. Excederse significa que no será posible su lectura y su procesamiento consume más recursos.

Archivos JS y CSS no permitidos

Anteriormente, solía recomendarse el bloqueo de estos archivos en la configuración del robots txt por resultar de poca ayuda para los rastreadores. Dado los cambios en Google y otros buscadores, ahora resulta una ventaja permitir ver este contenido. De esta forma, los bots pueden valorar mejor estos aspectos de HTML y tener una panorama más completo de tu web.

Cuando incluimos estas restricciones dentro de la configuración del REP, empezamos a recibir notificaciones. No se trata de incluir todos los archivos CSS o JS dentro del protocolo, pero se recomienda el acceso a la mayoría de éstos. Esto es porque durante el proceso de consulta, rastreo e indexación, esta limitación afecta la apreciación de autoridad/calidad del sitio.

Los protocolos de exclusión son definitivos

Decimos esto por el hecho de que el uso de la Google Search Console te permite borrar cierto contenido. Sin embargo, transcurridos 90 días ya no tiene presente la petición para eliminar las URLs seleccionadas. A diferencia de una exclusión permanente, si Google consigue de nuevo la URL, optará por indexarla otra vez.

De igual forma, puedes utilizar la herramienta de parámetros para información que altera o no a una URL determinada. De hecho, esta función tiene cierta utilidad para los listados y las campañas. Al no ser una restricción obligatoria, los crawlers siguen teniendo acceso si el buscador considera que el cambio al contenido HTML es relevante.

Ejemplo de archivo robots.txt

Este podría ser un ejemplo de un archivo robots.tx para usar en un web sobre wordpress. Pero ten en cuenta que se trata solo de un ejemplo, quizá en tu caso será necesario añadir restricciones o liberar el acceso a otros directorios.

User-Agent: *
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: https://www.tudominio.com/sitemap.xml

Traducido al cristiano estamos diciendo a todos los bots  (usear-agent:*) que no pueden acceder a ningún directorio propio de la instalación de wordpress (los que empiezan por wp-) y luego le damos acceso al directorio uploads que es en el que se almacenan los archivos multimedia en wordpress. Para finalizar le decimos cuál es la ruta de nuestro archivo sitemap

 

El archivo robots txt puede resultar un misterio para muchos interesados en un SEO más avanzado que aquel que conocen. Esperamos que esta pequeña guía te haya aclarado algunos conceptos críticos sobre la aplicación de protocolos de exclusión e inclusión.

 

Para ayudarte en tu proceso de optimización de tu negocio o web para destacar en el medio online te dejamos esta lista de control.
Te ayudará a detectar de forma rápida cuáles son las áreas de mejora para tu empresa o negocio.
Puedes descargarla de forma gratuita a continuación

como Conseguir ventas online

Artículos Recientes

Dejar un comentario

  Acepto la política de privacidad

Contacta con Nosotros

No dudes en contactar con nosotros te daremos respuesta en breve

¿No puede leerlo? Cambiar texto captcha txt

Start typing and press Enter to search

Pin It en Pinterest