Robots.txt: ¿Qué es y cuáles son las mejores prácticas?

Este tutorial abarca los siguientes temas:

El SEO es una parte vital de la administración de un sitio web, asegura que tus páginas web estén ajustadas para los motores de búsqueda. El archivo robots.txt es una herramienta esencial en este proceso, guiando a los rastreadores de los motores de búsqueda sobre qué partes de tu sitio explorar e indexar.

Este artículo explorará el papel de robots.txt en SEO y compartirá las mejores prácticas para maximizar su efectividad. Entonces, vamos a desentrañar qué es el archivo robots.txt y desbloquear su potencial.

¿Qué es robots.txt?

Un archivo robots.txt le dice a los rastreadores de los motores de búsqueda qué partes de un sitio web deben rastrear y cuáles ignorar, lo que ayuda a administrar la carga del servidor, evitar solicitudes excesivas y mantener el presupuesto de rastreo bajo control.

El archivo robots.txt es una parte fundamental del SEO técnico, ayudándote a:

administrar el presupuesto de rastreo;
prevenir la indexación de páginas sensibles;
y mejorar la eficiencia del sitio.

El presupuesto de rastreo es el número de páginas que un motor de búsqueda puede rastrear en un período de tiempo determinado para un sitio web específico. El presupuesto de rastreo no es un número fijo – varía para cada sitio web dependiendo del número de páginas web, frecuencia de actualización, configuración del servidor web, etc.

El archivo no impide que las páginas aparezcan en los resultados de búsqueda de Google; para ello, los propietarios de sitios web deberían usar directivas ‘noindex’ u otros métodos de exclusión. En cambio, estas páginas bloqueadas no tendrán meta descripciones.

Este archivo txt está ubicado en el directorio raíz de un sitio web y sigue el Protocolo de Exclusión de Robots (REP), que la mayoría de los motores de búsqueda respetan.

En la imagen a continuación, puedes ver lo que normalmente contiene un robots.txt.

¿Por qué es importante el archivo robots.txt para el SEO?

Los motores de búsqueda como Google, Bing y Yahoo implementan rastreadores para indexar páginas web. Sin embargo, no todas las páginas deben indexar o rastrearse con frecuencia. Robots.txt ayuda a:

optimizar la eficiencia del rastreo
proteger el contenido privado
prevenir que las páginas duplicadas afecten el ranking

Si bien no aplica la seguridad, actúa como una directiva para los robots de búsqueda, instruyéndoles cómo procesar las páginas web.

Además, cuando Googlebot visita un dominio por primera vez, busca automáticamente robots.txt en “https://tudominio.com/robots.txt,” por lo que es uno de los primeros archivos que los rastreadores web de los motores de búsqueda comprueban cuando visitan un sitio web.

¿Cómo comprobar si tu sitio web tiene un archivo robots.txt?

Para comprobar si tu sitio tiene un archivo robots.txt, visita la siguiente dirección en un navegador web. Reemplaza tudominio.com con el nombre de dominio de tu sitio web.

tudominio.com/robots.txt

Si el archivo existe, se mostrará su contenido. Si no es así, puede que tengas que crear un archivo robots.txt.

¿Cómo crear y acceder a robots.txt?

Creando robots.txt: Abre un editor de texto simple como Notepad (Windows) o TextEdit (Mac). Alternativamente, los usuarios de SiteGround pueden usar el Gestor archivos proporcionado en su Site Tools. Crear un nuevo archivo, añadir las directivas, y asignarle el nombre robots.txt. Asegúrate de que está guardado como un archivo de texto sin formato, codificado en UTF-8.
Subir archivos robots.txt: Usando un cliente FTP o el administrador de archivos de tu proveedor de hosting, sube el archivo robots.txt al directorio raíz del dominio (public_html/) de tu sitio web. Esto asegura que sea accesible en tudominio.com/robots.txt. Si has creado el archivo con el Administrador de Archivos en tu cuenta de hosting, omite este paso.
Pruebas y Validación: Para confirmar que tu archivo robots.txt tiene el formato correcto y es accesible, usa robots.txt Tester de Google. Esta herramienta ayuda a identificar cualquier error y asegura que los motores de búsqueda procesen el archivo correctamente.

Robots.txt Sintaxis & Reglas

El archivo robots.txt consiste en reglas que especifican cómo los diferentes rastreadores de motores de búsqueda deben interactuar con un sitio web. Las directivas más comunes incluyen:

1. User-agent y administración de crawlers

Define a qué bot se aplica la regla. Diferentes motores de búsqueda y rastreadores web tienen requisitos únicos, por lo que especificar un usuario permite reglas personalizadas que optimizan el rendimiento del sitio. Por ejemplo, si pones solo “Googlebot,” esto significa que las reglas se aplicarán sólo a ese user agent pero no se aplicarán a otros user agent como Bingbot.

User-agent: Googlebot

2. Disallow

Esta regla impide que los motores de búsqueda busquen en ciertas áreas de un sitio web. Es útil cuando quieres evitar problemas de contenido duplicado, cómo evitar que los motores de búsqueda indexen páginas de categorías con parámetros de filtro. Por ejemplo:

Disallow: /category-name/?filter=*

También puedes bloquear una sección de categoría completa para que no sea rastreada si no es relevante para los motores de búsqueda:

Disallow: /category-name/

Al hacer esto, ayudas a los motores de búsqueda a centrarse en las páginas más importantes de tu sitio y evitas gastar presupuesto de rastreo en secciones innecesarias.

3. Allow

Anula Disallow, lo que permite que los motores de búsqueda rastreen páginas o directorios específicos que de otro modo estarían bloqueados. Esto es útil cuando necesitas restringir el acceso a la mayor parte de una sección y al mismo tiempo permitir que ciertos archivos importantes sean indexados. Por ejemplo:

Disallow: /private/
Allow: /private/public-file.html

Esta configuración impide que los motores de búsqueda rastreen todo lo que está dentro del directorio /private/ excepto public-file.html. El uso adecuado de la directiva Allow ayuda a mantener un equilibrio entre privacidad y detectabilidad.

4. Crawl-delay

Esta regla limita la frecuencia de rastreo. Google no soporta esta directiva, sin embargo, algunos otros motores de búsqueda como Bing y Yandex todavía lo hacen. Ajustar el retraso del rastreo puede ayudar a reducir la carga del servidor, especialmente para sitios web grandes con actualizaciones frecuentes.

Crawl-delay: 10

5. Inclusión de sitemap

Incluir un sitemap en tu archivo robots.txt ayuda a los motores de búsqueda a encontrar rápidamente e indexar páginas importantes en tu sitio. Esto es particularmente útil para sitios web grandes con muchas páginas que de otro modo podrían tardar más en ser descubiertos.

Aunque no es obligatorio, añadir una directiva sitemap en robots.txt es una buena práctica para asegurar que los motores de búsqueda puedan rastrear de manera eficiente la estructura de tu sitio. Lo mejor es incluir el XML sitemap al final del archivo robots.txt.

Sitemap: https://tudominio.com/sitemap.xml

Prácticas recomendadas para robots.txt

1. Evita bloquear páginas importantes

Bloquear páginas esenciales (por ejemplo, /blog/, /services/) puede impactar negativamente en los rankings evitando que los motores de búsqueda indexen contenido valioso.

Por ejemplo, bloquear /category-name/ podría ocultar involuntariamente todas las páginas de productos o artículos asociados, como /category-name/product-1/.
Si necesitas restringir páginas específicas mientras mantienes el resto visible, considera un enfoque más preciso:

Disallow: /category-name/private-page/

Alternativamente, bloquear una categoría completa puede ser útil si contiene contenido duplicado o de bajo valor:

Disallow: /category-name/

Revisar cuidadosamente qué secciones bloquear asegura que el contenido importante siga siendo indexable mientras se controla la eficiencia del rastreo.

2. Prevenir el rastreo de páginas duplicadas y de bajo valor

Para evitar malgastar el presupuesto de rastreo y evitar que páginas innecesarias o duplicadas sean indexadas en los resultados de búsqueda, usa la directiva Disallow de manera efectiva. Las páginas de bajo valor, como las áreas de administración, los resultados de búsqueda internos y las URL generadas dinámicamente, generalmente deben bloquearse. Aquí tienes algunos ejemplos:

Disallow: /wp-admin/
Disallow: /?s=

3. Usa Wildcards y Pattern Matching de forma eficiente

Los comodines y la coincidencia de patrones en robots.txt permiten un control más flexible y preciso sobre qué páginas pueden o no rastrear los motores de búsqueda. Esto es especialmente útil para administrar URLs generadas dinámicamente o bloquear tipos de archivos específicos.

Por ejemplo, si tu sitio web genera URLs con filtros que no quieres indexar, puedes usar:

Disallow: /?filter=*

Esto evita que los motores de búsqueda rastreen cualquier URL que contenga ?filter= independientemente del valor.

Del mismo modo, si deseas bloquear todos los archivos PDF para que no sean rastreados, puedes usar:

Disallow: /*.pdf$

El $ al final asegura que solo las URL que terminan en .pdf sean bloqueadas, en lugar de bloquear cualquier URL que contenga .pdf en cualquier lugar en su estructura.

El uso de comodines estratégicamente te ayuda a optimizar tu presupuesto de rastreo mientras evitas que páginas innecesarias o irrelevantes aparezcan en los resultados de búsqueda.

4. Asegúrate de que tu archivo robots.txt es accesible

Asegurarse de que tu archivo robots.txt es accesible significa que los robots web pueden leer y seguir sus instrucciones correctamente. Un archivo robots.txt mal configurado o roto puede bloquear involuntariamente a los motores de búsqueda para que no rastreen tu sitio completo, lo que lleva a problemas graves de SEO y una posible pérdida de tráfico.

Para evitar esto, asegúrate de que el archivo está formateado correctamente, colocado correctamente en el directorio raíz y accesible a través de tudominio.com/robots.txt. Usa herramientas como Google Search Console para probar y validar el archivo, asegurando que no bloquea accidentalmente páginas importantes o contener errores de sintaxis.

5. Usa robots.txt para optimizar el presupuesto de rastreo

Para sitios web grandes, bloquear secciones de baja prioridad (por ejemplo, páginas de etiquetas, páginas de archivo) ayuda a los motores de búsqueda a centrar sus esfuerzos de rastreo en contenido de alto valor como páginas de productos, páginas de servicios o entradas de blog. Al reducir el número de páginas innecesarias, te aseguras de que los motores de búsqueda pasan más tiempo indexando contenido que contribuye a la clasificación.

Por ejemplo, si un sitio web tiene miles de páginas de archivo que no proporcionan un valor único, bloquearlas con robots.txt puede ayudar a los motores de búsqueda a priorizar secciones más importantes del sitio.

6. No utilices robots.txt para la protección de contenido sensible

En su lugar, usa meta tags noindex, que indican explícitamente a los motores de búsqueda que no indexen una página mientras permite que los rastreadores accedan a ella. Esto es útil para mantener ciertas páginas fuera de los resultados de búsqueda sin restringir el acceso de los usuarios.

Alternativamente, para contenido más sensible, implementa un control de acceso basado en autenticación, asegurando que solo los usuarios autorizados puedan ver la página. Este enfoque evita que los rastreadores web accedan a contenido privado o confidencial.

Conclusión

Un archivo robots.txt bien optimizado asegura que los motores de búsqueda rastreen tu sitio web de manera eficiente, mejorando el SEO y el rendimiento del sitio. Revisar y actualizar regularmente el archivo robots.txt asegura que se alinea con tus objetivos de SEO. Si no estás seguro acerca de las configuraciones, usa la herramienta de prueba de robots.txt de Google Search Console para evitar errores costosos.

Robots.txt: ¿Qué es y cuáles son las mejores prácticas?

Este tutorial abarca los siguientes temas:

¿Qué es robots.txt?

¿Por qué es importante el archivo robots.txt para el SEO?

¿Cómo comprobar si tu sitio web tiene un archivo robots.txt?

¿Cómo crear y acceder a robots.txt?

Robots.txt Sintaxis & Reglas

1. User-agent y administración de crawlers

2. Disallow

3. Allow

4. Crawl-delay

5. Inclusión de sitemap

Prácticas recomendadas para robots.txt

1. Evita bloquear páginas importantes

2. Prevenir el rastreo de páginas duplicadas y de bajo valor

3. Usa Wildcards y Pattern Matching de forma eficiente

4. Asegúrate de que tu archivo robots.txt es accesible

5. Usa robots.txt para optimizar el presupuesto de rastreo

6. No utilices robots.txt para la protección de contenido sensible

Conclusión

Artículos relacionados

Comparte este artículo