Generador Robots.txt

Construye rápidamente un archivo robots.txt para tu sitio web.

Ningún dato sale de tu dispositivo

Preajustes de inicio rápido

Cómo usar

  1. Elige un preajuste o construye las reglas manualmente.
  2. Añade grupos user-agent con rutas Allow/Disallow.
  3. Añade las URL de sitemap.
  4. Copia o descarga el archivo y colócalo en el directorio raíz de tu sitio.

Preguntas frecuentes

¿Dónde colocar el archivo robots.txt?

Debe estar en la raíz de tu dominio: https://tudominio.com/robots.txt. No funcionará en los subdirectorios.

¿robots.txt impide la indexación de las páginas por Google?

robots.txt impide a los robots explorar las páginas, pero no las retira de los resultados de búsqueda. Para eso, usa una etiqueta meta noindex.

¿Qué son los robots de IA?

Los robots de IA como GPTBot, CCBot y Google-Extended recopilan contenido para entrenar modelos de IA. Puedes bloquearlos específicamente en tu robots.txt.

Un estándar nacido en 1994, estandarizado en 2022

El Protocolo de Exclusión de Robots fue diseñado por Martijn Koster en febrero de 1994, casi tres décadas después de lo cual finalmente se codificó como RFC 9309 en septiembre de 2022. Durante 28 años fue un estándar de facto que todo el mundo acordaba seguir sin que nadie se pusiera de acuerdo sobre los detalles. El RFC fijó la sintaxis (las líneas User-agent / Disallow / Allow), las reglas de precedencia, el límite de tamaño de archivo (los analizadores deben aceptar al menos 500 KiB) y cómo gestionar los errores (4xx → el rastreador puede acceder a todo; 5xx → el rastreador debe asumir la prohibición completa). La mayoría de los rastreadores de los grandes motores de búsqueda se ajustaban aproximadamente al mismo comportamiento antes del RFC, pero las pequeñas diferencias importaban.

Dónde vive el archivo

Un archivo robots.txt debe servirse en la URL exacta /robots.txt desde la raíz de tu origen (uno por cada esquema + host + puerto). Los subdirectorios no funcionan; /blog/robots.txt es simplemente un 404 para los rastreadores. Cada subdominio necesita el suyo propio (www.example.com/robots.txt y blog.example.com/robots.txt son archivos independientes). El archivo es texto plano, servido como text/plain, codificado en UTF-8 (el BOM está permitido, pero se desaconseja encarecidamente).

La sintaxis en una página

# Comments start with #
User-agent: *               # Apply to all crawlers
Disallow: /admin/           # Block this directory
Disallow: /search           # Block search results
Allow: /admin/login         # Allow this path even within /admin/

User-agent: Googlebot       # Specific Googlebot rules
Disallow: /test/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Comportamientos clave:

Lo que robots.txt NO hace

El malentendido más común, y uno que Google señala directamente en su propia documentación: robots.txt impide el rastreo, no la indexación. Si una página está enlazada desde otro lugar de la web, Google puede indexar la URL (y mostrarla en los resultados de búsqueda con un texto mínimo como «No hay información disponible sobre esta página») aunque nunca haya rastreado la página en sí. Para mantener una página realmente fuera de los resultados de búsqueda, usa una etiqueta <meta name="robots" content="noindex"> en la propia página, o una cabecera HTTP X-Robots-Tag: noindex. El rastreador tiene que poder acceder a la página para ver la directiva noindex, lo que significa que no deberías bloquear una página con Disallow en robots.txt si también le has añadido noindex, porque el rastreador nunca verá el noindex.

Otras cosas que robots.txt no hace:

Agentes de usuario que conviene conocer

Agente de usuarioPropietarioPara qué rastrea
GooglebotGoogleIndexación de la búsqueda web
BingbotMicrosoftIndexación de la búsqueda de Bing
DuckDuckBotDuckDuckGoBúsqueda de DuckDuckGo
SlurpYahooBúsqueda de Yahoo
YandexBotYandexBúsqueda rusa
BaiduspiderBaiduBúsqueda china
facebookexternalhitMetaMetadatos de tarjeta para compartir de Facebook
LinkedInBotLinkedInVista previa para compartir de LinkedIn
TwitterbotX / TwitterMetadatos de tarjeta de tuit
SlackbotSlackDespliegue de enlaces de Slack
DiscordbotDiscordVistas previas de enlaces de Discord

La cuestión de los rastreadores de IA

Desde 2023, ha aparecido una oleada de rastreadores de entrenamiento de IA, y muchos sitios han añadido reglas de robots.txt para excluirse del entrenamiento de IA. Los principales que conviene conocer:

Dos cosas importantes que conviene saber: (1) la exclusión es voluntaria, ya que solo afecta a los rastreadores que respetan robots.txt, y (2) la línea entre «búsqueda» y «entrenamiento de IA» se difumina rápidamente, así que bloquear todos los rastreadores de IA también puede afectar a cómo aparece tu contenido en los resultados de búsqueda resumidos por IA. Usa el preajuste «Bloquear los robots de IA» de arriba como punto de partida y luego decide qué compensaciones tienen sentido para tu sitio.

Crawl-delay y por qué Google lo ignora

La directiva no estándar Crawl-delay: pide a los rastreadores que esperen N segundos entre las peticiones a tu servidor. Bing, Yandex y muchos rastreadores más pequeños la respetan. Google no. La documentación de Google afirma explícitamente que Googlebot ignora Crawl-delay. Search Console solía exponer un ajuste manual de frecuencia de rastreo, pero Google lo retiró para la mayoría de los sitios a principios de 2024 y ahora ajusta la frecuencia de rastreo automáticamente según la respuesta del servidor. Si tu objetivo es ralentizar específicamente a Googlebot, robots.txt es la herramienta equivocada.

Directiva Sitemap

Enumerar tu sitemap en robots.txt es una pista para los rastreadores sobre dónde encontrar tu lista de URL. Usa URL absolutas (con https:// completo), una por línea. Puedes enumerar varios sitemaps para los sitios que dividen el contenido en sitemaps separados (un sitemap principal, un sitemap de noticias, un sitemap de vídeo, un sitemap de imágenes). La directiva Sitemap no forma parte formalmente del protocolo robots.txt original, pero todos los grandes motores de búsqueda la leen.

Errores frecuentes

  1. No permitir archivos CSS / JavaScript. Google usa el contenido renderizado para el posicionamiento. Si Googlebot no puede obtener tu /css/ o tu /js/, no puede renderizar tus páginas correctamente, lo que perjudica el SEO. No bloquees los directorios de recursos.
  2. Confundir Disallow con noindex. Disallow detiene el rastreo; la página puede seguir apareciendo en las búsquedas a través de enlaces entrantes. Usa etiquetas meta noindex para el control real de la indexación.
  3. Enumerar URL privadas. Cualquier cosa en robots.txt es de lectura pública. No anuncies /admin/ o /wp-admin/ si no quieres que los atacantes sepan que existen; en su lugar, usa una autenticación adecuada y confía en noindex.
  4. Un Disallow: vacío cuando querías decir Disallow: /. Vacío permite todo; Disallow: / bloquea todo. Son opuestos.
  5. Intentar bloquear los rastreadores de incrustación y luego preguntarse por qué las vistas previas para compartir no funcionan. Si bloqueas con Disallow a facebookexternalhit, tus enlaces compartidos no mostrarán tarjetas de Facebook. Permite explícitamente a los bots de redes sociales si quieres vistas previas.
  6. Olvidar añadir la línea Sitemap. Es gratis, útil, y la mayoría de los generadores la omiten.
  7. Confiar en Crawl-delay para limitar a Google. No funciona. Usa Search Console.
  8. Usar robots.txt para bloquear por IP / región / dispositivo. El protocolo no tiene ningún concepto de esto. Usa reglas del lado del servidor en su lugar.
  9. No probar el archivo. Google retiró el probador de robots.txt independiente en noviembre de 2023 y lo sustituyó por el informe de robots.txt dentro de Search Console; ese informe señala los errores de sintaxis y muestra el rastreo más reciente. Compruébalo siempre (o usa otro validador de robots.txt de código abierto) antes de desplegar.

Más preguntas frecuentes

¿Dónde pongo exactamente el archivo?

En la raíz de tu dominio, accesible exactamente en https://yoursite.com/robots.txt. En la mayoría de los alojamientos, eso significa poner robots.txt en tu directorio raíz public / htdocs / www. WordPress y muchos CMS generan uno de forma dinámica; comprueba si el tuyo lo hace antes de añadir un archivo estático (el estático gana si existen ambos).

¿Necesito siquiera un robots.txt?

Técnicamente, no. Sin él, los rastreadores usan de forma predeterminada «permitir todo», lo cual está bien para la mayoría de los sitios públicos. Pero casi siempre querrás uno para apuntar a tu sitemap, para bloquear las trampas de rastreo obvias (páginas de resultados de búsqueda, archivos paginados, URL con parámetros) y, cada vez más, para excluirte del entrenamiento de IA. Un robots.txt en blanco o que permita todo de forma predeterminada sigue siendo útil como lugar donde poner la línea Sitemap.

¿Cómo de grande puede ser robots.txt?

El RFC 9309 exige que los analizadores acepten al menos 500 KiB (~500.000 bytes). Google impone un límite de 500 KiB e ignora cualquier cosa más allá de eso. La gran mayoría de los archivos robots.txt están muy por debajo de 1 KiB. Si el tuyo se acerca al límite, probablemente estés enumerando demasiadas URL específicas y deberías usar patrones de comodín en su lugar.

¿Qué pasa si mi robots.txt devuelve un error 500?

Según el RFC 9309, cuando un rastreador no puede obtener robots.txt debido a un error del servidor (5xx), debe asumir la prohibición completa, lo que significa que Google y otros rastreadores conformes dejarán de rastrear tu sitio por completo hasta que el archivo vuelva a ser accesible. Si el endpoint de tu robots.txt se cae, tu visibilidad en las búsquedas se cae con él. Asegúrate de que siga disponible.

¿Y el Crawl-delay para Google?

Google ignora explícitamente el Crawl-delay. La directiva sí funciona para Bing, Yandex y la mayoría de los demás rastreadores. El ajuste manual de frecuencia de rastreo que Search Console solía exponer se retiró para la mayoría de los sitios a principios de 2024; ahora Google ajusta la frecuencia de rastreo automáticamente según cómo responda tu servidor. Establecer Crawl-delay en robots.txt no romperá nada; simplemente no cambiará el comportamiento de Googlebot.

¿Debería bloquear los rastreadores de IA?

Es una compensación. Bloquear GPTBot, Google-Extended, ClaudeBot, etc. excluye tu contenido de los datos de entrenamiento de esos modelos, lo cual es la decisión correcta si quieres limitar la reutilización de tu contenido. El coste: a medida que los resultados de búsqueda resumidos por IA se vuelven más comunes, el contenido bloqueado también puede tener menos probabilidades de ser citado o mostrado. Muchos editores bloquean los rastreadores de entrenamiento de IA pero permiten los rastreadores de búsqueda de IA (OAI-SearchBot, etc.) para seguir siendo citables. El preajuste «Bloquear los robots de IA» adopta el enfoque maximalista; ajústalo para que coincida con tus prioridades.

Herramientas relacionadas

Generador de metaetiquetas Generador .htaccess Generador de slug URL