What is the purpose of robots.txt?

Robots.txt tells search engine crawlers which pages to crawl and which to skip. It helps control indexing, prevent duplicate content crawling, and protect sensitive areas of your site from being indexed.

Can I block specific crawlers with robots.txt?

Yes, you can use the User-agent directive to specify crawlers (like "Googlebot" or "Bingbot") and define crawl rules specific to each bot. You can also block all bots with User-agent: *.

Do I need to install anything to use Robots.txt Generator?

No installation needed. Robots.txt Generator works directly in any modern web browser (Chrome, Firefox, Safari, or Edge).

¿Puedo usarla en dispositivos móviles?

Yes, this tool works on any device with a modern browser including phones and tablets.

Where should I upload the generated robots.txt?

Place the file at the root of your domain so it serves at https://yoursite.com/robots.txt. Search engines expect it at the root and will not read it from a subdirectory.

Generador Robots.txt

Construye rápidamente un archivo robots.txt para tu sitio web.

Ningún dato sale de tu dispositivo

Preajustes de inicio rápido

URL de sitemap

robots.txt generado

Cómo usar

Elige un preajuste o construye las reglas manualmente.
Añade grupos user-agent con rutas Allow/Disallow.
Añade las URL de sitemap.
Copia o descarga el archivo y colócalo en el directorio raíz de tu sitio.

Preguntas frecuentes

¿Dónde colocar el archivo robots.txt?

Debe estar en la raíz de tu dominio: https://tudominio.com/robots.txt. No funcionará en los subdirectorios.

¿robots.txt impide la indexación de las páginas por Google?

robots.txt impide a los robots explorar las páginas, pero no las retira de los resultados de búsqueda. Para eso, usa una etiqueta meta noindex.

¿Qué son los robots de IA?

Los robots de IA como GPTBot, CCBot y Google-Extended recopilan contenido para entrenar modelos de IA. Puedes bloquearlos específicamente en tu robots.txt.

Un estándar nacido en 1994, estandarizado en 2022

El Protocolo de Exclusión de Robots fue diseñado por Martijn Koster en febrero de 1994, casi tres décadas después de lo cual finalmente se codificó como RFC 9309 en septiembre de 2022. Durante 28 años fue un estándar de facto que todo el mundo acordaba seguir sin que nadie se pusiera de acuerdo sobre los detalles. El RFC fijó la sintaxis (las líneas User-agent / Disallow / Allow), las reglas de precedencia, el límite de tamaño de archivo (los analizadores deben aceptar al menos 500 KiB) y cómo gestionar los errores (4xx → el rastreador puede acceder a todo; 5xx → el rastreador debe asumir la prohibición completa). La mayoría de los rastreadores de los grandes motores de búsqueda se ajustaban aproximadamente al mismo comportamiento antes del RFC, pero las pequeñas diferencias importaban.

Dónde vive el archivo

Un archivo robots.txt debe servirse en la URL exacta /robots.txt desde la raíz de tu origen (uno por cada esquema + host + puerto). Los subdirectorios no funcionan; /blog/robots.txt es simplemente un 404 para los rastreadores. Cada subdominio necesita el suyo propio (www.example.com/robots.txt y blog.example.com/robots.txt son archivos independientes). El archivo es texto plano, servido como text/plain, codificado en UTF-8 (el BOM está permitido, pero se desaconseja encarecidamente).

La sintaxis en una página

# Comments start with #
User-agent: *               # Apply to all crawlers
Disallow: /admin/           # Block this directory
Disallow: /search           # Block search results
Allow: /admin/login         # Allow this path even within /admin/

User-agent: Googlebot       # Specific Googlebot rules
Disallow: /test/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Comportamientos clave:

Estructura de grupos. Un «grupo» comienza con una o más líneas User-agent: y continúa con reglas Allow: / Disallow: hasta que el siguiente User-agent: inicia un nuevo grupo.
Gana la especificidad. El grupo de agente de usuario más específico se aplica a un rastreador dado. Googlebot lee sus reglas User-agent: Googlebot e ignora por completo las reglas User-agent: *.
Un Disallow: vacío significa «permitir todo». Disallow: / significa «bloquear todo». La presencia o ausencia de la barra es crítica.
Comodines. * coincide con cualquier secuencia de caracteres; $ coincide con el final de la URL. Disallow: /*.pdf$ bloquea todos los PDF. Oficialmente, estas son extensiones de Google, pero la mayoría de los grandes rastreadores las aceptan.
Distinción de mayúsculas y minúsculas. Los nombres de agente de usuario no distinguen mayúsculas de minúsculas (Googlebot = googlebot). Las rutas de URL en las reglas sí distinguen mayúsculas de minúsculas (/Page ≠ /page) en los sistemas de archivos que las distinguen.

Lo que robots.txt NO hace

El malentendido más común, y uno que Google señala directamente en su propia documentación: robots.txt impide el rastreo, no la indexación. Si una página está enlazada desde otro lugar de la web, Google puede indexar la URL (y mostrarla en los resultados de búsqueda con un texto mínimo como «No hay información disponible sobre esta página») aunque nunca haya rastreado la página en sí. Para mantener una página realmente fuera de los resultados de búsqueda, usa una etiqueta <meta name="robots" content="noindex"> en la propia página, o una cabecera HTTP X-Robots-Tag: noindex. El rastreador tiene que poder acceder a la página para ver la directiva noindex, lo que significa que no deberías bloquear una página con Disallow en robots.txt si también le has añadido noindex, porque el rastreador nunca verá el noindex.

Otras cosas que robots.txt no hace:

Ocultar URL sensibles. El archivo es de lectura pública; cualquiera puede obtener yoursite.com/robots.txt. Enumerar rutas como /admin/ o /internal-tools/ le dice al mundo que esas URL existen. Para un secreto de verdad, usa autenticación; para «solo no lo indexes», usa noindex.
Detener rastreadores maliciosos. Los actores malintencionados ignoran robots.txt por completo. Es una petición a los rastreadores que se portan bien, no algo de obligado cumplimiento.
Bloquear de forma fiable los rastreadores de tarjetas de incrustación. El facebookexternalhit de Facebook, el Twitterbot de Twitter, el LinkedInBot de LinkedIn y los bots de Slack y Discord leen todos robots.txt, pero si los bloqueas, tus enlaces compartidos no mostrarán vistas previas en esas plataformas. Permítelos explícitamente si quieres tarjetas para compartir.

Agentes de usuario que conviene conocer

Agente de usuario	Propietario	Para qué rastrea
`Googlebot`	Google	Indexación de la búsqueda web
`Bingbot`	Microsoft	Indexación de la búsqueda de Bing
`DuckDuckBot`	DuckDuckGo	Búsqueda de DuckDuckGo
`Slurp`	Yahoo	Búsqueda de Yahoo
`YandexBot`	Yandex	Búsqueda rusa
`Baiduspider`	Baidu	Búsqueda china
`facebookexternalhit`	Meta	Metadatos de tarjeta para compartir de Facebook
`LinkedInBot`	LinkedIn	Vista previa para compartir de LinkedIn
`Twitterbot`	X / Twitter	Metadatos de tarjeta de tuit
`Slackbot`	Slack	Despliegue de enlaces de Slack
`Discordbot`	Discord	Vistas previas de enlaces de Discord

La cuestión de los rastreadores de IA

Desde 2023, ha aparecido una oleada de rastreadores de entrenamiento de IA, y muchos sitios han añadido reglas de robots.txt para excluirse del entrenamiento de IA. Los principales que conviene conocer:

GPTBot: el rastreador de entrenamiento de OpenAI.
ChatGPT-User: el rastreador bajo demanda de OpenAI cuando los usuarios de ChatGPT le piden que obtenga una URL.
OAI-SearchBot: el rastreador del producto de búsqueda de OpenAI.
Google-Extended: el token independiente de Google para el entrenamiento de IA (Bard / Gemini), independiente de Googlebot. Te permite permitir la Búsqueda pero bloquear el entrenamiento de IA.
ClaudeBot / Claude-User / Claude-SearchBot: los diversos rastreadores de Anthropic.
PerplexityBot: Perplexity AI.
CCBot: Common Crawl, el conjunto de datos abierto con el que se entrena la mayoría de los LLM.
Bytespider: ByteDance / TikTok.
Applebot-Extended: el token independiente de Apple Intelligence, similar a Google-Extended.

Dos cosas importantes que conviene saber: (1) la exclusión es voluntaria, ya que solo afecta a los rastreadores que respetan robots.txt, y (2) la línea entre «búsqueda» y «entrenamiento de IA» se difumina rápidamente, así que bloquear todos los rastreadores de IA también puede afectar a cómo aparece tu contenido en los resultados de búsqueda resumidos por IA. Usa el preajuste «Bloquear los robots de IA» de arriba como punto de partida y luego decide qué compensaciones tienen sentido para tu sitio.

Crawl-delay y por qué Google lo ignora

La directiva no estándar Crawl-delay: pide a los rastreadores que esperen N segundos entre las peticiones a tu servidor. Bing, Yandex y muchos rastreadores más pequeños la respetan. Google no. La documentación de Google afirma explícitamente que Googlebot ignora Crawl-delay. Search Console solía exponer un ajuste manual de frecuencia de rastreo, pero Google lo retiró para la mayoría de los sitios a principios de 2024 y ahora ajusta la frecuencia de rastreo automáticamente según la respuesta del servidor. Si tu objetivo es ralentizar específicamente a Googlebot, robots.txt es la herramienta equivocada.

Directiva Sitemap

Enumerar tu sitemap en robots.txt es una pista para los rastreadores sobre dónde encontrar tu lista de URL. Usa URL absolutas (con https:// completo), una por línea. Puedes enumerar varios sitemaps para los sitios que dividen el contenido en sitemaps separados (un sitemap principal, un sitemap de noticias, un sitemap de vídeo, un sitemap de imágenes). La directiva Sitemap no forma parte formalmente del protocolo robots.txt original, pero todos los grandes motores de búsqueda la leen.

Errores frecuentes

No permitir archivos CSS / JavaScript. Google usa el contenido renderizado para el posicionamiento. Si Googlebot no puede obtener tu /css/ o tu /js/, no puede renderizar tus páginas correctamente, lo que perjudica el SEO. No bloquees los directorios de recursos.
Confundir Disallow con noindex. Disallow detiene el rastreo; la página puede seguir apareciendo en las búsquedas a través de enlaces entrantes. Usa etiquetas meta noindex para el control real de la indexación.
Enumerar URL privadas. Cualquier cosa en robots.txt es de lectura pública. No anuncies /admin/ o /wp-admin/ si no quieres que los atacantes sepan que existen; en su lugar, usa una autenticación adecuada y confía en noindex.
Un Disallow: vacío cuando querías decir Disallow: /. Vacío permite todo; Disallow: / bloquea todo. Son opuestos.
Intentar bloquear los rastreadores de incrustación y luego preguntarse por qué las vistas previas para compartir no funcionan. Si bloqueas con Disallow a facebookexternalhit, tus enlaces compartidos no mostrarán tarjetas de Facebook. Permite explícitamente a los bots de redes sociales si quieres vistas previas.
Olvidar añadir la línea Sitemap. Es gratis, útil, y la mayoría de los generadores la omiten.
Confiar en Crawl-delay para limitar a Google. No funciona. Usa Search Console.
Usar robots.txt para bloquear por IP / región / dispositivo. El protocolo no tiene ningún concepto de esto. Usa reglas del lado del servidor en su lugar.
No probar el archivo. Google retiró el probador de robots.txt independiente en noviembre de 2023 y lo sustituyó por el informe de robots.txt dentro de Search Console; ese informe señala los errores de sintaxis y muestra el rastreo más reciente. Compruébalo siempre (o usa otro validador de robots.txt de código abierto) antes de desplegar.

Más preguntas frecuentes

¿Dónde pongo exactamente el archivo?

En la raíz de tu dominio, accesible exactamente en https://yoursite.com/robots.txt. En la mayoría de los alojamientos, eso significa poner robots.txt en tu directorio raíz public / htdocs / www. WordPress y muchos CMS generan uno de forma dinámica; comprueba si el tuyo lo hace antes de añadir un archivo estático (el estático gana si existen ambos).

¿Necesito siquiera un robots.txt?

Técnicamente, no. Sin él, los rastreadores usan de forma predeterminada «permitir todo», lo cual está bien para la mayoría de los sitios públicos. Pero casi siempre querrás uno para apuntar a tu sitemap, para bloquear las trampas de rastreo obvias (páginas de resultados de búsqueda, archivos paginados, URL con parámetros) y, cada vez más, para excluirte del entrenamiento de IA. Un robots.txt en blanco o que permita todo de forma predeterminada sigue siendo útil como lugar donde poner la línea Sitemap.

¿Cómo de grande puede ser robots.txt?

El RFC 9309 exige que los analizadores acepten al menos 500 KiB (~500.000 bytes). Google impone un límite de 500 KiB e ignora cualquier cosa más allá de eso. La gran mayoría de los archivos robots.txt están muy por debajo de 1 KiB. Si el tuyo se acerca al límite, probablemente estés enumerando demasiadas URL específicas y deberías usar patrones de comodín en su lugar.

¿Qué pasa si mi robots.txt devuelve un error 500?

Según el RFC 9309, cuando un rastreador no puede obtener robots.txt debido a un error del servidor (5xx), debe asumir la prohibición completa, lo que significa que Google y otros rastreadores conformes dejarán de rastrear tu sitio por completo hasta que el archivo vuelva a ser accesible. Si el endpoint de tu robots.txt se cae, tu visibilidad en las búsquedas se cae con él. Asegúrate de que siga disponible.

¿Y el Crawl-delay para Google?

Google ignora explícitamente el Crawl-delay. La directiva sí funciona para Bing, Yandex y la mayoría de los demás rastreadores. El ajuste manual de frecuencia de rastreo que Search Console solía exponer se retiró para la mayoría de los sitios a principios de 2024; ahora Google ajusta la frecuencia de rastreo automáticamente según cómo responda tu servidor. Establecer Crawl-delay en robots.txt no romperá nada; simplemente no cambiará el comportamiento de Googlebot.

¿Debería bloquear los rastreadores de IA?

Es una compensación. Bloquear GPTBot, Google-Extended, ClaudeBot, etc. excluye tu contenido de los datos de entrenamiento de esos modelos, lo cual es la decisión correcta si quieres limitar la reutilización de tu contenido. El coste: a medida que los resultados de búsqueda resumidos por IA se vuelven más comunes, el contenido bloqueado también puede tener menos probabilidades de ser citado o mostrado. Muchos editores bloquean los rastreadores de entrenamiento de IA pero permiten los rastreadores de búsqueda de IA (OAI-SearchBot, etc.) para seguir siendo citables. El preajuste «Bloquear los robots de IA» adopta el enfoque maximalista; ajústalo para que coincida con tus prioridades.

Herramientas relacionadas

Generador de metaetiquetas Generador .htaccess Generador de slug URL