What is the purpose of robots.txt?

Robots.txt tells search engine crawlers which pages to crawl and which to skip. It helps control indexing, prevent duplicate content crawling, and protect sensitive areas of your site from being indexed.

Can I block specific crawlers with robots.txt?

Yes, you can use the User-agent directive to specify crawlers (like "Googlebot" or "Bingbot") and define crawl rules specific to each bot. You can also block all bots with User-agent: *.

Do I need to install anything to use Robots.txt Generator?

No installation needed. Robots.txt Generator works directly in any modern web browser (Chrome, Firefox, Safari, or Edge).

Posso usá-la em dispositivos móveis?

Yes, this tool works on any device with a modern browser including phones and tablets.

Where should I upload the generated robots.txt?

Place the file at the root of your domain so it serves at https://yoursite.com/robots.txt. Search engines expect it at the root and will not read it from a subdirectory.

Gerador Robots.txt

Construa rapidamente um arquivo robots.txt para o seu site.

Nenhum dado sai do seu dispositivo

Predefinições de início rápido

URL de sitemap

robots.txt gerado

Como usar

Escolha uma predefinição ou construa as regras manualmente.
Adicione grupos user-agent com caminhos Allow/Disallow.
Adicione seus URLs de sitemap.
Copie ou baixe o arquivo e coloque-o no diretório raiz do seu site.

Perguntas frequentes

Onde colocar o arquivo robots.txt ?

Ele deve ficar na raiz do seu domínio : https://seudominio.com/robots.txt. Não funcionará em subdiretórios.

O robots.txt impede a indexação das páginas pelo Google ?

O robots.txt impede que os robôs rastreiem as páginas, mas não as remove dos resultados de busca. Para isso, use uma meta tag noindex.

O que são os robôs de IA ?

Robôs de IA como GPTBot, CCBot e Google-Extended coletam conteúdo para treinar modelos de IA. Você pode bloqueá-los especificamente no seu robots.txt.

Um padrão nascido em 1994, padronizado em 2022

O Protocolo de Exclusão de Robôs foi projetado por Martijn Koster em fevereiro de 1994, quase três décadas depois das quais ele foi finalmente codificado como a RFC 9309 em setembro de 2022. Por 28 anos, foi um padrão de fato que todos concordavam em seguir sem que ninguém concordasse com os detalhes. A RFC fixou a sintaxe (as linhas User-agent / Disallow / Allow), as regras de precedência, o limite de tamanho de arquivo (os analisadores precisam aceitar pelo menos 500 KiB) e como tratar os erros (4xx → o rastreador pode acessar qualquer coisa; 5xx → o rastreador precisa presumir bloqueio completo). A maioria dos principais rastreadores de motores de busca seguia mais ou menos o mesmo comportamento antes da RFC, mas as pequenas diferenças importavam.

Onde o arquivo fica

Um arquivo robots.txt precisa ser servido na URL exata /robots.txt a partir da raiz da sua origem (um por esquema + host + porta). Os subdiretórios não funcionam; /blog/robots.txt é apenas um 404 para os rastreadores. Cada subdomínio precisa do seu próprio (www.example.com/robots.txt e blog.example.com/robots.txt são arquivos independentes). O arquivo é texto simples, servido como text/plain, codificado em UTF-8 (o BOM é permitido, mas fortemente desencorajado).

A sintaxe em uma página

# Comments start with #
User-agent: *               # Apply to all crawlers
Disallow: /admin/           # Block this directory
Disallow: /search           # Block search results
Allow: /admin/login         # Allow this path even within /admin/

User-agent: Googlebot       # Specific Googlebot rules
Disallow: /test/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Comportamentos principais:

Estrutura de grupo. Um «grupo» começa com uma ou mais linhas User-agent: e continua com regras Allow: / Disallow: até que o próximo User-agent: comece um novo grupo.
A especificidade vence. O grupo de user-agent mais específico se aplica a um dado rastreador. O Googlebot lê as suas regras User-agent: Googlebot e ignora completamente as regras User-agent: *.
Um Disallow: vazio significa «permitir tudo». Disallow: / significa «bloquear tudo». A presença/ausência da barra é crítica.
Curingas. * corresponde a qualquer sequência de caracteres; $ corresponde ao fim da URL. Disallow: /*.pdf$ bloqueia todos os PDFs. Oficialmente, essas são extensões do Google, mas a maioria dos principais rastreadores as aceita.
Distinção de maiúsculas e minúsculas. Os nomes de user-agent não distinguem maiúsculas de minúsculas (Googlebot = googlebot). Os caminhos de URL nas regras distinguem maiúsculas de minúsculas (/Page ≠ /page) em sistemas de arquivos sensíveis a maiúsculas e minúsculas.

O que o robots.txt NÃO faz

O mal-entendido mais comum, e um que o Google destaca diretamente na sua própria documentação: o robots.txt impede o rastreamento, não a indexação. Se uma página é vinculada de outro lugar da web, o Google pode indexar a URL (e mostrá-la nos resultados de busca com um trecho como «Nenhuma informação disponível para esta página»), mesmo que nunca tenha rastreado a própria página. Para realmente manter uma página fora dos resultados de busca, use uma tag <meta name="robots" content="noindex"> na própria página, ou um cabeçalho HTTP X-Robots-Tag: noindex. O rastreador precisa ter permissão para acessar a página a fim de ver a diretiva noindex, o que significa que você não deve dar Disallow em uma página no robots.txt se também adicionou noindex a ela, porque o rastreador nunca verá o noindex.

Outras coisas que o robots.txt não faz:

Esconder URLs sensíveis. O arquivo é publicamente legível; qualquer um pode buscar yoursite.com/robots.txt. Listar caminhos como /admin/ ou /internal-tools/ conta ao mundo que essas URLs existem. Para sigilo de verdade, use autenticação; para «só não indexe», use noindex.
Deter rastreadores maliciosos. Os agentes mal-intencionados ignoram o robots.txt por completo. É um pedido aos rastreadores bem comportados, não uma imposição.
Bloquear de forma confiável os rastreadores de cartões de incorporação. O facebookexternalhit do Facebook, o Twitterbot do Twitter, o LinkedInBot do LinkedIn e os bots do Slack e do Discord leem o robots.txt, mas se você os bloquear, os seus links compartilhados não renderizarão prévias nessas plataformas. Permita-os explicitamente se você quer cartões de compartilhamento.

Agentes de usuário que vale a pena conhecer

User-agent	Proprietário	Para que rastreia
`Googlebot`	Google	Indexação da Busca na web
`Bingbot`	Microsoft	Indexação da busca do Bing
`DuckDuckBot`	DuckDuckGo	Busca do DuckDuckGo
`Slurp`	Yahoo	Busca do Yahoo
`YandexBot`	Yandex	Busca russa
`Baiduspider`	Baidu	Busca chinesa
`facebookexternalhit`	Meta	Metadados de cartão de compartilhamento do Facebook
`LinkedInBot`	LinkedIn	Prévia de compartilhamento do LinkedIn
`Twitterbot`	X / Twitter	Metadados de cartão de tweet
`Slackbot`	Slack	Expansão de links do Slack
`Discordbot`	Discord	Prévias de links do Discord

A questão dos rastreadores de IA

Desde 2023, surgiu uma onda de rastreadores de treinamento de IA, e muitos sites adicionaram regras no robots.txt para optar por sair do treinamento de IA. Os principais para conhecer:

GPTBot: o rastreador de treinamento da OpenAI.
ChatGPT-User: o rastreador sob demanda da OpenAI, quando os usuários do ChatGPT pedem que ele busque uma URL.
OAI-SearchBot: o rastreador do produto de busca da OpenAI.
Google-Extended: o token separado do Google para o treinamento de IA (Bard / Gemini), independente do Googlebot. Permite que você libere a Busca, mas bloqueie o treinamento de IA.
ClaudeBot / Claude-User / Claude-SearchBot: os vários rastreadores da Anthropic.
PerplexityBot: Perplexity AI.
CCBot: Common Crawl, o conjunto de dados aberto no qual a maioria dos LLMs treina.
Bytespider: ByteDance / TikTok.
Applebot-Extended: o token separado da Apple Intelligence, semelhante ao Google-Extended.

Duas coisas importantes para saber: (1) a exclusão é voluntária, já que somente os rastreadores que respeitam o robots.txt são afetados, e (2) a linha entre «busca» e «treinamento de IA» está se borrando rapidamente, então bloquear todos os rastreadores de IA também pode afetar como o seu conteúdo aparece nos resultados de busca resumidos por IA. Use a predefinição «Bloquear robôs de IA» acima como ponto de partida e depois decida quais compromissos fazem sentido para o seu site.

Crawl-Delay e por que o Google o ignora

A diretiva não padrão Crawl-delay: pede que os rastreadores esperem N segundos entre as requisições ao seu servidor. O Bing, o Yandex e muitos rastreadores menores a respeitam. O Google não. A documentação do Google afirma explicitamente que o Googlebot ignora o Crawl-delay. O Search Console costumava expor uma configuração manual de taxa de rastreamento, mas o Google a descontinuou para a maioria dos sites no início de 2024 e agora ajusta a taxa de rastreamento automaticamente com base na resposta do servidor. Se o seu objetivo é desacelerar o Googlebot especificamente, o robots.txt é a ferramenta errada.

A diretiva Sitemap

Listar o seu sitemap no robots.txt é uma dica aos rastreadores sobre onde encontrar a sua lista de URLs. Use URLs absolutas (https:// completo), uma por linha. Você pode listar vários sitemaps para sites que dividem o conteúdo em sitemaps separados (um sitemap principal, um sitemap de notícias, um sitemap de vídeo, um sitemap de imagem). A diretiva Sitemap não faz parte formalmente do protocolo robots.txt original, mas todo motor de busca importante a lê.

Erros comuns

Dar Disallow em arquivos CSS / JavaScript. O Google usa o conteúdo renderizado para o ranking. Se o Googlebot não consegue buscar o seu /css/ ou /js/, ele não consegue renderizar as suas páginas corretamente, o que prejudica o SEO. Não bloqueie os diretórios de recursos.
Confundir Disallow com noindex. O Disallow interrompe o rastreamento; a página ainda pode aparecer na busca por meio de links de entrada. Use as meta tags noindex para o controle real da indexação.
Listar URLs privadas. Qualquer coisa no robots.txt é publicamente legível. Não anuncie /admin/ ou /wp-admin/ se você não quer que os atacantes saibam que elas existem; em vez disso, use uma autenticação adequada e confie no noindex.
Disallow: vazio quando você queria Disallow: /. O vazio permite tudo; Disallow: / bloqueia tudo. São opostos.
Tentar bloquear os rastreadores de incorporação e depois se perguntar por que as prévias de compartilhamento não funcionam. Se você der Disallow no facebookexternalhit, os seus links compartilhados não renderizarão os cartões do Facebook. Permita os bots de mídia social explicitamente se você quer prévias.
Esquecer de adicionar a linha Sitemap. É gratuito, útil, e a maioria dos geradores a omite.
Confiar no Crawl-delay para limitar a velocidade do Google. Ele não faz isso. Use o Search Console.
Usar o robots.txt para bloquear por IP / região / dispositivo. O protocolo não tem nenhum conceito desses. Use regras do lado do servidor em vez disso.
Não testar o arquivo. O Google aposentou o Testador de robots.txt independente em novembro de 2023 e o substituiu pelo Relatório de robots.txt dentro do Search Console; esse relatório sinaliza erros de sintaxe e mostra o rastreamento mais recente. Sempre verifique-o (ou outro validador de robots.txt de código aberto) antes de implantar.

Mais perguntas frequentes

Onde exatamente eu coloco o arquivo?

Na raiz do seu domínio, acessível exatamente em https://yoursite.com/robots.txt. Na maioria das hospedagens, isso significa colocar o robots.txt no seu diretório raiz public / htdocs / www. O WordPress e muitos CMSs geram um dinamicamente; verifique se o seu faz isso antes de adicionar um arquivo estático (o estático vence se ambos existirem).

Eu preciso mesmo de um robots.txt?

Tecnicamente, não. Sem um, os rastreadores adotam o padrão de «permitir tudo», o que é adequado para a maioria dos sites públicos. Mas você quase sempre vai querer um para apontar para o seu sitemap, para bloquear armadilhas de rastreamento óbvias (páginas de resultados de busca, arquivos paginados, URLs paramétricas) e, cada vez mais, para optar por sair do treinamento de IA. Um robots.txt em branco ou que permite tudo por padrão ainda é útil como um lugar para colocar a linha Sitemap.

Qual o tamanho máximo do robots.txt?

A RFC 9309 exige que os analisadores aceitem pelo menos 500 KiB (~500.000 bytes). O Google impõe um limite de 500 KiB e ignora qualquer coisa além disso. A grande maioria dos arquivos robots.txt está bem abaixo de 1 KiB. Se o seu está se aproximando do limite, você provavelmente está listando URLs específicas demais e deveria usar padrões com curinga em vez disso.

O que acontece se o meu robots.txt retorna um erro 500?

De acordo com a RFC 9309, quando um rastreador não consegue buscar o robots.txt por causa de um erro de servidor (5xx), ele precisa presumir bloqueio completo, o que significa que o Google e outros rastreadores compatíveis vão parar de rastrear o seu site por completo até que o arquivo esteja acessível de novo. Se o endpoint do seu robots.txt cair, a sua visibilidade na busca cai junto. Garanta que ele permaneça disponível.

E o Crawl-delay para o Google?

O Google ignora explicitamente o Crawl-delay. A diretiva funciona para o Bing, o Yandex e a maioria dos outros rastreadores. A configuração manual de taxa de rastreamento que o Search Console costumava expor foi descontinuada para a maioria dos sites no início de 2024; o Google agora ajusta a taxa de rastreamento automaticamente com base em como o seu servidor responde. Definir o Crawl-delay no robots.txt não vai quebrar nada; só não vai mudar o comportamento do Googlebot.

Devo bloquear os rastreadores de IA?

Compromisso. Bloquear GPTBot, Google-Extended, ClaudeBot etc. exclui o seu conteúdo dos dados de treinamento desses modelos, o que é a escolha certa se você quer limitar a reutilização do seu conteúdo. O custo: à medida que os resultados de busca resumidos por IA se tornam mais comuns, o conteúdo bloqueado também pode ter menos chance de ser citado ou exibido. Muitos editores bloqueiam os rastreadores de treinamento de IA, mas permitem os rastreadores de busca de IA (OAI-SearchBot etc.) para continuarem sendo citáveis. A predefinição «Bloquear robôs de IA» adota a abordagem maximalista; ajuste-a para corresponder às suas prioridades.

Ferramentas relacionadas

Gerador de Meta Tag Gerador .htaccess Gerador de slug URL