Gerador Robots.txt

Construa rapidamente um arquivo robots.txt para o seu site.

Nenhum dado sai do seu dispositivo

Predefinições de início rápido

Como usar

  1. Escolha uma predefinição ou construa as regras manualmente.
  2. Adicione grupos user-agent com caminhos Allow/Disallow.
  3. Adicione seus URLs de sitemap.
  4. Copie ou baixe o arquivo e coloque-o no diretório raiz do seu site.

Perguntas frequentes

Onde colocar o arquivo robots.txt ?

Ele deve ficar na raiz do seu domínio : https://seudominio.com/robots.txt. Não funcionará em subdiretórios.

O robots.txt impede a indexação das páginas pelo Google ?

O robots.txt impede que os robôs rastreiem as páginas, mas não as remove dos resultados de busca. Para isso, use uma meta tag noindex.

O que são os robôs de IA ?

Robôs de IA como GPTBot, CCBot e Google-Extended coletam conteúdo para treinar modelos de IA. Você pode bloqueá-los especificamente no seu robots.txt.

Um padrão nascido em 1994, padronizado em 2022

O Protocolo de Exclusão de Robôs foi projetado por Martijn Koster em fevereiro de 1994, quase três décadas depois das quais ele foi finalmente codificado como a RFC 9309 em setembro de 2022. Por 28 anos, foi um padrão de fato que todos concordavam em seguir sem que ninguém concordasse com os detalhes. A RFC fixou a sintaxe (as linhas User-agent / Disallow / Allow), as regras de precedência, o limite de tamanho de arquivo (os analisadores precisam aceitar pelo menos 500 KiB) e como tratar os erros (4xx → o rastreador pode acessar qualquer coisa; 5xx → o rastreador precisa presumir bloqueio completo). A maioria dos principais rastreadores de motores de busca seguia mais ou menos o mesmo comportamento antes da RFC, mas as pequenas diferenças importavam.

Onde o arquivo fica

Um arquivo robots.txt precisa ser servido na URL exata /robots.txt a partir da raiz da sua origem (um por esquema + host + porta). Os subdiretórios não funcionam; /blog/robots.txt é apenas um 404 para os rastreadores. Cada subdomínio precisa do seu próprio (www.example.com/robots.txt e blog.example.com/robots.txt são arquivos independentes). O arquivo é texto simples, servido como text/plain, codificado em UTF-8 (o BOM é permitido, mas fortemente desencorajado).

A sintaxe em uma página

# Comments start with #
User-agent: *               # Apply to all crawlers
Disallow: /admin/           # Block this directory
Disallow: /search           # Block search results
Allow: /admin/login         # Allow this path even within /admin/

User-agent: Googlebot       # Specific Googlebot rules
Disallow: /test/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Comportamentos principais:

O que o robots.txt NÃO faz

O mal-entendido mais comum, e um que o Google destaca diretamente na sua própria documentação: o robots.txt impede o rastreamento, não a indexação. Se uma página é vinculada de outro lugar da web, o Google pode indexar a URL (e mostrá-la nos resultados de busca com um trecho como «Nenhuma informação disponível para esta página»), mesmo que nunca tenha rastreado a própria página. Para realmente manter uma página fora dos resultados de busca, use uma tag <meta name="robots" content="noindex"> na própria página, ou um cabeçalho HTTP X-Robots-Tag: noindex. O rastreador precisa ter permissão para acessar a página a fim de ver a diretiva noindex, o que significa que você não deve dar Disallow em uma página no robots.txt se também adicionou noindex a ela, porque o rastreador nunca verá o noindex.

Outras coisas que o robots.txt não faz:

Agentes de usuário que vale a pena conhecer

User-agentProprietárioPara que rastreia
GooglebotGoogleIndexação da Busca na web
BingbotMicrosoftIndexação da busca do Bing
DuckDuckBotDuckDuckGoBusca do DuckDuckGo
SlurpYahooBusca do Yahoo
YandexBotYandexBusca russa
BaiduspiderBaiduBusca chinesa
facebookexternalhitMetaMetadados de cartão de compartilhamento do Facebook
LinkedInBotLinkedInPrévia de compartilhamento do LinkedIn
TwitterbotX / TwitterMetadados de cartão de tweet
SlackbotSlackExpansão de links do Slack
DiscordbotDiscordPrévias de links do Discord

A questão dos rastreadores de IA

Desde 2023, surgiu uma onda de rastreadores de treinamento de IA, e muitos sites adicionaram regras no robots.txt para optar por sair do treinamento de IA. Os principais para conhecer:

Duas coisas importantes para saber: (1) a exclusão é voluntária, já que somente os rastreadores que respeitam o robots.txt são afetados, e (2) a linha entre «busca» e «treinamento de IA» está se borrando rapidamente, então bloquear todos os rastreadores de IA também pode afetar como o seu conteúdo aparece nos resultados de busca resumidos por IA. Use a predefinição «Bloquear robôs de IA» acima como ponto de partida e depois decida quais compromissos fazem sentido para o seu site.

Crawl-Delay e por que o Google o ignora

A diretiva não padrão Crawl-delay: pede que os rastreadores esperem N segundos entre as requisições ao seu servidor. O Bing, o Yandex e muitos rastreadores menores a respeitam. O Google não. A documentação do Google afirma explicitamente que o Googlebot ignora o Crawl-delay. O Search Console costumava expor uma configuração manual de taxa de rastreamento, mas o Google a descontinuou para a maioria dos sites no início de 2024 e agora ajusta a taxa de rastreamento automaticamente com base na resposta do servidor. Se o seu objetivo é desacelerar o Googlebot especificamente, o robots.txt é a ferramenta errada.

A diretiva Sitemap

Listar o seu sitemap no robots.txt é uma dica aos rastreadores sobre onde encontrar a sua lista de URLs. Use URLs absolutas (https:// completo), uma por linha. Você pode listar vários sitemaps para sites que dividem o conteúdo em sitemaps separados (um sitemap principal, um sitemap de notícias, um sitemap de vídeo, um sitemap de imagem). A diretiva Sitemap não faz parte formalmente do protocolo robots.txt original, mas todo motor de busca importante a lê.

Erros comuns

  1. Dar Disallow em arquivos CSS / JavaScript. O Google usa o conteúdo renderizado para o ranking. Se o Googlebot não consegue buscar o seu /css/ ou /js/, ele não consegue renderizar as suas páginas corretamente, o que prejudica o SEO. Não bloqueie os diretórios de recursos.
  2. Confundir Disallow com noindex. O Disallow interrompe o rastreamento; a página ainda pode aparecer na busca por meio de links de entrada. Use as meta tags noindex para o controle real da indexação.
  3. Listar URLs privadas. Qualquer coisa no robots.txt é publicamente legível. Não anuncie /admin/ ou /wp-admin/ se você não quer que os atacantes saibam que elas existem; em vez disso, use uma autenticação adequada e confie no noindex.
  4. Disallow: vazio quando você queria Disallow: /. O vazio permite tudo; Disallow: / bloqueia tudo. São opostos.
  5. Tentar bloquear os rastreadores de incorporação e depois se perguntar por que as prévias de compartilhamento não funcionam. Se você der Disallow no facebookexternalhit, os seus links compartilhados não renderizarão os cartões do Facebook. Permita os bots de mídia social explicitamente se você quer prévias.
  6. Esquecer de adicionar a linha Sitemap. É gratuito, útil, e a maioria dos geradores a omite.
  7. Confiar no Crawl-delay para limitar a velocidade do Google. Ele não faz isso. Use o Search Console.
  8. Usar o robots.txt para bloquear por IP / região / dispositivo. O protocolo não tem nenhum conceito desses. Use regras do lado do servidor em vez disso.
  9. Não testar o arquivo. O Google aposentou o Testador de robots.txt independente em novembro de 2023 e o substituiu pelo Relatório de robots.txt dentro do Search Console; esse relatório sinaliza erros de sintaxe e mostra o rastreamento mais recente. Sempre verifique-o (ou outro validador de robots.txt de código aberto) antes de implantar.

Mais perguntas frequentes

Onde exatamente eu coloco o arquivo?

Na raiz do seu domínio, acessível exatamente em https://yoursite.com/robots.txt. Na maioria das hospedagens, isso significa colocar o robots.txt no seu diretório raiz public / htdocs / www. O WordPress e muitos CMSs geram um dinamicamente; verifique se o seu faz isso antes de adicionar um arquivo estático (o estático vence se ambos existirem).

Eu preciso mesmo de um robots.txt?

Tecnicamente, não. Sem um, os rastreadores adotam o padrão de «permitir tudo», o que é adequado para a maioria dos sites públicos. Mas você quase sempre vai querer um para apontar para o seu sitemap, para bloquear armadilhas de rastreamento óbvias (páginas de resultados de busca, arquivos paginados, URLs paramétricas) e, cada vez mais, para optar por sair do treinamento de IA. Um robots.txt em branco ou que permite tudo por padrão ainda é útil como um lugar para colocar a linha Sitemap.

Qual o tamanho máximo do robots.txt?

A RFC 9309 exige que os analisadores aceitem pelo menos 500 KiB (~500.000 bytes). O Google impõe um limite de 500 KiB e ignora qualquer coisa além disso. A grande maioria dos arquivos robots.txt está bem abaixo de 1 KiB. Se o seu está se aproximando do limite, você provavelmente está listando URLs específicas demais e deveria usar padrões com curinga em vez disso.

O que acontece se o meu robots.txt retorna um erro 500?

De acordo com a RFC 9309, quando um rastreador não consegue buscar o robots.txt por causa de um erro de servidor (5xx), ele precisa presumir bloqueio completo, o que significa que o Google e outros rastreadores compatíveis vão parar de rastrear o seu site por completo até que o arquivo esteja acessível de novo. Se o endpoint do seu robots.txt cair, a sua visibilidade na busca cai junto. Garanta que ele permaneça disponível.

E o Crawl-delay para o Google?

O Google ignora explicitamente o Crawl-delay. A diretiva funciona para o Bing, o Yandex e a maioria dos outros rastreadores. A configuração manual de taxa de rastreamento que o Search Console costumava expor foi descontinuada para a maioria dos sites no início de 2024; o Google agora ajusta a taxa de rastreamento automaticamente com base em como o seu servidor responde. Definir o Crawl-delay no robots.txt não vai quebrar nada; só não vai mudar o comportamento do Googlebot.

Devo bloquear os rastreadores de IA?

Compromisso. Bloquear GPTBot, Google-Extended, ClaudeBot etc. exclui o seu conteúdo dos dados de treinamento desses modelos, o que é a escolha certa se você quer limitar a reutilização do seu conteúdo. O custo: à medida que os resultados de busca resumidos por IA se tornam mais comuns, o conteúdo bloqueado também pode ter menos chance de ser citado ou exibido. Muitos editores bloqueiam os rastreadores de treinamento de IA, mas permitem os rastreadores de busca de IA (OAI-SearchBot etc.) para continuarem sendo citáveis. A predefinição «Bloquear robôs de IA» adota a abordagem maximalista; ajuste-a para corresponder às suas prioridades.

Ferramentas relacionadas

Gerador de Meta Tag Gerador .htaccess Gerador de slug URL