Générateur robots.txt, gratuit
Construisez rapidement un fichier robots.txt pour votre site web.
Préréglages de démarrage rapide
Comment utiliser
- Choisissez un préréglage ou construisez les règles manuellement.
- Ajoutez des groupes user-agent avec des chemins Allow/Disallow.
- Ajoutez vos URL de sitemap.
- Copiez ou téléchargez le fichier et déposez-le dans le répertoire racine de votre site.
Questions fréquentes
Où placer le fichier robots.txt ?
Il doit se trouver à la racine de votre domaine : https://votredomaine.com/robots.txt. Il ne fonctionnera pas dans les sous-répertoires.
robots.txt empêche-t-il l'indexation des pages par Google ?
robots.txt empêche les robots d'explorer les pages, mais ne les retire pas des résultats de recherche. Pour cela, utilisez une balise meta noindex.
Que sont les robots IA ?
Les robots IA comme GPTBot, CCBot et Google-Extended collectent du contenu pour entraîner des modèles IA. Vous pouvez les bloquer spécifiquement dans votre robots.txt.
Une norme née en 1994, standardisée en 2022
Le Robots Exclusion Protocol a été conçu par Martijn Koster en février 1994, et c'est près de trois décennies plus tard qu'il a finalement été codifié sous le nom de RFC 9309 en septembre 2022. Pendant 28 ans, il a été un standard de facto que tout le monde acceptait de suivre sans que personne ne s'accorde sur les détails. La RFC a fixé la syntaxe (lignes User-agent / Disallow / Allow), les règles de priorité, la limite de taille de fichier (les analyseurs doivent accepter au moins 500 Kio) et la manière de gérer les erreurs (4xx → le robot peut accéder à tout ; 5xx → le robot doit supposer une interdiction complète). La plupart des grands robots de moteurs de recherche se conformaient à peu près au même comportement avant la RFC, mais de petites différences comptaient.
Où se trouve le fichier
Un fichier robots.txt doit être servi à l'URL exacte /robots.txt depuis la racine de votre origine (un par schéma + hôte + port). Les sous-répertoires ne fonctionnent pas ; /blog/robots.txt n'est qu'un 404 pour les robots. Chaque sous-domaine a besoin du sien (www.example.com/robots.txt et blog.example.com/robots.txt sont des fichiers indépendants). Le fichier est en texte brut, servi comme text/plain, encodé en UTF-8 (le BOM est autorisé mais fortement déconseillé).
La syntaxe en une page
# Comments start with #
User-agent: * # Apply to all crawlers
Disallow: /admin/ # Block this directory
Disallow: /search # Block search results
Allow: /admin/login # Allow this path even within /admin/
User-agent: Googlebot # Specific Googlebot rules
Disallow: /test/
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml
Comportements clés :
- Structure de groupe. Un « groupe » commence par une ou plusieurs lignes
User-agent:et se poursuit avec des règlesAllow:/Disallow:jusqu'à ce que le prochainUser-agent:commence un nouveau groupe. - La spécificité l'emporte. Le groupe user-agent le plus spécifique s'applique à un robot donné. Googlebot lit ses règles
User-agent: Googlebotet ignore entièrement les règlesUser-agent: *. - Un
Disallow:vide signifie « tout autoriser ».Disallow: /signifie « tout bloquer ». La présence/absence de la barre oblique est cruciale. - Caractères génériques.
*correspond à n'importe quelle séquence de caractères ;$correspond à la fin de l'URL.Disallow: /*.pdf$bloque tous les PDF. Officiellement, ce sont des extensions de Google, mais la plupart des grands robots les acceptent. - Sensibilité à la casse. Les noms de user-agent sont insensibles à la casse (Googlebot = googlebot). Les chemins d'URL dans les règles sont sensibles à la casse (
/Page≠/page) sur les systèmes de fichiers sensibles à la casse.
Ce que robots.txt ne fait PAS
Le malentendu le plus courant, et que Google souligne directement dans sa propre documentation : robots.txt empêche l'exploration, pas l'indexation. Si une page est liée depuis ailleurs sur le web, Google peut indexer l'URL (et l'afficher dans les résultats de recherche avec une mention comme « Aucune information n'est disponible pour cette page ») même s'il n'a jamais exploré la page elle-même. Pour vraiment garder une page hors des résultats de recherche, utilisez une balise <meta name="robots" content="noindex"> sur la page elle-même, ou un en-tête HTTP X-Robots-Tag: noindex. Le robot doit être autorisé à accéder à la page pour voir la directive noindex, ce qui signifie que vous ne devriez pas interdire (Disallow) une page dans robots.txt si vous y avez aussi ajouté noindex, car le robot ne verra jamais le noindex.
Autres choses que robots.txt ne fait pas :
- Masquer des URL sensibles. Le fichier est lisible publiquement ; n'importe qui peut récupérer
yoursite.com/robots.txt. Lister des chemins comme/admin/ou/internal-tools/annonce au monde entier que ces URL existent. Pour un véritable secret, utilisez l'authentification ; pour « ne l'indexe juste pas », utilisez noindex. - Arrêter les robots malveillants. Les acteurs malveillants ignorent entièrement robots.txt. C'est une requête adressée aux robots bien élevés, pas une mesure d'application.
- Bloquer de façon fiable les robots de cartes d'intégration. Le
facebookexternalhitde Facebook, leTwitterbotde Twitter, leLinkedInBotde LinkedIn, les robots de Slack et de Discord lisent tous robots.txt, mais si vous les bloquez, vos liens partagés n'afficheront pas d'aperçu sur ces plateformes. Autorisez-les explicitement si vous voulez des cartes de partage.
Des user-agents à connaître
| User-agent | Propriétaire | Ce qu'il explore |
|---|---|---|
Googlebot | Indexation pour Web Search | |
Bingbot | Microsoft | Indexation pour la recherche Bing |
DuckDuckBot | DuckDuckGo | Recherche DuckDuckGo |
Slurp | Yahoo | Recherche Yahoo |
YandexBot | Yandex | Recherche russe |
Baiduspider | Baidu | Recherche chinoise |
facebookexternalhit | Meta | Métadonnées de carte de partage Facebook |
LinkedInBot | Aperçu de partage LinkedIn | |
Twitterbot | X / Twitter | Métadonnées de carte de tweet |
Slackbot | Slack | Déploiement de liens Slack |
Discordbot | Discord | Aperçus de liens Discord |
La question des robots d'IA
Depuis 2023, une vague de robots d'entraînement d'IA est apparue, et de nombreux sites ont ajouté des règles robots.txt pour se retirer de l'entraînement de l'IA. Les principaux à connaître :
- GPTBot : le robot d'entraînement d'OpenAI.
- ChatGPT-User : le robot à la demande d'OpenAI quand les utilisateurs de ChatGPT lui demandent de récupérer une URL.
- OAI-SearchBot : le robot du produit de recherche d'OpenAI.
- Google-Extended : le jeton distinct de Google pour l'entraînement de l'IA (Bard / Gemini), indépendant de Googlebot. Permet d'autoriser la recherche mais de bloquer l'entraînement de l'IA.
- ClaudeBot / Claude-User / Claude-SearchBot : les différents robots d'Anthropic.
- PerplexityBot : Perplexity AI.
- CCBot : Common Crawl, le jeu de données ouvert sur lequel s'entraînent la plupart des LLM.
- Bytespider : ByteDance / TikTok.
- Applebot-Extended : le jeton distinct d'Apple Intelligence, similaire à Google-Extended.
Deux choses importantes à savoir : (1) le retrait est volontaire, puisque seuls les robots qui respectent robots.txt sont concernés, et (2) la frontière entre la « recherche » et l'« entraînement de l'IA » s'estompe rapidement, donc bloquer tous les robots d'IA peut aussi affecter la façon dont votre contenu apparaît dans les résultats de recherche résumés par l'IA. Utilisez le préréglage « Bloquer les robots IA » ci-dessus comme point de départ, puis décidez quels compromis ont du sens pour votre site.
Crawl-delay et pourquoi Google l'ignore
La directive non standard Crawl-delay: demande aux robots d'attendre N secondes entre les requêtes à votre serveur. Bing, Yandex et de nombreux robots plus petits la respectent. Google non. La documentation de Google indique explicitement que Googlebot ignore Crawl-delay. Search Console exposait autrefois un réglage manuel de vitesse d'exploration, mais Google l'a déprécié pour la plupart des sites début 2024 et ajuste désormais la vitesse d'exploration automatiquement en fonction de la réponse du serveur. Si votre objectif est de ralentir Googlebot spécifiquement, robots.txt est le mauvais outil.
La directive Sitemap
Lister votre sitemap dans robots.txt est un indice pour les robots sur l'endroit où trouver votre liste d'URL. Utilisez des URL absolues (https:// complet), une par ligne. Vous pouvez lister plusieurs sitemaps pour les sites qui répartissent le contenu en sitemaps séparés (un sitemap principal, un sitemap d'actualités, un sitemap vidéo, un sitemap d'images). La directive Sitemap ne fait pas formellement partie du protocole robots.txt d'origine, mais tous les grands moteurs de recherche la lisent.
Erreurs courantes
- Interdire les fichiers CSS / JavaScript. Google utilise le contenu rendu pour le classement. Si Googlebot ne peut pas récupérer votre
/css/ou votre/js/, il ne peut pas rendre vos pages correctement, ce qui nuit au SEO. Ne bloquez pas les répertoires de ressources. - Confondre Disallow et noindex. Disallow arrête l'exploration ; la page peut tout de même apparaître dans la recherche via des liens entrants. Utilisez des balises meta noindex pour un véritable contrôle de l'indexation.
- Lister des URL privées. Tout ce qui est dans robots.txt est lisible publiquement. N'annoncez pas
/admin/ou/wp-admin/si vous ne voulez pas que des attaquants sachent qu'ils existent ; utilisez plutôt une authentification correcte et appuyez-vous sur noindex. - Un
Disallow:vide alors que vous vouliezDisallow: /. Vide autorise tout ;Disallow: /bloque tout. Ce sont des opposés. - Essayer de bloquer les robots d'intégration puis se demander pourquoi les aperçus de partage ne fonctionnent pas. Si vous interdisez (Disallow) facebookexternalhit, vos liens partagés n'afficheront pas de cartes Facebook. Autorisez explicitement les robots de réseaux sociaux si vous voulez des aperçus.
- Oublier d'ajouter la ligne Sitemap. C'est gratuit, utile, et la plupart des générateurs l'omettent.
- Compter sur Crawl-delay pour limiter Google. Ça ne marche pas. Utilisez Search Console.
- Utiliser robots.txt pour bloquer par IP / région / appareil. Le protocole n'a aucune notion de cela. Utilisez plutôt des règles côté serveur.
- Ne pas tester le fichier. Google a retiré l'outil de test robots.txt autonome en novembre 2023 et l'a remplacé par le rapport robots.txt dans Search Console ; ce rapport signale les erreurs de syntaxe et montre la dernière exploration. Vérifiez-le toujours (ou un autre validateur robots.txt open source) avant de déployer.
Autres questions fréquentes
Où exactement placer le fichier ?
À la racine de votre domaine, accessible exactement à https://yoursite.com/robots.txt. Sur la plupart des hébergeurs, cela signifie placer robots.txt dans votre répertoire racine public / htdocs / www. WordPress et de nombreux CMS en génèrent un dynamiquement ; vérifiez si le vôtre le fait avant d'ajouter un fichier statique (le statique l'emporte si les deux existent).
Ai-je vraiment besoin d'un robots.txt ?
Techniquement non. Sans lui, les robots adoptent par défaut le « tout autoriser », ce qui convient à la plupart des sites publics. Mais vous en voulez presque toujours un pour pointer vers votre sitemap, pour bloquer les pièges d'exploration évidents (pages de résultats de recherche, archives paginées, URL paramétriques) et, de plus en plus, pour vous retirer de l'entraînement de l'IA. Un robots.txt vide ou autorisant tout par défaut reste utile comme endroit où placer la ligne Sitemap.
Quelle taille peut faire robots.txt ?
La RFC 9309 exige que les analyseurs acceptent au moins 500 Kio (~500 000 octets). Google applique une limite de 500 Kio et ignore tout ce qui la dépasse. La grande majorité des fichiers robots.txt font bien moins de 1 Kio. Si le vôtre approche la limite, vous listez probablement trop d'URL spécifiques et devriez plutôt utiliser des motifs génériques.
Que se passe-t-il si mon robots.txt renvoie une erreur 500 ?
Selon la RFC 9309, quand un robot ne peut pas récupérer robots.txt à cause d'une erreur serveur (5xx), il doit supposer une interdiction complète, ce qui signifie que Google et les autres robots conformes cesseront entièrement d'explorer votre site jusqu'à ce que le fichier soit de nouveau accessible. Si votre point de terminaison robots.txt tombe en panne, votre visibilité dans la recherche tombe avec lui. Veillez à ce qu'il reste disponible.
Et Crawl-delay pour Google ?
Google ignore explicitement Crawl-delay. La directive fonctionne bien pour Bing, Yandex et la plupart des autres robots. Le réglage manuel de vitesse d'exploration qu'exposait autrefois Search Console a été déprécié pour la plupart des sites début 2024 ; Google ajuste désormais la vitesse d'exploration automatiquement selon la façon dont votre serveur répond. Définir Crawl-delay dans robots.txt ne cassera rien ; cela ne changera simplement pas le comportement de Googlebot.
Devrais-je bloquer les robots d'IA ?
C'est un compromis. Bloquer GPTBot, Google-Extended, ClaudeBot, etc. retire votre contenu des données d'entraînement de ces modèles, ce qui est le bon choix si vous voulez limiter la réutilisation de votre contenu. Le coût : à mesure que les résultats de recherche résumés par l'IA se généralisent, le contenu bloqué pourrait aussi être moins susceptible d'être cité ou mis en avant. De nombreux éditeurs bloquent les robots d'entraînement d'IA mais autorisent les robots de recherche par IA (OAI-SearchBot, etc.) pour rester citables. Le préréglage « Bloquer les robots IA » adopte l'approche maximaliste ; ajustez-le selon vos priorités.