Sommaire
EN BREF : Voici à quoi sert le fichier robots.txt
-
🔍 Indique aux moteurs de recherche quelles pages ou fichiers explorer (ou non).
-
⚡ Évite de surcharger le serveur en contrôlant le trafic des robots.
-
🚫 Ne supprime pas une page de Google : pour ça, utilisez
noindex
ou un mot de passe. -
🖼️ Peut bloquer les médias (images, PDF, vidéos) pour qu’ils n’apparaissent pas dans les résultats.
-
🗂️ Bloque des ressources inutiles (JS, CSS…) mais laissez les fichiers essentiels au rendu des pages.
-
🗺️ Pensez à ajouter le sitemap (
Sitemap: https://site.com/sitemap.xml
) pour accélérer l’indexation. -
⚠️ Limites : certains robots ignorent le fichier, et une URL bloquée peut rester visible si elle est liée ailleurs.
Qu’est‑ce que le fichier robots.txt ?
Créé en 1994, le Robots Exclusion Protocol est un simple fichier texte lisible par les crawlers des moteurs de recherche, il gère leur trafic et prévient la surcharge serveur .
C’est le panneau de signalisation de votre site pour les moteurs de recherche. Grâce à lui, vous indiquez clairement aux robots d’exploration où ils peuvent passer et où ils doivent s’arrêter :
-
Vous maîtrisez le trafic : finis la crainte que votre serveur soit pris d’assaut par des robots trop zélés.
-
Vous mettez de côté l’inutile : vous pouvez bloquer certaines pages ou fichiers (HTML, PDF, images, vidéos, scripts…) que vous ne voulez pas faire explorer.
-
Vous préservez votre SEO : les contenus essentiels restent indexables, tandis que tout ce qui n’apporte rien reste à l’écart.
Google, Bing ou Yahoo respectent la plupart des directives, mais rien n’oblige les robots malveillants à s’y plier. Si vous souhaitez vraiment bloquer un contenu sensible (fichiers RH, factures…), mettez‑le derrière une authentification : le robots.txt ne suffit pas à le protéger .
À garder en tête :
-
Bloquer une URL dans robots.txt ne la relève pas de l’oubli, si elle est liée ailleurs, elle peut quand même apparaître dans les résultats de recherche (sans description, certes).
-
Pour que votre page disparaisse totalement de Google, privilégiez la balise noindex ou un accès protégé par mot de passe.
-
Ne fermez pas la porte aux ressources indispensables (CSS, JS, images), sinon, Google risquerait de mal comprendre vos pages et de passer à côté de leur véritable valeur.
https://site.fr/robots.txt
; placé ailleurs, il sera ignoré.
Ajouter le sitemap dans robots.txt
Indiquer l’emplacement du sitemap.xml
aide les crawlers à découvrir plus vite vos URL, surtout s’il existe plusieurs variantes (images, news, vidéos) .
Sitemap: https://www.site.com/sitemap.xml
Placez la ligne Sitemap:
en tout début ou en toute fin de fichier : les robots la repèrent instantanément et l’indexation gagne quelques précieuses heures !
Directives Disallow / Allow
Disallow bloque l’exploration d’une URL ou d’un répertoire ; Allow fait l’inverse, utile quand vous souhaitez autoriser une sous‑page d’un dossier autrement bloqué.
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Si une page déjà indexée devient Disallow
, Google ne pourra plus voir un éventuel <meta name="robots" content="noindex">
et la page restera dans l’index .
Bloquer un type de fichier ou un paramètre URL
User-agent: *
# Ignore tous les PDF
Disallow: /*.pdf$
# Ignore les URL avec tag UTM
Disallow: /*?utm=*
Ce qui peut être particulièrement utile lors de hack comme le piratage par mots clés japonais, ou le pirate envoi des milliers de pages en indexation.
Crawl-delay & soumission instantanée (IndexNow)
Pour réguler le rythme de Bing ou Yandex :
User-agent: bingbot
Crawl-delay: 10
Besoin d’indexation éclair ? Pousse tes nouvelles URLs via IndexNow : elles sont découvertes en quelques minutes.
Un robots.txt bien pensé économise le budget crawl : en bloquant logs, PDF volumineux ou dossiers d’admin, tu concentres Googlebot sur tes pages à forte valeur SEO.
Adapter le fichier aux moteurs
Tous les moteurs n’utilisent pas les mêmes user‑agents :
Googlebot
– Google Searchbingbot
– Bing (Microsoft)Yahoo! Slurp
– Yahoo Search
Exemple pour bloquer un répertoire uniquement pour Bing :
User-agent: bingbot
Disallow: /repertoire1/
Pour empêcher certains robots IA de réutiliser vos contenus dans l’entraînement de modèles, bloquez leurs user‑agents spécifiques (ex. CCBot
pour Common Crawl) – méthode recommandée par Wired en 2024 .
Tester et corriger votre robots.txt
Google Search Console propose un rapport dédié qui signale erreurs de syntaxe et règles obsolètes ; vous pouvez aussi y forcer un recrawl après modification pour accélérer la prise en compte.
- Connectez‑vous à Search Console > Paramètres > robots.txt report.
- Corrigez les éventuels avertissements (syntaxe, ordre des directives).
- Cliquez sur Request Recrawl pour pousser la nouvelle version.
Et voila, un robots.txt optimisé !