À quoi sert le fichier robots.txt ?

Web & SEO

juillet 22, 2025

Sommaire

1. Qu’est‑ce que le fichier robots.txt ?
2. Ajouter un sitemap dans robots.txt
3. Directives Disallow / Allow
4. Bloquer des paramètres d’url
5. Optimisation du crawl
6. Adapter le fichier aux moteurs
7. Tester et corriger avec Search Console

EN BREF : Voici à quoi sert le fichier robots.txt

🔍 Indique aux moteurs de recherche quelles pages ou fichiers explorer (ou non).
⚡ Évite de surcharger le serveur en contrôlant le trafic des robots.
🚫 Ne supprime pas une page de Google : pour ça, utilisez noindex ou un mot de passe.
🖼️ Peut bloquer les médias (images, PDF, vidéos) pour qu’ils n’apparaissent pas dans les résultats.
🗂️ Bloque des ressources inutiles (JS, CSS…) mais laissez les fichiers essentiels au rendu des pages.
🗺️ Pensez à ajouter le sitemap (Sitemap: https://site.com/sitemap.xml) pour accélérer l’indexation.
⚠️ Limites : certains robots ignorent le fichier, et une URL bloquée peut rester visible si elle est liée ailleurs.

Qu’est‑ce que le fichier robots.txt ?

Créé en 1994, le Robots Exclusion Protocol est un simple fichier texte lisible par les crawlers des moteurs de recherche, il gère leur trafic et prévient la surcharge serveur .

C’est le panneau de signalisation de votre site pour les moteurs de recherche. Grâce à lui, vous indiquez clairement aux robots d’exploration où ils peuvent passer et où ils doivent s’arrêter :

Vous maîtrisez le trafic : finis la crainte que votre serveur soit pris d’assaut par des robots trop zélés.
Vous mettez de côté l’inutile : vous pouvez bloquer certaines pages ou fichiers (HTML, PDF, images, vidéos, scripts…) que vous ne voulez pas faire explorer.
Vous préservez votre SEO : les contenus essentiels restent indexables, tandis que tout ce qui n’apporte rien reste à l’écart.

Google, Bing ou Yahoo respectent la plupart des directives, mais rien n’oblige les robots malveillants à s’y plier. Si vous souhaitez vraiment bloquer un contenu sensible (fichiers RH, factures…), mettez‑le derrière une authentification : le robots.txt ne suffit pas à le protéger .

À garder en tête :

Bloquer une URL dans robots.txt ne la relève pas de l’oubli, si elle est liée ailleurs, elle peut quand même apparaître dans les résultats de recherche (sans description, certes).
Pour que votre page disparaisse totalement de Google, privilégiez la balise noindex ou un accès protégé par mot de passe.
Ne fermez pas la porte aux ressources indispensables (CSS, JS, images), sinon, Google risquerait de mal comprendre vos pages et de passer à côté de leur véritable valeur.

Le fichier doit toujours être accessible à l’URL : https://site.fr/robots.txt ; placé ailleurs, il sera ignoré.

Ajouter le sitemap dans robots.txt

Indiquer l’emplacement du sitemap.xml aide les crawlers à découvrir plus vite vos URL, surtout s’il existe plusieurs variantes (images, news, vidéos) .

Sitemap: https://www.site.com/sitemap.xml

Placez la ligne Sitemap: en tout début ou en toute fin de fichier : les robots la repèrent instantanément et l’indexation gagne quelques précieuses heures !

Directives Disallow / Allow

Disallow bloque l’exploration d’une URL ou d’un répertoire ; Allow fait l’inverse, utile quand vous souhaitez autoriser une sous‑page d’un dossier autrement bloqué.

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Si une page déjà indexée devient Disallow, Google ne pourra plus voir un éventuel <meta name="robots" content="noindex"> et la page restera dans l’index .

Bloquer un type de fichier ou un paramètre URL

User-agent: *
# Ignore tous les PDF
Disallow: /*.pdf$
# Ignore les URL avec tag UTM
Disallow: /*?utm=*

Ce qui peut être particulièrement utile lors de hack comme le piratage par mots clés japonais, ou le pirate envoi des milliers de pages en indexation.

Crawl-delay & soumission instantanée (IndexNow)

Pour réguler le rythme de Bing ou Yandex :

User-agent: bingbot
Crawl-delay: 10

Besoin d’indexation éclair ? Pousse tes nouvelles URLs via IndexNow : elles sont découvertes en quelques minutes.

Un robots.txt bien pensé économise le budget crawl : en bloquant logs, PDF volumineux ou dossiers d’admin, tu concentres Googlebot sur tes pages à forte valeur SEO.

Adapter le fichier aux moteurs

Tous les moteurs n’utilisent pas les mêmes user‑agents :

Googlebot – Google Search
bingbot – Bing (Microsoft)
Yahoo! Slurp – Yahoo Search

Exemple pour bloquer un répertoire uniquement pour Bing :

User-agent: bingbot
Disallow: /repertoire1/

Pour empêcher certains robots IA de réutiliser vos contenus dans l’entraînement de modèles, bloquez leurs user‑agents spécifiques (ex. CCBot pour Common Crawl) – méthode recommandée par Wired en 2024 .

Tester et corriger votre robots.txt

Google Search Console propose un rapport dédié qui signale erreurs de syntaxe et règles obsolètes ; vous pouvez aussi y forcer un recrawl après modification pour accélérer la prise en compte.

Connectez‑vous à Search Console > Paramètres > robots.txt report.
Corrigez les éventuels avertissements (syntaxe, ordre des directives).
Cliquez sur Request Recrawl pour pousser la nouvelle version.

Et voila, un robots.txt optimisé !