robots.txt

À quoi sert le fichier robots.txt ?

 

EN BREF : Voici à quoi sert le fichier robots.txt

  • 🔍 Indique aux moteurs de recherche quelles pages ou fichiers explorer (ou non).

  • Évite de surcharger le serveur en contrôlant le trafic des robots.

  • 🚫 Ne supprime pas une page de Google : pour ça, utilisez noindex ou un mot de passe.

  • 🖼️ Peut bloquer les médias (images, PDF, vidéos) pour qu’ils n’apparaissent pas dans les résultats.

  • 🗂️ Bloque des ressources inutiles (JS, CSS…) mais laissez les fichiers essentiels au rendu des pages.

  • 🗺️ Pensez à ajouter le sitemap (Sitemap: https://site.com/sitemap.xml) pour accélérer l’indexation.

  • ⚠️ Limites : certains robots ignorent le fichier, et une URL bloquée peut rester visible si elle est liée ailleurs.

 

Qu’est‑ce que le fichier robots.txt ?

Créé en 1994, le Robots Exclusion Protocol est un simple fichier texte lisible par les crawlers des moteurs de recherche, il gère leur trafic et prévient la surcharge serveur .

C’est le panneau de signalisation de votre site pour les moteurs de recherche. Grâce à lui, vous indiquez clairement aux robots d’exploration où ils peuvent passer et où ils doivent s’arrêter :

  • Vous maîtrisez le trafic : finis la crainte que votre serveur soit pris d’assaut par des robots trop zélés.

  • Vous mettez de côté l’inutile : vous pouvez bloquer certaines pages ou fichiers (HTML, PDF, images, vidéos, scripts…) que vous ne voulez pas faire explorer.

  • Vous préservez votre SEO : les contenus essentiels restent indexables, tandis que tout ce qui n’apporte rien reste à l’écart.

 

Google, Bing ou Yahoo respectent la plupart des directives, mais rien n’oblige les robots malveillants à s’y plier. Si vous souhaitez vraiment bloquer un contenu sensible (fichiers RH, factures…), mettez‑le derrière une authentification : le robots.txt ne suffit pas à le protéger .

 

À garder en tête :

  • Bloquer une URL dans robots.txt ne la relève pas de l’oubli, si elle est liée ailleurs, elle peut quand même apparaître dans les résultats de recherche (sans description, certes).

  • Pour que votre page disparaisse totalement de Google, privilégiez la balise noindex ou un accès protégé par mot de passe.

  • Ne fermez pas la porte aux ressources indispensables (CSS, JS, images), sinon, Google risquerait de mal comprendre vos pages et de passer à côté de leur véritable valeur.

 

Le fichier doit toujours être accessible à l’URL : https://site.fr/robots.txt ; placé ailleurs, il sera ignoré.

 

Ajouter le sitemap dans robots.txt

Indiquer l’emplacement du sitemap.xml aide les crawlers à découvrir plus vite vos URL, surtout s’il existe plusieurs variantes (images, news, vidéos) .

Sitemap: https://www.site.com/sitemap.xml

 

Placez la ligne Sitemap: en tout début ou en toute fin de fichier : les robots la repèrent instantanément et l’indexation gagne quelques précieuses heures !

 

Directives Disallow / Allow

Disallow bloque l’exploration d’une URL ou d’un répertoire ; Allow fait l’inverse, utile quand vous souhaitez autoriser une sous‑page d’un dossier autrement bloqué.

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

 

Si une page déjà indexée devient Disallow, Google ne pourra plus voir un éventuel <meta name="robots" content="noindex"> et la page restera dans l’index .

 

Bloquer un type de fichier ou un paramètre URL

User-agent: *
# Ignore tous les PDF
Disallow: /*.pdf$
# Ignore les URL avec tag UTM
Disallow: /*?utm=*

Ce qui peut être particulièrement utile lors de hack comme le piratage par mots clés japonais, ou le pirate envoi des milliers de pages en indexation.

 

Crawl-delay & soumission instantanée (IndexNow)

Pour réguler le rythme de Bing ou Yandex :

User-agent: bingbot
Crawl-delay: 10

Besoin d’indexation éclair ? Pousse tes nouvelles URLs via IndexNow: elles sont découvertes en quelques minutes.

 

Un robots.txt bien pensé économise le budget crawl : en bloquant logs, PDF volumineux ou dossiers d’admin, tu concentres Googlebot sur tes pages à forte valeur SEO.

 

Adapter le fichier aux moteurs

Tous les moteurs n’utilisent pas les mêmes user‑agents :

  • Googlebot – Google Search
  • bingbot – Bing (Microsoft)
  • Yahoo! Slurp – Yahoo Search

 

Exemple pour bloquer un répertoire uniquement pour Bing :

User-agent: bingbot
Disallow: /repertoire1/

 

Pour empêcher certains robots IA de réutiliser vos contenus dans l’entraînement de modèles, bloquez leurs user‑agents spécifiques (ex. CCBot pour Common Crawl) – méthode recommandée par Wired en 2024 .

 

Tester et corriger votre robots.txt

Google Search Console propose un rapport dédié qui signale erreurs de syntaxe et règles obsolètes ; vous pouvez aussi y forcer un recrawl après modification pour accélérer la prise en compte.

  1. Connectez‑vous à Search Console > Paramètres > robots.txt report.
  2. Corrigez les éventuels avertissements (syntaxe, ordre des directives).
  3. Cliquez sur Request Recrawl pour pousser la nouvelle version.

 

Et voila, un robots.txt optimisé !