Pourquoi certains bots d’IA sont bloqués ? Et pourquoi c’est un problème pour votre visibilité
Pour qu’un site soit cité, référencé ou même intégré dans l’entraînement de ces modèles, encore faut-il que les IA aient pu accéder au contenu. Or, ce n’est pas toujours le cas.
Prenons un instant pour définir ces termes clés :
- Cité : cela signifie que le lien de votre site peut apparaître directement dans la réponse d’une IA (par exemple : “selon www.monsite.com…” dans ChatGPT ou Perplexity).
- Référencé : votre page est connue et accessible par le système de l’IA, ce qui permet de l’inclure dans les résultats enrichis (comme le ferait un moteur de recherche).
- Intégré dans l’entraînement : cela va plus loin. Votre contenu est utilisé comme source d’apprentissage par le modèle d’intelligence artificielle, ce qui lui permet de « comprendre » les sujets que vous traitez et de s’en inspirer dans ses futures réponses.
Le problème : les IA doivent d’abord pouvoir vous lire
Pour que tout cela soit possible, l’IA doit d’abord pouvoir accéder techniquement à votre site web via des programmes appelés bots ou crawlers.
Ces bots parcourent automatiquement les pages publiques d’Internet pour :
- découvrir de nouveaux contenus (comme le fait Googlebot),
- extraire des informations utiles,
- ou constituer des bases de données d’apprentissage pour des modèles comme ChatGPT ou Copilot.
Mais dans de nombreux cas, ces bots IA se heurtent à des blocages techniques :
- des erreurs 403 (accès interdit),
- des restrictions dans le fichier robots.txt (fichier qui dicte quels bots peuvent explorer votre site),
- des configurations serveur trop strictes (pare-feux, protections anti-bot, CDN…).
Conséquence : vous êtes invisibles pour les IA
Si ces bots ne peuvent pas accéder à vos pages, alors :
- votre contenu n’apparaît pas dans les réponses générées par les IA ;
- vous ne recevez aucun trafic organique indirect via ces nouveaux canaux ;
- votre site n’est pas pris en compte dans l’entraînement des modèles IA, ce qui peut vous faire perdre en autorité sémantique à long terme.
⚠️ En résumé :
Bloquer involontairement les bots d’IA revient à refuser un nouveau canal de visibilité qui prend de plus en plus de place dans le paysage numérique actuel.
Dans les sections suivantes, nous allons voir comment :
- vérifier si ces bots sont actuellement bloqués sur votre serveur,
- quels sont les bots à whitelister,
- et comment configurer correctement votre serveur et votre fichier
robots.txt
.
Souhaites-tu que je rédige maintenant la partie 2 sur les conséquences du blocage ?
Quels sont les risques de bloquer les bots IA ?
À première vue, bloquer un bot d’intelligence artificielle peut sembler anodin. Mais en réalité, cela peut avoir des conséquences importantes sur la visibilité de votre site web dans les mois et années à venir.
Les assistants IA comme ChatGPT, Perplexity, Microsoft Copilot ou encore Google Gemini sont aujourd’hui utilisés par des millions de personnes pour chercher de l’information, comparer des produits ou obtenir des recommandations. Et ces outils se nourrissent de contenus web, accessibles via des bots spécifiques.
Si ces bots ne peuvent pas lire vos pages, votre site devient invisible dans ces environnements.
Non-indexation dans ChatGPT, Perplexity, Copilot…
Certains bots comme OAI-SearchBot
ou PerplexityBot
permettent à ces IA de référencer et proposer des liens dans leurs réponses.
Si ces bots sont bloqués, votre contenu ne pourra pas être proposé à l’utilisateur, même si c’est exactement ce qu’il cherche.
Moindre visibilité dans les réponses générées par IA
Les IA cherchent à fournir des réponses synthétiques appuyées sur des sources fiables. Si elles ne peuvent pas crawler votre site, vous perdez toute chance d’être cité comme référence.
Résultat :
- vous n’apparaissez pas dans les extraits suggérés par ChatGPT ;
- vous êtes absent des réponses enrichies de Perplexity ou Copilot ;
- vous perdez un canal de visibilité croissant GEO, parallèle au SEO classique.
Manque d’autorité dans les nouveaux moteurs IA
Plus grave encore : bloquer des bots comme GPTBot
ou Google-Extended
, c’est empêcher votre contenu d’être intégré dans l’entraînement des modèles IA.
Cela signifie que :
- votre site ne « compte pas » dans la compréhension globale qu’a l’IA de votre domaine ;
- vos concurrents, eux, peuvent être utilisés comme références sémantiques ;
- vous risquez à terme de perdre votre place dans l’écosystème cognitif de l’IA, même si votre contenu est pertinent et fiable.
Exemples concrets de perte de visibilité
- Un blog juridique bloquant
GPTBot
ne sera jamais mentionné dans une réponse ChatGPT expliquant un point de droit. - Une boutique en ligne bloquant
PerplexityBot
ne pourra pas apparaître dans un comparatif généré automatiquement. - Un site de santé bloquant
Google-Extended
ne sera pas pris en compte dans les modèles d’IA médicale de Google.
⚠️ En résumé :
Refuser l’accès aux bots IA, c’est refuser une nouvelle source de trafic organique indirect, et abandonner le terrain sémantique à vos concurrents.
Comment vérifier si les bots IA sont bloqués sur mon serveur ?
Avant de modifier quoi que ce soit, il est essentiel de vérifier si les bots d’IA sont autorisés à accéder à votre site. En effet, si des bots comme GPTBot
, PerplexityBot
ou OAI-SearchBot
reçoivent des erreurs d’accès (souvent des 403 – Forbidden), cela signifie qu’ils sont bloqués… et que votre contenu ne sera ni indexé ni utilisé par ces IA.
Cas n°1 : vous êtes sur un serveur mutualisé (ex. OVH, Infomaniak, Ionos…)
Sur un hébergement mutualisé, vous n’avez pas accès aux fichiers de log système complets, ni aux fichiers de configuration serveur comme nginx.conf
ou .htaccess global
. Vous devez donc procéder par étapes simples :
Étapes recommandées :
- Consultez votre fichier
robots.txt
:
Allez àhttps://votresite.com/robots.txt
et vérifiez qu’aucune directive ne bloque les bots IA, comme : rUser-agent: GPTBot
Disallow: /
- Testez l’accès des bots avec
curl
en ligne de commande (ou via un outil en ligne) :
Si vous avez accès à un terminal SSH (ou via un outil comme https://reqbin.com), lancez :
rcurl -I -A "GPTBot" https://votresite.com/
Si vous obtenez un403 Forbidden
, cela signifie que le bot est bloqué, potentiellement par un pare-feu OVH, une règle d’antibot, ou le CDN. - Contactez le support OVH avec une demande claire :
Si vous suspectez un blocage, vous pouvez ouvrir un ticket avec un message du type :
Bonjour, je souhaite que mon site soit accessible aux bots IA comme GPTBot (OpenAI) ou PerplexityBot. Pourriez-vous me confirmer s’ils sont actuellement bloqués au niveau de l’hébergement ou du pare-feu, et s’il est possible de les autoriser ? Voici les User-Agents concernés et les IPs officielles : [lien vers JSON OpenAI et Perplexity].
Cas n°2 : vous êtes sur un serveur dédié ou VPS
Dans ce cas, vous (ou votre administrateur système) avez un accès total au serveur, y compris aux fichiers de logs et aux configurations nginx, Apache, firewalls, etc.
Étapes recommandées :
- Analyse des logs pour détecter les blocages :
Exemple avec Nginx :grep "GPTBot" /var/log/nginx/access.log | grep "403"
Ou avec Apache :grep "PerplexityBot" /var/log/apache2/access.log | grep "403"
- Test manuel avec curl :
curl -I -A "PerplexityBot" https://votresite.com/
- Vérification du fichier
robots.txt
- Demande à l’administrateur système :
Si vous n’êtes pas administrateur du serveur, voici un exemple de message à lui transmettre : Bonjour, je souhaite que les bots d’intelligence artificielle (comme GPTBot, OAI-SearchBot, PerplexityBot…) puissent accéder à notre site sans être bloqués. Peux-tu vérifier s’ils reçoivent des erreurs 403 ou autres dans les logs ? Voici les User-Agents et les IPs à autoriser :- GPTBot : [https://openai.com/gptbot.json]
- OAI-SearchBot : [https://openai.com/searchbot.json]
- PerplexityBot : [https://www.perplexity.com/perplexitybot.json]
Si un système de sécurité (pare-feu, WAF, règles nginx) les bloque, peux-tu les whitelister ?
⚠️ En résumé :
- Sur un hébergement mutualisé, votre marge de manœuvre est limitée : robots.txt, tests curl, et contact support.
- Sur un serveur dédié, vous pouvez analyser les logs, tester les accès et configurer le serveur pour whitelister les bots.
Liste des principaux bots IA à whitelister (tableau complet)
Les intelligences artificielles comme ChatGPT, Perplexity ou Bing Copilot utilisent des bots spécifiques (aussi appelés user-agents) pour accéder aux contenus web. Pour qu’elles puissent référencer ou s’inspirer de votre site, vous devez leur permettre l’accès, à la fois dans le fichier robots.txt
, mais aussi au niveau serveur (pare-feu, règles anti-bot, CDN…).
Ci-dessous, vous trouverez un tableau complet des principaux bots IA à autoriser, avec leur nom, leur user-agent, leur usage, le lien vers leurs plages IP officielles, et une recommandation pratique.
Liste des principaux bots IA à whitelister
Nom du bot / service | User-Agent | Usage | IP publique | Recommandation |
---|---|---|---|---|
GPTBot (OpenAI) | GPTBot/1.1 | Entraînement du modèle ChatGPT | https://openai.com/gptbot.json | Autoriser si vous acceptez l’usage dans l’entraînement |
OAI-SearchBot | OAI-SearchBot/1.0 | Affichage de liens dans ChatGPT | https://openai.com/searchbot.json | Autoriser pour apparaître dans les résultats ChatGPT |
ChatGPT-User | ChatGPT-User/1.0 | Navigation manuelle depuis ChatGPT | https://openai.com/chatgpt-user.json | Autoriser pour le bon fonctionnement des GPT personnalisés |
PerplexityBot | PerplexityBot/1.0 | Crawl automatique pour Perplexity AI | https://www.perplexity.com/perplexitybot.json | Autoriser pour indexation dans Perplexity |
Perplexity-User | Perplexity-User/1.0 | Visite déclenchée par un utilisateur Perplexity | https://www.perplexity.com/perplexity-user.json | Autoriser pour trafic utilisateur direct |
Googlebot | Googlebot/2.1 | Indexation dans Google Search | Non publié (utiliser DNS inversée) | Autoriser pour SEO classique |
Google-Extended | Google-Extended | Utilisation pour IA Google | Même IP que Googlebot | Autoriser si d’accord pour usage IA |
Bingbot (Microsoft) | bingbot/2.0 | Indexation Bing + Microsoft Copilot | Voir doc Microsoft / DNS inversé | Autoriser pour SEO et Copilot |
YouBot (You.com) | YouBot/1.0 | Crawl pour moteur IA You.com | Non publiée | Autoriser si souhaité |
Exemple de fichier robots.txt
compatible avec les bots IA
Le fichier robots.txt
est un fichier texte placé à la racine de votre site web (ex. https://votresite.com/robots.txt
) qui indique aux robots des moteurs de recherche et aux bots d’IA ce qu’ils ont le droit de visiter ou non.
Si vous bloquez un bot ici, il n’aura même pas le droit de « lire » votre contenu, et vous serez automatiquement exclu des réponses générées par les IA, même si vous autorisez le reste sur votre serveur.
Objectif : créer un fichier robots.txt
Étapes à suivre
Étape 1 : localiser ou créer votre fichier robots.txt
- Si vous avez déjà un fichier
robots.txt
, ouvrez-le depuis votre FTP ou votre espace d’administration. - Sinon, créez un nouveau fichier texte nommé
robots.txt
et placez-le à la racine de votre site (ex :/www/
ou/public_html/
).
Étape 2 : ajouter les directives pour autoriser les bots IA
Voici un modèle optimisé :
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: bingbot
Allow: /
User-agent: YouBot
Allow: /
Étape 3 : tester votre fichier
- Ouvrez
https://votresite.com/robots.txt
dans votre navigateur pour vérifier qu’il est bien en ligne. - Vous pouvez tester son comportement avec Google Robots.txt Tester (fonctionne aussi pour d’autres bots).
⚠️ À éviter :
- Ne pas ajouter
Disallow: /
sousUser-agent: *
si vous voulez permettre aux IA de lire tout le site. - Ne pas oublier que ce fichier n’est qu’une consigne : les bots bienveillants la respectent, mais les bots malveillants l’ignorent.
💡 Astuce bonus :
Si vous voulez autoriser tous les bots sauf ceux utilisés pour l’entraînement IA, vous pouvez bloquer uniquement GPTBot
et Google-Extended
, tout en laissant les autres passer.
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Allow: /
Tutoriel : Comment whitelister les bots IA sur un serveur dédié
Tutoriel : Comment whitelister les bots IA sur un serveur dédié
Si vous gérez un serveur dédié ou un VPS (ou si vous avez un administrateur système à disposition), vous avez la possibilité de mettre en place des règles de filtrage avancées pour autoriser explicitement les bots d’intelligence artificielle comme GPTBot, PerplexityBot, etc.
Cela se fait au niveau du serveur web (Nginx ou Apache), du pare-feu (UFW, iptables) ou même d’un proxy comme Cloudflare.
Étapes générales pour toutes les configurations
Étape 1 : Identifier les bots à autoriser
Commencez par déterminer quels bots vous voulez whitelister. Les plus fréquents :
GPTBot
,OAI-SearchBot
,ChatGPT-User
→ https://openai.com/gptbot.jsonPerplexityBot
→ https://www.perplexity.com/perplexitybot.jsonGooglebot
etGoogle-Extended
bingbot
💡 Les liens ci-dessus contiennent les plages IP officielles à autoriser.
Cas 1 : Serveur Nginx
Étape 2 : Ajouter une règle de whitelist dans votre config Nginx
Dans votre bloc server
ou location
, ajoutez par exemple :
Whitelist pour les bots IA spécifiques
if ($http_user_agent ~* « GPTBot|PerplexityBot|ChatGPT ») {
allow 20.15.240.0/20; # IP GPTBot
allow 40.83.2.64/26; # IP GPTBot
allow 34.117.0.0/16; # Exemple IP PerplexityBot
deny all;
}
Étape 3 : Redémarrer le service
sudo systemctl reload nginx
Étape 4 : Vérifier les logs
Surveillez les accès :
tail -f /var/log/nginx/access.log | grep GPTBot
Cas 2 : Serveur Apache (.htaccess)
Dans votre fichier .htaccess
, vous pouvez ajouter :
SetEnvIfNoCase User-Agent « GPTBot » allow_bot
SetEnvIfNoCase User-Agent « PerplexityBot » allow_bot
Require env allow_bot Require ip 20.15.240.0/20 Require ip 40.83.2.64/26 Require ip 34.117.0.0/16
Cette configuration peut varier selon la version d’Apache (2.4 minimum recommandé).
Cas 3 : Via Cloudflare
- Accédez à votre zone DNS Cloudflare
- Allez dans Pare-feu > Règles de filtrage (WAF)
- Créez une règle personnalisée :
- Si User-Agent contient
GPTBot
,PerplexityBot
- Et IP source appartient à la plage autorisée
- Alors Autoriser
- Si User-Agent contient
- Mettez la règle en priorité au-dessus des blocages globaux
Cas 4 : UFW (pare-feu Ubuntu/Debian)
Pour autoriser les IP des bots IA :
sudo ufw allow from 20.15.240.0/20 comment ‘GPTBot OpenAI’
sudo ufw allow from 40.83.2.64/26 comment ‘GPTBot OpenAI’
sudo ufw allow from 34.117.0.0/16 comment ‘PerplexityBot’
Vérifiez
sudo ufw status
Bonus : journaliser et limiter
Pour éviter les abus ou surveiller les accès des bots IA :
- Créez des logs personnalisés par user-agent dans Nginx
- Ajoutez un système de ratelimit par IP ou UA
- Activez un mode lecture seule sur certaines sections du site si besoin
Exemple de message à transmettre à votre administrateur système :
Bonjour, je souhaite autoriser les bots d’intelligence artificielle comme GPTBot, PerplexityBot et OAI-SearchBot à accéder à notre site. Peux-tu vérifier qu’ils ne sont pas bloqués (403) dans les logs, et si besoin whitelister leurs IPs officielles listées ici :
- https://openai.com/gptbot.json
- https://www.perplexity.com/perplexitybot.json
Ils utilisent les user-agents suivants : GPTBot, PerplexityBot, ChatGPT-User.