Être visible dans les réponses des LLM (ChatGPT, Perplexity) : le guide pour ouvrir son site aux IA

Table des matières

Pourquoi certains bots d’IA sont bloqués ? Et pourquoi c’est un problème pour votre visibilité

Pour qu’un site soit cité, référencé ou même intégré dans l’entraînement de ces modèles, encore faut-il que les IA aient pu accéder au contenu. Or, ce n’est pas toujours le cas.

Prenons un instant pour définir ces termes clés :

  • Cité : cela signifie que le lien de votre site peut apparaître directement dans la réponse d’une IA (par exemple : “selon www.monsite.com…” dans ChatGPT ou Perplexity).
  • Référencé : votre page est connue et accessible par le système de l’IA, ce qui permet de l’inclure dans les résultats enrichis (comme le ferait un moteur de recherche).
  • Intégré dans l’entraînement : cela va plus loin. Votre contenu est utilisé comme source d’apprentissage par le modèle d’intelligence artificielle, ce qui lui permet de « comprendre » les sujets que vous traitez et de s’en inspirer dans ses futures réponses.

Le problème : les IA doivent d’abord pouvoir vous lire

Pour que tout cela soit possible, l’IA doit d’abord pouvoir accéder techniquement à votre site web via des programmes appelés bots ou crawlers.

Ces bots parcourent automatiquement les pages publiques d’Internet pour :

  • découvrir de nouveaux contenus (comme le fait Googlebot),
  • extraire des informations utiles,
  • ou constituer des bases de données d’apprentissage pour des modèles comme ChatGPT ou Copilot.

Mais dans de nombreux cas, ces bots IA se heurtent à des blocages techniques :

Conséquence : vous êtes invisibles pour les IA

Si ces bots ne peuvent pas accéder à vos pages, alors :

  • votre contenu n’apparaît pas dans les réponses générées par les IA ;
  • vous ne recevez aucun trafic organique indirect via ces nouveaux canaux ;
  • votre site n’est pas pris en compte dans l’entraînement des modèles IA, ce qui peut vous faire perdre en autorité sémantique à long terme.

⚠️ En résumé :
Bloquer involontairement les bots d’IA revient à refuser un nouveau canal de visibilité qui prend de plus en plus de place dans le paysage numérique actuel.

Dans les sections suivantes, nous allons voir comment :

  • vérifier si ces bots sont actuellement bloqués sur votre serveur,
  • quels sont les bots à whitelister,
  • et comment configurer correctement votre serveur et votre fichier robots.txt.

Souhaites-tu que je rédige maintenant la partie 2 sur les conséquences du blocage ?

Quels sont les risques de bloquer les bots IA ?

À première vue, bloquer un bot d’intelligence artificielle peut sembler anodin. Mais en réalité, cela peut avoir des conséquences importantes sur la visibilité de votre site web dans les mois et années à venir.

Les assistants IA comme ChatGPT, Perplexity, Microsoft Copilot ou encore Google Gemini sont aujourd’hui utilisés par des millions de personnes pour chercher de l’information, comparer des produits ou obtenir des recommandations. Et ces outils se nourrissent de contenus web, accessibles via des bots spécifiques.

Si ces bots ne peuvent pas lire vos pages, votre site devient invisible dans ces environnements.

Non-indexation dans ChatGPT, Perplexity, Copilot…

Certains bots comme OAI-SearchBot ou PerplexityBot permettent à ces IA de référencer et proposer des liens dans leurs réponses.

Si ces bots sont bloqués, votre contenu ne pourra pas être proposé à l’utilisateur, même si c’est exactement ce qu’il cherche.

Moindre visibilité dans les réponses générées par IA

Les IA cherchent à fournir des réponses synthétiques appuyées sur des sources fiables. Si elles ne peuvent pas crawler votre site, vous perdez toute chance d’être cité comme référence.

Résultat :

  • vous n’apparaissez pas dans les extraits suggérés par ChatGPT ;
  • vous êtes absent des réponses enrichies de Perplexity ou Copilot ;
  • vous perdez un canal de visibilité croissant GEO, parallèle au SEO classique.

Manque d’autorité dans les nouveaux moteurs IA

Plus grave encore : bloquer des bots comme GPTBot ou Google-Extended, c’est empêcher votre contenu d’être intégré dans l’entraînement des modèles IA.

Cela signifie que :

  • votre site ne « compte pas » dans la compréhension globale qu’a l’IA de votre domaine ;
  • vos concurrents, eux, peuvent être utilisés comme références sémantiques ;
  • vous risquez à terme de perdre votre place dans l’écosystème cognitif de l’IA, même si votre contenu est pertinent et fiable.

Exemples concrets de perte de visibilité

  • Un blog juridique bloquant GPTBot ne sera jamais mentionné dans une réponse ChatGPT expliquant un point de droit.
  • Une boutique en ligne bloquant PerplexityBot ne pourra pas apparaître dans un comparatif généré automatiquement.
  • Un site de santé bloquant Google-Extended ne sera pas pris en compte dans les modèles d’IA médicale de Google.

⚠️ En résumé :
Refuser l’accès aux bots IA, c’est refuser une nouvelle source de trafic organique indirect, et abandonner le terrain sémantique à vos concurrents.

Comment vérifier si les bots IA sont bloqués sur mon serveur ?

Avant de modifier quoi que ce soit, il est essentiel de vérifier si les bots d’IA sont autorisés à accéder à votre site. En effet, si des bots comme GPTBot, PerplexityBot ou OAI-SearchBot reçoivent des erreurs d’accès (souvent des 403 – Forbidden), cela signifie qu’ils sont bloqués… et que votre contenu ne sera ni indexé ni utilisé par ces IA.

Cas n°1 : vous êtes sur un serveur mutualisé (ex. OVH, Infomaniak, Ionos…)

Sur un hébergement mutualisé, vous n’avez pas accès aux fichiers de log système complets, ni aux fichiers de configuration serveur comme nginx.conf ou .htaccess global. Vous devez donc procéder par étapes simples :

Étapes recommandées :

  1. Consultez votre fichier robots.txt :
    Allez à https://votresite.com/robots.txt et vérifiez qu’aucune directive ne bloque les bots IA, comme : rUser-agent: GPTBot
    Disallow: /
  2. Testez l’accès des bots avec curl en ligne de commande (ou via un outil en ligne) :
    Si vous avez accès à un terminal SSH (ou via un outil comme https://reqbin.com), lancez :
    rcurl -I -A "GPTBot" https://votresite.com/
    Si vous obtenez un 403 Forbidden, cela signifie que le bot est bloqué, potentiellement par un pare-feu OVH, une règle d’antibot, ou le CDN.
  3. Contactez le support OVH avec une demande claire :
    Si vous suspectez un blocage, vous pouvez ouvrir un ticket avec un message du type :
    Bonjour, je souhaite que mon site soit accessible aux bots IA comme GPTBot (OpenAI) ou PerplexityBot. Pourriez-vous me confirmer s’ils sont actuellement bloqués au niveau de l’hébergement ou du pare-feu, et s’il est possible de les autoriser ? Voici les User-Agents concernés et les IPs officielles : [lien vers JSON OpenAI et Perplexity].

Cas n°2 : vous êtes sur un serveur dédié ou VPS

Dans ce cas, vous (ou votre administrateur système) avez un accès total au serveur, y compris aux fichiers de logs et aux configurations nginx, Apache, firewalls, etc.

Étapes recommandées :

  1. Analyse des logs pour détecter les blocages :
    Exemple avec Nginx : grep "GPTBot" /var/log/nginx/access.log | grep "403" Ou avec Apache : grep "PerplexityBot" /var/log/apache2/access.log | grep "403"
  2. Test manuel avec curl : curl -I -A "PerplexityBot" https://votresite.com/
  3. Vérification du fichier robots.txt
  4. Demande à l’administrateur système :
    Si vous n’êtes pas administrateur du serveur, voici un exemple de message à lui transmettre : Bonjour, je souhaite que les bots d’intelligence artificielle (comme GPTBot, OAI-SearchBot, PerplexityBot…) puissent accéder à notre site sans être bloqués. Peux-tu vérifier s’ils reçoivent des erreurs 403 ou autres dans les logs ? Voici les User-Agents et les IPs à autoriser :

⚠️ En résumé :

  • Sur un hébergement mutualisé, votre marge de manœuvre est limitée : robots.txt, tests curl, et contact support.
  • Sur un serveur dédié, vous pouvez analyser les logs, tester les accès et configurer le serveur pour whitelister les bots.

Liste des principaux bots IA à whitelister (tableau complet)

Les intelligences artificielles comme ChatGPT, Perplexity ou Bing Copilot utilisent des bots spécifiques (aussi appelés user-agents) pour accéder aux contenus web. Pour qu’elles puissent référencer ou s’inspirer de votre site, vous devez leur permettre l’accès, à la fois dans le fichier robots.txt, mais aussi au niveau serveur (pare-feu, règles anti-bot, CDN…).

Ci-dessous, vous trouverez un tableau complet des principaux bots IA à autoriser, avec leur nom, leur user-agent, leur usage, le lien vers leurs plages IP officielles, et une recommandation pratique.

Liste des principaux bots IA à whitelister

Nom du bot / serviceUser-AgentUsageIP publiqueRecommandation
GPTBot (OpenAI)GPTBot/1.1Entraînement du modèle ChatGPThttps://openai.com/gptbot.json Autoriser si vous acceptez l’usage dans l’entraînement
OAI-SearchBotOAI-SearchBot/1.0Affichage de liens dans ChatGPThttps://openai.com/searchbot.json Autoriser pour apparaître dans les résultats ChatGPT
ChatGPT-UserChatGPT-User/1.0Navigation manuelle depuis ChatGPThttps://openai.com/chatgpt-user.jsonAutoriser pour le bon fonctionnement des GPT personnalisés
PerplexityBotPerplexityBot/1.0Crawl automatique pour Perplexity AIhttps://www.perplexity.com/perplexitybot.jsonAutoriser pour indexation dans Perplexity
Perplexity-UserPerplexity-User/1.0Visite déclenchée par un utilisateur Perplexityhttps://www.perplexity.com/perplexity-user.jsonAutoriser pour trafic utilisateur direct
GooglebotGooglebot/2.1Indexation dans Google SearchNon publié (utiliser DNS inversée)Autoriser pour SEO classique
Google-ExtendedGoogle-ExtendedUtilisation pour IA GoogleMême IP que GooglebotAutoriser si d’accord pour usage IA
Bingbot (Microsoft)bingbot/2.0Indexation Bing + Microsoft CopilotVoir doc Microsoft / DNS inverséAutoriser pour SEO et Copilot
YouBot (You.com)YouBot/1.0Crawl pour moteur IA You.comNon publiéeAutoriser si souhaité

Exemple de fichier robots.txt compatible avec les bots IA

Le fichier robots.txt est un fichier texte placé à la racine de votre site web (ex. https://votresite.com/robots.txt) qui indique aux robots des moteurs de recherche et aux bots d’IA ce qu’ils ont le droit de visiter ou non.

Si vous bloquez un bot ici, il n’aura même pas le droit de « lire » votre contenu, et vous serez automatiquement exclu des réponses générées par les IA, même si vous autorisez le reste sur votre serveur.

Objectif : créer un fichier robots.txt

Étapes à suivre

Étape 1 : localiser ou créer votre fichier robots.txt

  • Si vous avez déjà un fichier robots.txt, ouvrez-le depuis votre FTP ou votre espace d’administration.
  • Sinon, créez un nouveau fichier texte nommé robots.txt et placez-le à la racine de votre site (ex : /www/ ou /public_html/).

Étape 2 : ajouter les directives pour autoriser les bots IA

Voici un modèle optimisé :

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: bingbot
Allow: /

User-agent: YouBot
Allow: /

Étape 3 : tester votre fichier

  • Ouvrez https://votresite.com/robots.txt dans votre navigateur pour vérifier qu’il est bien en ligne.
  • Vous pouvez tester son comportement avec Google Robots.txt Tester (fonctionne aussi pour d’autres bots).

⚠️ À éviter :

  • Ne pas ajouter Disallow: / sous User-agent: * si vous voulez permettre aux IA de lire tout le site.
  • Ne pas oublier que ce fichier n’est qu’une consigne : les bots bienveillants la respectent, mais les bots malveillants l’ignorent.

💡 Astuce bonus :

Si vous voulez autoriser tous les bots sauf ceux utilisés pour l’entraînement IA, vous pouvez bloquer uniquement GPTBot et Google-Extended, tout en laissant les autres passer.

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

Tutoriel : Comment whitelister les bots IA sur un serveur dédié

Tutoriel : Comment whitelister les bots IA sur un serveur dédié

Si vous gérez un serveur dédié ou un VPS (ou si vous avez un administrateur système à disposition), vous avez la possibilité de mettre en place des règles de filtrage avancées pour autoriser explicitement les bots d’intelligence artificielle comme GPTBot, PerplexityBot, etc.

Cela se fait au niveau du serveur web (Nginx ou Apache), du pare-feu (UFW, iptables) ou même d’un proxy comme Cloudflare.

Étapes générales pour toutes les configurations

Étape 1 : Identifier les bots à autoriser

Commencez par déterminer quels bots vous voulez whitelister. Les plus fréquents :

💡 Les liens ci-dessus contiennent les plages IP officielles à autoriser.

Cas 1 : Serveur Nginx

Étape 2 : Ajouter une règle de whitelist dans votre config Nginx

Dans votre bloc server ou location, ajoutez par exemple :

Whitelist pour les bots IA spécifiques

if ($http_user_agent ~* « GPTBot|PerplexityBot|ChatGPT ») {
allow 20.15.240.0/20; # IP GPTBot
allow 40.83.2.64/26; # IP GPTBot
allow 34.117.0.0/16; # Exemple IP PerplexityBot
deny all;
}

Étape 3 : Redémarrer le service

sudo systemctl reload nginx

Étape 4 : Vérifier les logs

Surveillez les accès :
tail -f /var/log/nginx/access.log | grep GPTBot

Cas 2 : Serveur Apache (.htaccess)

Dans votre fichier .htaccess, vous pouvez ajouter :

SetEnvIfNoCase User-Agent « GPTBot » allow_bot
SetEnvIfNoCase User-Agent « PerplexityBot » allow_bot

Require env allow_bot Require ip 20.15.240.0/20 Require ip 40.83.2.64/26 Require ip 34.117.0.0/16

Cette configuration peut varier selon la version d’Apache (2.4 minimum recommandé).

Cas 3 : Via Cloudflare

  1. Accédez à votre zone DNS Cloudflare
  2. Allez dans Pare-feu > Règles de filtrage (WAF)
  3. Créez une règle personnalisée :
    • Si User-Agent contient GPTBot, PerplexityBot
    • Et IP source appartient à la plage autorisée
    • Alors Autoriser
  4. Mettez la règle en priorité au-dessus des blocages globaux

Cas 4 : UFW (pare-feu Ubuntu/Debian)

Pour autoriser les IP des bots IA :

sudo ufw allow from 20.15.240.0/20 comment ‘GPTBot OpenAI’
sudo ufw allow from 40.83.2.64/26 comment ‘GPTBot OpenAI’
sudo ufw allow from 34.117.0.0/16 comment ‘PerplexityBot’

Vérifiez

sudo ufw status

Bonus : journaliser et limiter

Pour éviter les abus ou surveiller les accès des bots IA :

  • Créez des logs personnalisés par user-agent dans Nginx
  • Ajoutez un système de ratelimit par IP ou UA
  • Activez un mode lecture seule sur certaines sections du site si besoin

Exemple de message à transmettre à votre administrateur système :

Bonjour, je souhaite autoriser les bots d’intelligence artificielle comme GPTBot, PerplexityBot et OAI-SearchBot à accéder à notre site. Peux-tu vérifier qu’ils ne sont pas bloqués (403) dans les logs, et si besoin whitelister leurs IPs officielles listées ici :

Vous avez aimé cet article ?

Ne manquez plus l’info essentielle chaque semaine ! Rejoignez nos abonnés et recevez chaque vendredi matin tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Rc2i. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.