Comment empêcher les chatbots IA d’extraire le contenu de votre site

Vous êtes inquiet à l’idée que des chatbots basés sur l’intelligence artificielle puissent aspirer le contenu de votre site Web ? Heureusement, il existe des moyens de les en empêcher. Voici comment procéder.

Comment les chatbots IA accèdent-ils au contenu de votre site ?

Les chatbots alimentés par intelligence artificielle sont formés à l’aide de multiples jeux de données, dont certains sont en libre accès et disponibles au grand public. Selon un article de recherche publié par OpenAI, GPT-3 a été formé à partir de cinq jeux de données distincts :

  • Common Crawl (contribution de 60% à l’entraînement)
  • WebText2 (contribution de 22% à l’entraînement)
  • Books1 (contribution de 8% à l’entraînement)
  • Books2 (contribution de 8% à l’entraînement)
  • Wikipédia (contribution de 3% à l’entraînement)

Common Crawl englobe des pétaoctets de données issues de sites Web collectées depuis 2008, un peu à la manière dont l’algorithme de recherche de Google scrute les contenus en ligne. WebText2 est un jeu de données créé par OpenAI, qui contient environ 45 millions de pages Web liées depuis des publications Reddit ayant reçu au moins trois votes positifs.

Il est donc important de noter que, dans le cas de ChatGPT, le chatbot n’accède ni n’explore directement les pages de votre site Web — du moins, pas pour l’instant. Néanmoins, l’annonce récente d’un navigateur Web hébergé par ChatGPT a suscité des inquiétudes sur une éventuelle évolution de cette situation.

À l’heure actuelle, les propriétaires de sites Web devraient surveiller d’autres chatbots IA qui entrent sur le marché. Bard est un autre acteur majeur dans ce domaine, mais on en sait peu sur les jeux de données utilisés pour son entraînement. Bien sûr, nous savons que les robots d’exploration de Google parcourent constamment les pages Web, mais cela ne signifie pas nécessairement que Bard a accès aux mêmes données.

Pourquoi certains propriétaires de sites Web sont-ils inquiets ?

La principale inquiétude des propriétaires de sites Web est la dévalorisation de leur contenu par des bots IA tels que ChatGPT, Bard et Bing Chat. Ces bots IA utilisent le contenu existant pour générer des réponses, réduisant ainsi le besoin pour les utilisateurs d’accéder à la source originale. Au lieu de visiter des sites Web pour obtenir des informations, les utilisateurs peuvent simplement demander à Google ou à Bing de générer un résumé des informations dont ils ont besoin.

Dans le contexte des chatbots IA intégrés aux moteurs de recherche, la perte de trafic est la préoccupation majeure des propriétaires de sites Web. Par exemple, Bard, le chatbot IA, inclut rarement des citations dans ses réponses génératives, ce qui indique aux utilisateurs de quelles pages il tire ses informations.

Ainsi, en plus de remplacer les visites sur les sites Web par des réponses générées par IA, Bard supprime presque toute possibilité pour le site source de recevoir du trafic — même si l’utilisateur souhaite obtenir des informations supplémentaires. À l’opposé, Bing Chat lie plus fréquemment aux sources d’information.

En résumé, la génération actuelle d’outils IA génératifs utilise le travail des créateurs de contenu pour systématiquement supplanter le besoin de ces créateurs. Cela soulève la question de l’incitatif pour les propriétaires de sites Web à continuer à publier du contenu. Et, par extension, que se passera-t-il pour les chatbots IA si les sites Web cessent de publier le contenu dont ils dépendent pour fonctionner ?

Comment empêcher les chatbots IA d’accéder à votre site Web

Si vous souhaitez empêcher les chatbots IA d’utiliser le contenu de votre site Web, vous pouvez les bloquer en utilisant le fichier robots.txt de votre site. Malheureusement, vous devrez bloquer chaque bot individuellement et les identifier par leur nom.

Common Crawl

Par exemple, le robot de Common Crawl est nommé CCBot, et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

User-agent: CCBot 
Disallow: /Code language: HTTP (http)

Cela empêchera Common Crawl de scruter votre site Web à l’avenir, mais ne supprimera pas les données déjà collectées lors des explorations précédentes.

ChatGPT

Si vous êtes préoccupé par le fait que les nouveaux plugins de ChatGPT accèdent à votre contenu Web, OpenAI a déjà publié des instructions pour bloquer son bot. Dans ce cas, les bots de ChatGPT sont GPTBot et ChatGPT-User, et vous pouvez les bloquer en ajoutant le code suivant à votre fichier robots.txt :

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /Code language: HTTP (http)

Google Bard

Bloquer les bots IA des moteurs de recherche est un autre problème en soi. Comme Google est très discret sur les données d’entraînement qu’il utilise mais il est possible de bloquer le robot de Google Bard:

User-agent: Google-Extended
Disallow: /Code language: HTTP (http)

Autres robots à bloquer: Omgili et FacebookBot

Il existe d’autres robots qui servent à nourrir les bases de connaissances des intelligences artificielles (Omgili et FacebookBot) donc il peut être souhaitable de les bloquer également:

User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent:FacebookBot
Disallow: /

Quelle est l’efficacité de cette méthode ?

Utiliser le fichier robots.txt pour bloquer les chatbots IA est la méthode la plus efficace actuellement disponible, mais elle présente des limites.

Le premier problème est que vous devez spécifier chaque bot que vous souhaitez bloquer. Le deuxième problème est que les commandes dans votre fichier robots.txt sont des instructions facultatives. Bien que des bots comme Common Crawl et ChatGPT respectent ces commandes, de nombreux autres bots ne le font pas.

Un autre problème majeur est que cette méthode ne vous permet de bloquer les bots IA que pour de futures explorations. Vous ne pouvez pas supprimer les données déjà collectées ou demander à des entreprises comme OpenAI d’effacer toutes vos données.

Devriez-vous empêcher les outils IA d’accéder à votre site Web ?

Il n’existe malheureusement aucun moyen simple de bloquer tous les bots IA. Même si vous parvenez à suivre les derniers bots IA, il n’est pas garanti qu’ils respecteront les commandes de votre fichier robots.txt.

La question fondamentale est donc de savoir si les efforts en valent la peine, et la réponse est probablement non.

Il y a aussi des inconvénients à bloquer les bots IA. Vous ne pourrez pas, par exemple, collecter des données significatives pour évaluer si des outils comme Bard sont bénéfiques ou nuisibles à votre stratégie de marketing en ligne.

Vous voulez un site WordPress ou WooCommerce qui soit à la fois rapide et performant? Vous êtes au bon endroit.

Découvrez comment je peux booster votre site »

Articles conseillés :

Opinions