A robotic hand is typing on a laptop keyboard to extract content.

Comment empêcher les chatbots IA d’extraire le contenu de votre site

Vous êtes inquiet à l’idée que des chatbots basés sur l’intelligence artificielle puissent aspirer le contenu de votre site Web ? Heureusement, il existe des moyens de les en empêcher. Voici comment procéder.

Comment les chatbots IA accèdent-ils au contenu de votre site ?

Les chatbots alimentés par intelligence artificielle sont formés à l’aide de multiples jeux de données, dont certains sont en libre accès et disponibles au grand public. Selon un article de recherche publié par OpenAI, GPT-3 a été formé à partir de cinq jeux de données distincts :

  • Common Crawl (contribution de 60% à l’entraînement)
  • WebText2 (contribution de 22% à l’entraînement)
  • Books1 (contribution de 8% à l’entraînement)
  • Books2 (contribution de 8% à l’entraînement)
  • Wikipédia (contribution de 3% à l’entraînement)

Common Crawl englobe des pétaoctets de données issues de sites Web collectées depuis 2008, un peu à la manière dont l’algorithme de recherche de Google scrute les contenus en ligne. WebText2 est un jeu de données créé par OpenAI, qui contient environ 45 millions de pages Web liées depuis des publications Reddit ayant reçu au moins trois votes positifs.

Il est donc important de noter que, dans le cas de ChatGPT, le chatbot n’accède ni n’explore directement les pages de votre site Web — du moins, pas pour l’instant. Néanmoins, l’annonce récente d’un navigateur Web hébergé par ChatGPT a suscité des inquiétudes sur une éventuelle évolution de cette situation.

À l’heure actuelle, les propriétaires de sites Web devraient surveiller d’autres chatbots IA qui entrent sur le marché. Bard est un autre acteur majeur dans ce domaine, mais on en sait peu sur les jeux de données utilisés pour son entraînement. Bien sûr, nous savons que les robots d’exploration de Google parcourent constamment les pages Web, mais cela ne signifie pas nécessairement que Bard a accès aux mêmes données.

Pourquoi certains propriétaires de sites Web sont-ils inquiets ?

La principale inquiétude des propriétaires de sites Web est la dévalorisation de leur contenu par des bots IA tels que ChatGPT, Bard et Bing Chat. Ces bots IA utilisent le contenu existant pour générer des réponses, réduisant ainsi le besoin pour les utilisateurs d’accéder à la source originale. Au lieu de visiter des sites Web pour obtenir des informations, les utilisateurs peuvent simplement demander à Google ou à Bing de générer un résumé des informations dont ils ont besoin.

Dans le contexte des chatbots IA intégrés aux moteurs de recherche, la perte de trafic est la préoccupation majeure des propriétaires de sites Web. Par exemple, Bard, le chatbot IA, inclut rarement des citations dans ses réponses génératives, ce qui indique aux utilisateurs de quelles pages il tire ses informations.

Ainsi, en plus de remplacer les visites sur les sites Web par des réponses générées par IA, Bard supprime presque toute possibilité pour le site source de recevoir du trafic — même si l’utilisateur souhaite obtenir des informations supplémentaires. À l’opposé, Bing Chat lie plus fréquemment aux sources d’information.

En résumé, la génération actuelle d’outils IA génératifs utilise le travail des créateurs de contenu pour systématiquement supplanter le besoin de ces créateurs. Cela soulève la question de l’incitatif pour les propriétaires de sites Web à continuer à publier du contenu. Et, par extension, que se passera-t-il pour les chatbots IA si les sites Web cessent de publier le contenu dont ils dépendent pour fonctionner ?

Lire la suite

Westworld saison 2 : The Door photo

Westworld saison 2 : The Door

La seconde saison du western de science fiction Westworld, intitulé The Door, a commencé sur HBO.

Dans les heures qui suivent le massacre des membres du conseil d’administration de Delos, Bernard et Charlotte se réfugient dans un bunker souterrain, où ils ont décidé de travailler ensemble pour trouver Peter Abernathy et obtenir de l’aide.

Dix jours après la mort de Ford, Dolores (qui a entrepris une campagne sanglante pour traquer les survivants) dit à Teddy que sa programmation a fait fusionner ses personnages et qu’elle a de meilleurs plans pour les hôtes.

Maeve recrute Hector et force Lee à l’aider à retrouver sa fille. William, qui a également survécu au massacre, rencontre le jeune animateur de Robert Ford, qui révèle qu’un jeu spécialement conçu pour lui a commencé.

Deux semaines après la mort de Ford, une équipe de sécurité envoyée par Delos pour reprendre le contrôle de Westworld trouve Bernard et sollicite son aide pour enquêter sur une série d’anomalies. L’enquête les mène à un lagon rempli de centaines d’hôtes morts que Bernard prétend avoir tué.

Lire la suite

Westworld saison 1 photo

Westworld saison 1

Westworld est une série de science-fiction créée par Jonathan Nolan et Lisa Joy, produite par J. J. Abrams et Bryan Burk, et diffusée sur HBO. C’est l’adaptation télévisée du film Mondwest (Westworld) écrit et réalisé par Michael Crichton en 1973.

Westworld est un parc d’attractions futuriste recréant l’univers de l’Ouest américain (le Far West) du XIXe siècle.

Il est peuplé d’androïdes, appelés « hôtes » (hosts), réinitialisés à la fin de chaque boucle narrative. Les visiteurs, appelés « arrivants » (newcomers), peuvent y faire ce qu’ils veulent sans aucune conséquence. Mais à la suite d’une mise à jour du programme des androïdes, les dirigeants du parc devront faire face à plusieurs bugs dans leur comportement.

Au casting, nous avons Anthony Hopkins, Ed Harris, Evan Rachel Wood, Thandie Newton… pas mal du tout.

Le générique d’ouverture est conçu par le studio Elastic, déjà à l’origine de celui de Game of Thrones.

En novembre 2016, au vu des très bonnes audiences et des excellentes critiques, HBO commande officiellement une seconde saison de dix épisodes.

Cependant, la diffusion ne devrait être programmée que courant 2018 à cause de la taille du projet et du fait que les scénaristes veulent avoir fini d’écrire tous les épisodes avant de commencer à tourner.

Lire la suite

real-humans

Real Humans saison 1

Real Humans est une série suédoise qui a été diffusée il y a quelques semaines sur ARTE.

De son vrai nom Äkta Människor (“les véritables humains”), elle se situe dans une Suède contemporaine alternative où l’usage des androïdes devient de plus en plus prépondérant. Ces robots humanoïdes (appelés hubots pour “human robots”) ont investi nos ménages pour nous aider dans les tâches domestiques et industrielles.

real-humans

Les hubots ont un port USB sur leur corps, de sorte qu’ils peuvent être programmés. Ils sont utilisés comme domestiques, ouvriers, compagnons et même comme partenaires sexuels. Mais des logiciels de plus en plus sophistiqués leur ont aussi permis d’avoir des sentiments.

Tandis que certaines personnes adoptent cette nouvelle technologie, d’autres ont peur et redoutent ce qu’il peut arriver quand les humains sont remplacés comme travailleurs, comme compagnons, parents et même amants.

Le mouvement Äkta Människor (les « Vrais Humains ») travaille pour une société sans hubot. Leur logo, une main ensanglantée, est visible sur les voitures et sur les portes des maisons. Les « anti-hubots » utilisent souvent des épithètes comme “poupée”, “pacman” et “cerveau Windows” pour parler des hubots.

De leur côté, les hubots manifestent de plus en plus une volonté d’indépendance. Leur rébellion a déjà commencé : Leo et Niska ont pris la tête d’un groupe d’affranchis, appelé «les enfants de David». Quand Mimi, l’une d’entre eux, est enlevée par des trafiquants, Leo, amoureux d’elle, part à sa recherche.

L’acquisition d’un premier hubot bouleverse la vie de la famille Engman, tandis que le grand-père doit renoncer au sien, défaillant, pour un nouveau modèle dédié à la gériatrie.

Voisin des Engman, Roger, un contremaître, assiste impuissant au remplacement des ouvriers de son atelier par des légions d’humanoïdes, et bientôt, sa femme le quitte pour leur hubot.

Lire la suite

The Raven photo

Ricardo de Montreuil – The Raven

Chris Black possède un pouvoir qui pourrait détruire le régime actuel qui est prêt à tout pour le supprimer.

La chasse est lancée : Chris court pour sauver sa vie dans ce thriller de science-fiction basé dans un Los Angeles futuriste :

Lire la suite

honeypot-it-security

Projet Honey Pot : 1 milliard de spams traités

no-spam

Il y a quelques années, j’ai pris part au projet Honey Pot qui vise à identifier les responsables d’envois massifs de courriers indésirables (autrement dit : du spam) grâce à des pages créées à cet effet.

Dans la même optique, j’avais utilisé wpoison pour créer des adresses email bidons pour corrompre la base email des robots aspirateurs.

Et bien ce projet ambitieux vient de traiter plus d’un milliard de spams depuis son lancement. Cela a donné lieu à une petite étude et voici ce que l’on peut en retirer.

Lire la suite

Éviter le contenu dupliqué en spécifiant l'URL canonique photo

Éviter le contenu dupliqué avec l’URL canonique

Google, Yahoo! et Live Search viennent de se mettre d’accord pour essayer de résoudre les problèmes de contenus dupliqués à l’intérieur d’un site : ils ont opté pour la création d’une balise spéciale qui décrit l’URL canonique d’une page (c’est-à-dire son URL officielle) :

rel="canonical"Code language: JavaScript (javascript)

Le problème : le contenu dupliqué

Ce qui pose problème pour les moteurs de recherche, c’est savoir quelle est la bonne page à indexer lorsqu’un même contenu est disponible à plusieurs adresses différentes.

C’est le problème du contenu dupliqué, ou duplicate content.

duplicate content

C’est mauvais pour le référencement d’un site car pour les moteurs de recherche, une page web ou tout autre document indexable (comme les fichiers PDF, DOC, XLS…) équivaut à une URL.

Cette URL doit être unique pour le robot, pour qui une autre URL correspond à une autre page.

Si ce n’est pas le cas, ces pages dupliquées entrent en concurrence les unes avec les autres dans les résultats de recherche, ce qui n’est pas bon.

Lire la suite

Quelques astuces pour accélérer le chargement de votre site (et faire des économies de bande passante) photo

Quelques astuces pour accélérer le chargement de votre site (et faire des économies de bande passante)

Plus le temps passe et plus votre site consomme de bande passante ? Et oui, c’est le risque à prendre lorsque l’on devient populaire !

Voici donc quelques astuces pour réduire votre consommation de bande passante et, par le biais de quelques optimisations, accélérer la vitesse de votre site pour le confort de vos visiteurs.

L’optimisation fait partie d’un tout : images, code, feuilles de style, requêtes SQL… tout joue sur la navigation et la réactivité du site.

Lire la suite

Tong photo

Tong

Tong est un petit scientifique vietnamien un peu maladroit qui invente fortuitement une machine qui désintègre.

Cette invention sera utilisée pour sauver l’humanité d’une menace planétaire. Malheureusement l’appareil ne vas pas fonctionner comme prévu…

Lire la suite

Anime : Bakuretsu Tenshi

J’ai fini il y a quelques jours de visionner l’anime Bakuretsu Tenshi et il est tout simplement magnifique.

Si vous êtes fan d’anime, d’action et de bonne musique n’hésitez plus et jetez-vous dessus car c’est vraiment l’une des meilleurs séries 2004.

L’histoire se passe dans un Tokyo futuriste où reigne la violence et où la RAPT, une section spéciale armée par les autorités, est chargée de faire régner la loi. Et nous avons 4 jeunes femmes adeptes de gunfights, explosions et combats de cybots pour mettre fin aux gangs.

L’univers du western-punk est magnifiquement rendu, les personnages sont sublimes et l’histoire tient (vraiment) debout, mêlant à la fois humour et action. La série s’adresse à un public adulte, vu la taille des habits vous comprendrez aisément. ^_^

J’en viens à la bande son qui est absolument énorme. Honnêtement après quelques épisodes, vous ne pourrez plus vous en passer : elle est déjà en playlist permanente chez moi. Définivement une série à classer aux côtés de Hokuto No Ken (Ken le Survivant) et Hellsing.

Amazon Prime Video

Installation de wpoison

Aujourd’hui : installation de wpoison, un script perl qui sert à corrompre les bases d’emails des spammeurs en créant à la volée des pages HTML pleines de vraies-fausses adresses. Comme j’ai mis un peu de temps à configurer les droits d’accès du script, je vous fais ici part des principales étapes.

Tout d’abord téléchargez wpoison (click droit > enregistrer sous…) ainsi que le dictionnaire qui servira à générer le texte des pages web et des fausses emails.

Dézippez le dictionnaire. Vous avez maintenant deux fichiers : le dictionnaire et le script Perl. Uploadez-les sur votre site dans le répertoire de votre choix. Dans mon cas, je les ai placés sous /cgi-bin/ parce que c’est là que les spammeurs tapent en premier, selon mes logs.

Etape finale : définir les bons droits pour le répertoire et pour les deux fichiers. Chmodez tout en 755. Tada ! Installation terminée ;-).

Petit exemple live de wpoison.