Cloudflare révolutionne le contrôle des bots IA
La guerre du scraping est déclarée, l'entreprise arme les sites web contre les bots IA voraces.
Dans le secteur numérique où les données sont le nouveau pétrole, Cloudflare, géant de l'infrastructure Internet, vient de lancer une suite d'outils qui pourrait bien rebattre les cartes du jeu entre les entreprises d'IA et les sites web. Cette initiative promet de donner à tous ses clients, y compris les 33 millions utilisant ses services gratuits, la capacité de surveiller et de bloquer sélectivement les bots d'IA qui extraient des données de leurs sites.
Une réponse au scraping sauvage
Au cœur de cette innovation se trouve un ensemble d'outils gratuits d'audit d'IA baptisé "Bot Management". La première fonctionnalité permet une surveillance en temps réel des bots. Les clients auront accès à un tableau de bord montrant quels robots visitent leurs sites web et en extraient des données, y compris ceux qui tentent de camoufler leur comportement. Matthew Prince, cofondateur et PDG de Cloudflare, explique:
"Nous avons étiqueté tous les robots d'IA, même s'ils essaient de cacher leur identité."
Cette déclaration souligne la détermination de l'entreprise à offrir une transparence totale sur les activités de ces derniers. Cloudflare a également déployé un service de blocage de bots amélioré. Cette nouvelle version offre aux clients la possibilité de bloquer tous les agents d'IA connus ou de sélectionner ceux qu'ils souhaitent autoriser ou interdire. C'est un outil de précision plutôt qu'une approche radicale, particulièrement utile à mesure que les éditeurs et les plateformes concluent des accords avec les entreprises du secteur pour autoriser certains bots.
"Nous voulons faciliter le contrôle de l'utilisation du contenu par les bots d'IA pour tous, quel que soit leur budget ou leur niveau de sophistication technique", ajoute le PDG.
L’entreprise les classe selon leurs fonctions, distinguant ainsi les agents d'IA utilisés pour extraire des données d'entraînement de ceux qui en collectent pour de nouveaux produits de recherche, comme SearchGPT d'OpenAI.
Au-delà du fichier robots.txt
Traditionnellement, les sites web tentaient de contrôler le comportement des bots en mettant à jour un fichier texte appelé Protocole d'exclusion des robots, ou robots.txt. Bien qu'il ne soit pas illégal de l’ignorer, il était généralement considéré comme faisant partie du code social du web avant l'ère de l'IA. Avec l'afflux d'agents d'IA, nombre d’entre eux ont tenté de limiter le crawling indésirable en le modifiant. Des services comme Dark Visitors offrent des outils pour aider les propriétaires de sites à gérer le nombre croissant de crawlers, mais ils sont limités par une faille majeure, certaines entreprises peu scrupuleuses ignorent simplement les commandes du robots.txt. Matthew Prince souligne que le blocage des bots par Cloudflare ne sera pas une commande que ce type d'acteur malveillant pourra ignorer:
"Robots.txt, c'est comme mettre un panneau 'interdiction de passer'. Notre solution, c'est comme avoir un mur physique patrouillé par des gardes armés."
L'entreprise a d’ailleurs créé des processus pour repérer les crawlers d'IA les plus soigneusement dissimulés.
Un marché pour négocier l'utilisation des données
Cloudflare annonce également la création prochaine d'une place de marché permettant aux clients de négocier les conditions d'utilisation du scraping avec les entreprises d'IA. Cela pourrait impliquer un paiement pour l'utilisation du contenu ou un échange de crédits.
"Nous pensons qu'il doit y avoir un moyen de restituer de la valeur aux créateurs de contenu original", déclare Prince. "La compensation ne doit pas nécessairement être en dollars. Elle peut prendre la forme de crédits, de reconnaissance ou de nombreuses autres choses."
Quant aux réactions des entreprises d'IA face à cette initiative, Prince révèle ceci:
"Nous avons parlé à la plupart d'entre elles, et leurs réactions vont de 'cela a du sens et nous sommes ouverts' à 'allez au diable'."
Cette diversité d'opinions souligne les enjeux importants et les intérêts divergents en jeu.
Un projet né d'un besoin urgent
L'idée de ce projet est venue au PDG de Cloudflare suite à une conversation avec Nick Thompson, PDG de The Atlantic, qui avait évoqué les difficultés rencontrées par de nombreux éditeurs face aux web scrapers clandestins. Matthew Prince a réalisé que si même les grands médias avaient du mal à gérer leur afflux, les blogueurs indépendants et les propriétaires de petits sites web seraient encore plus démunis. Cloudflare, depuis des années, fournit une grande partie de l'infrastructure soutenant le web. Historiquement, l’entreprise est restée aussi neutre que possible quant au contenu des sites qu'elle dessert. Dans ce cas précis, Prince estime qu’elle est particulièrement bien placée pour prendre position.
"La voie dans laquelle nous sommes engagés n'est pas durable", déclare-t-il. "Nous espérons pouvoir contribuer à garantir que les humains soient rémunérés pour leur travail."
En conclusion, cette initiative pourrait marquer un tournant dans la relation entre les créateurs de contenu web et les entreprises d'IA. En offrant des outils de contrôle et de négociation, Cloudflare espère contribuer à l'émergence d'un écosystème plus équilibré et durable, où la valeur du contenu original est reconnue et récompensée. L'avenir nous dira si cette approche parviendra à redéfinir les règles du jeu.
C'est très bien ce que fait Cloudflare, même si il me semble que c'est la législation qui devrait imposer des règles et des protections appliquées pour tous. Si un seul acteur privé développé des solutions de protection, nul doute qu'à terme, ces protections devriendront payantes, et donc pas forcément accessible à tous.