Ces dernières années, l'intelligence artificielle a suscité un engouement sans précédent, notamment grâce à des technologies comme ChatGPT. Elle a montré qu'elle pouvait accomplir des tâches complexes, mais elle soulève également des questions éthiques et juridiques importantes. Suchir Balaji, ancien chercheur chez OpenAI, est l'un des premiers employés à quitter une grande entreprise de ce secteur et à exprimer publiquement ses inquiétudes. À travers son parcours et ses réflexions, il nous invite à reconsidérer l'impact de ce type de technologies sur le droit d'auteur et l'écosystème numérique.
De la fascination pour l'IA à la remise en question
Suchir Balaji a consacré près de quatre ans à la recherche en intelligence artificielle chez OpenAI. Son travail consistait notamment à collecter et organiser les vastes quantités de données provenant d'internet, utilisées pour former des modèles d'IA comme ChatGPT. À l'époque, il ne s'interrogeait pas vraiment sur la légalité du processus, partant du principe que la startup basée à San Francisco pouvait librement exploiter toute donnée en ligne, qu'elle soit protégée par des droits d'auteur ou non. Après le lancement du chatbot en 2022, il a cependant commencé à réfléchir plus sérieusement à la manière dont l’entreprise les utilisait. Il en est venu à la conclusion que l'exploitation de données protégées par des droits d'auteur violait la loi et que des technologies comme ChatGPT avaient des effets néfastes sur l’internet. En août 2023, il décide donc de quitter son job, affirmant qu'il ne veut plus contribuer à des technologies qu'il juge plus préjudiciables que bénéfiques pour la société. Lors d'entretiens récents avec le New York Times, il a déclaré:
Si vous croyez ce que je crois, vous devez simplement quitter l'entreprise.
Les risques immédiats des technologies d'IA
À 25 ans, Balaji, qui n'a pas encore pris de nouveau poste et se concentre actuellement sur des projets personnels, est l'un des premiers à dénoncer publiquement l'utilisation de données protégées par des droits d'auteur pour créer des technologies d'IA. Un ancien vice-président de la startup londonienne Stability AI, spécialisée dans les technologies de génération d'images et de sons, a émis des critiques similaires. Depuis deux ans, plusieurs individus et entreprises ont intenté des procès contre diverses sociétés d'IA, y compris OpenAI, les accusant d'utiliser illégalement des œuvres protégées pour entraîner leurs technologies. Parmi ceux qui ont déposé plainte, on trouve des programmeurs, des artistes, des maisons de disques, des auteurs et des organisations de presse. En décembre 2023, le New York Times a d’ailleurs poursuivi OpenAI et son principal partenaire, Microsoft, affirmant qu'ils avaient utilisé des millions d'articles publiés par le journal pour former des chatbots qui concurrencent maintenant le quotidien comme source d'information fiable. Les deux entreprises ont nié ces accusations.
L'avis des chercheurs et la position d'OpenAI
Beaucoup de chercheurs travaillant pour OpenAI et d'autres entreprises technologiques ont mis en garde contre les dangers potentiels des technologies d'IA. Ces avertissements concernent généralement des risques futurs, comme la création d'armes biologiques ou la possibilité que ces systèmes menacent l'humanité. Pour Balaji, les menaces sont plus immédiates. Il estime que ChatGPT et autres chatbots détruisent la viabilité économique des individus, entreprises et services en ligne ayant créé les données utilisées pour former ces systèmes.
Ce modèle n'est pas durable pour l'écosystème internet dans son ensemble », explique-t-il.
De son côté, OpenAI a contesté ces affirmations. Dans un communiqué, l'entreprise a déclaré:
“Nous construisons nos modèles d'IA en utilisant des données publiques, d'une manière protégée par le droit à l'utilisation équitable et d'autres principes juridiques établis. Nous considérons ce principe comme juste pour les créateurs, nécessaire pour les innovateurs et crucial pour la compétitivité des États-Unis.”
Le cheminement de Balaji vers l'IA
Le parcours de Suchir Balaji dans l'IA a commencé durant son adolescence à Cupertino, en Californie. Fasciné par une technologie développée par DeepMind, une startup londonienne du secteur, qui apprenait à jouer à des jeux Atari classiques de manière autonome, il a été captivé par les possibilités qu'offrait cette technologie. Il pensait qu’elle pourrait résoudre des problèmes insolubles, comme la guérison des maladies ou le ralentissement du vieillissement. Après des études en informatique à l'université de Californie à Berkeley, il rejoint OpenAI en 2020. En 2022, il commence à collecter des données numériques pour le projet GPT-4, un réseau de neurones entraîné à analyser presque tous les textes en langue anglaise disponibles sur internet. Selon lui, il percevait ce travail comme un projet de recherche, sans penser qu'il pourrait concurrencer les services existants sur internet.
Le débat autour de l'utilisation équitable
Depuis la sortie de ChatGPT, des entreprises comme OpenAI et Microsoft ont affirmé que l'utilisation de données en ligne pour former leurs systèmes d'IA respectait les exigences de la doctrine d'utilisation équitable. Cette dernière repose sur quatre facteurs, et ces entreprises soutiennent que ceux-ci leur sont favorables, notamment en ce qui concerne la transformation des œuvres protégées et l'absence de concurrence directe avec celles originales. Balaji n'est malgré tout pas d'accord. Il estime que, bien que les systèmes d'IA ne produisent pas des copies exactes des données d'entraînement, leurs résultats ne sont pas fondamentalement nouveaux non plus. Il a publié un essai sur son site personnel, incluant une analyse mathématique pour démontrer que ses préoccupations sont fondées.
Vers une régulation de l'IA ?
Pour Balaji, la seule issue est une régulation accrue de l'IA. Des experts juridiques soulignent que les lois actuelles sur les droits d'auteur ont été rédigées bien avant l'essor de cette technologie, et qu'aucune instance juridique n'a encore tranché la question de la légalité d’outils comme ChatGPT. Le débat sur l'utilisation des données protégées est loin d'être clos. Les réflexions de Balaji nous rappellent que, derrière les avancées technologiques, se cachent des questions cruciales sur le respect des droits des créateurs et l'avenir d’internet.
On l'a déjà dit, le besoin de régulation est évident, le souci c'est que comme souvent, elle arrivera trop tard. Et qu'OpenAI se défende de n'utiliser QUE des données publiques reste une belle fumisterie