L'IA Open Source a enfin sa définition officielle
Entre promesses de transparence et résistances des géants de la tech.
L'Open Source Initiative (OSI) vient de franchir une étape importante en publiant la version 1.0 de sa définition de l'IA open source (OSAID). Celle-ci arrive à point nommé dans un contexte où l'intelligence artificielle occupe une place centrale dans les débats technologiques et réglementaires.
Pourquoi une définition officielle ?
La question peut sembler anodine, mais elle est importante. Comme l'explique Stefano Maffulli, vice-président exécutif de l'OSI, l'objectif est d'établir un langage commun entre les développeurs d'IA et les régulateurs. Avec l'attention croissante des institutions comme la commission européenne sur l'IA open source, il devenait urgent d'établir des critères clairs et reconnus. Selon l'OSAID, pour qu'un modèle soit considéré comme véritablement open source, il doit répondre à plusieurs conditions fondamentales:
Fournir suffisamment d'informations sur sa conception pour permettre une reproduction "substantielle"
Révéler les détails pertinents sur les données d'entraînement, incluant leur origine et leur traitement
Garantir la liberté d'utilisation et de modification sans autorisation préalable
Permettre de construire de nouveaux développements sur cette base
La réalité du marché: un décalage flagrant
Paradoxalement, alors que de nombreuses entreprises technologiques revendiquent le label "open source" pour leurs modèles d'IA, peu d'entre elles satisfont réellement aux critères de l'OSAID. Prenons quelques exemples révélateurs:
Meta impose des licences spéciales pour les plateformes dépassant 700 millions d'utilisateurs mensuels
Stability AI exige des licences entreprises pour les sociétés réalisant plus d'un million de dollars de revenus
Mistral limite l'utilisation commerciale de certains modèles
Une étude menée par la Signal Foundation, l'AI Now Institute et Carnegie Mellon a d'ailleurs souligné que beaucoup de modèles dits "open source" ne le sont que de nom. Les données d'entraînement restent secrètes, la puissance de calcul nécessaire est souvent inaccessible, et les techniques d'optimisation sont d'une complexité décourageante
.
Les défis et controverses
La position de Meta illustre parfaitement les tensions actuelles. L'entreprise, qui finance paradoxalement l'OSI, conteste la nouvelle définition. Selon elle, les restrictions imposées à Llama visent à prévenir les utilisations malveillantes, et la non-divulgation des données d'entraînement répond à l'évolution du cadre réglementaire. Cette réticence s'explique en partie par les enjeux juridiques et concurrentiels. Les méthodes de collecte et d'affinage des données représentent un avantage compétitif majeur. De plus, leur divulgation pourrait exposer les entreprises à des poursuites judiciaires, comme en témoignent les procès intentés par des auteurs et artistes contre Meta et Stability.
Des questions en suspens
La définition actuelle soulève également des interrogations. Luca Antiga, PDG de Lightning AI, pointe notamment une lacune concernant les licences des données d'entraînement. Un modèle peut-il être considéré comme "open source" si celles-ci sont payantes ou inaccessibles ? La question des droits d'auteur reste également en suspens. L'OSI reconnaît que si les tribunaux décident que les modèles d'IA peuvent être protégés, de nouveaux instruments juridiques seront nécessaires.
Une première étape
Malgré ces défis, l'OSAID représente une avancée nécessaire. L'OSI a d'ailleurs mis en place un comité chargé de suivre l'application de cette définition et de proposer des amendements pour les versions futures. Elle marque ainsi une étape dans la maturation de l'écosystème de l'IA, même si elle devra probablement évoluer pour répondre aux défis techniques, juridiques et éthiques qui ne manqueront pas d'émerger dans ce domaine dans les prochaines années.