L'évaluation des outils d'intelligence artificielle - Une importance majeure

L'intelligence artificielle a fait des progrès considérables, avec des outils comme ChatGPT, Gemini et Claude en première ligne. Cependant, une question demeure, à quel point ces outils sont-ils vraiment intelligents ?

Contrairement à d'autres secteurs, le domaine de l'IA ne nécessite pas que les produits soient testés avant leur mise sur le marché. Il n'existe aucun label de qualité standard pour les chatbots, et peu d'organismes indépendants effectuent des évaluations rigoureuses de ces outils. Les entreprises d'IA s'appuient souvent sur des termes vagues tels que « capacités améliorées » pour décrire l'évolution de leurs modèles. Bien que certains tests standard soient utilisés pour évaluer leurs compétences en mathématiques ou en raisonnement logique, l'efficacité et la fiabilité de ces derniers sont remises en question par de nombreux experts. Cette situation crée une incertitude quant à l'utilisation appropriée des produits d'IA par le public. La complexité de suivre leurs forces et leurs faiblesses relatives est exacerbée par le manque de publications de manuels d'utilisation ou de notes de version détaillées. De plus, la fréquence des mises à jour des modèles peut rendre un chatbot performant un jour et moins le lendemain, ajoutant à la confusion générale.

Les défis liés à la mesure de l'IA ne sont pas sans conséquences. Une mesure inadéquate peut masquer des améliorations de capacités non anticipées ou des risques potentiels de dommages. Le rapport annuel de l'université Stanford souligne la mauvaise qualité de ces dernières comme l'un des défis majeurs pour la recherche. Historiquement, le test de Turing était la méthode dominante pour évaluer l'intelligence des systèmes d'IA. Cependant, les plus modernes le réussissent facilement, ce qui en a conduit à la création de plus rigoureux. Le Massive Multitask Language Understanding (MMLU), considéré comme la référence de ces derniers pour les chatbots, est aujourd'hui un standard, bien que son utilité soit limitée dans le temps face à l'amélioration rapide des capacités des IA.

Les tests comme le MMLU visent à capturer des aspects spécifiques des performances de l'IA, mais ils ne répondent pas nécessairement aux questions subjectives des utilisateurs. Par exemple, est-ce que le chatbot est agréable à utiliser ? Est-il adapté pour automatiser des tâches de bureau routinières ou pour le brainstorming créatif ? Ceux actuels ne parviennent pas à fournir des réponses claires à ces questions. Face à ces défis, il est impératif que les efforts publics et privés se conjuguent pour développer des programmes de test robustes. Ils devraient non seulement évaluer les capacités techniques des modèles mais aussi leurs risques potentiels. En outre, l'engagement des entreprises du secteur à collaborer avec des évaluateurs tiers et à maintenir une transparence sur les mises à jour sera crucial pour avancer vers une évaluation plus fiable et significative des systèmes. Tant que des méthodes plus efficaces ne seront pas développées et adoptées, il sera difficile de déterminer le véritable potentiel et les risques de tels outils.