Comment détecter les confabulations des modèles de langage - Une approche innovante de l’université d'Oxford
Un système simple pour identifier les réponses erronées et améliorer la fiabilité de l'IA.
Les LLM produisent souvent des réponses manifestement fausses avec une confiance similaire à celle qu'ils affichent lorsqu'ils en donnent des correctes et c’est l’un des secrets les moins bien gardés dans le monde de l'IA. Pourquoi cela se produit-il ? Plusieurs raisons peuvent expliquer ce phénomène, un modèle peut avoir été entraîné sur des informations erronées, la réponse pourrait nécessiter une extrapolation qu’il n'est pas capable de faire, ou encore un aspect de l'entraînement pourrait avoir encouragé une fausse information.
La confabulation - Une explication simple
La raison la plus simple est peut-être qu'un modèle de langage ne reconnaît pas ce qui constitue une réponse correcte, mais est contraint d’en fournir une. Il se contente donc d'inventer quelque chose, une habitude connue sous le terme de confabulation. Le fait de pouvoir les déterminer serait extrêmement précieux, surtout avec l'adoption rapide de ces outils pour des tâches allant des essais universitaires aux candidatures professionnelles. Heureusement, des chercheurs de l'université d'Oxford ont récemment proposé une méthode simple pour les identifier, applicable à tous les modèles populaires et dans divers domaines. En procédant ainsi, ils ont démontré que la majorité des faits alternatifs produits sont des confabulations.
Détection
Cette nouvelle recherche se concentre strictement sur les confabulations, et non sur des erreurs dues à des fausses entrées dans les données d'entraînement. Les chercheurs définissent les confabulations comme des situations où les modèles de langage émettent de manière fluide des affirmations à la fois fausses et arbitraires. Le raisonnement derrière cette recherche est simple, ces derniers ne sont pas entraînés pour l'exactitude, mais sur des quantités massives de texte. Ils apprennent à produire des phrases à consonance humaine à partir de ces écrits. Si un fait est présenté de manière cohérente dans les exemples d'entraînement, le modèle est susceptible de le répéter. En revanche, s'il y a peu d'exemples ou si les faits sont incohérents, le modèle synthétise une réponse plausible, souvent incorrecte. Il peut également rencontrer des difficultés lorsqu'il dispose de plusieurs options pour formuler la bonne réponse. Par exemple, "Paris", "C'est à Paris", et "La capitale de la France, Paris" sont toutes des réponses valides à la question "Où se trouve la tour Eiffel ?". Cette incertitude statistique, appelée entropie, peut survenir lorsqu'un modèle n'est pas sûr de la formulation de la bonne réponse ou lorsqu'il ne peut pas l’identifier.
Une nouvelle approche: l'entropie sémantique
Plutôt que de forcer le modèle à répondre "Je ne sais pas" lorsqu'il est confronté à plusieurs réponses équivalentes, les chercheurs se concentrent sur l'entropie sémantique. Cette méthode évalue toutes les réponses statistiquement probables et détermine combien d'entre elles sont sémantiquement équivalentes. Si un grand nombre de réponses ont le même sens, le modèle est probablement incertain quant à la formulation mais connaît la bonne réponse. Sinon, il est enclin à confabuler.
Mise en Pratique
La méthode est simple:
Échantillonner plusieurs réponses possibles à chaque question.
Regrouper algorithmiquement ces réponses en fonction de leur signification similaire.
Si un seul groupe prédomine, le modèle sélectionne une réponse parmi un ensemble d'options similaires. S'il y a plusieurs groupes, il le fait parmi différents ensembles, ce qui peut conduire à une confabulation.
La mise en œuvre de ce système est également directe. La plupart des principaux modèles de langage peuvent produire un ensemble de réponses statistiquement probables, nécessaires pour évaluer l'entropie sémantique. De plus, des outils d'inférence en langage naturel existent déjà pour déterminer si deux phrases s'impliquent mutuellement. Il n'y a donc pas besoin d'entraînement supervisé.
Résultats prometteurs
Les chercheurs ont testé cette méthode et plusieurs autres approches sur une large gamme de sujets: trivia, connaissances générales, biologie, et des requêtes de recherche Google. Les résultats ont montré que l'entropie sémantique détectait plus de réponses fausses que les autres méthodes, et que la plupart des erreurs étaient des confabulations. Le système peut également être adapté pour traiter des biographies en décomposant les informations en un ensemble de déclarations factuelles et en évaluant chacune d'elles avec l'entropie sémantique. Cette méthode a fonctionné sur une biographie courte avec jusqu'à 150 affirmations factuelles.
Cette approche flexible ne nécessite pas de développements majeurs et peut améliorer significativement les performances des modèles de langage. Comme elle détecte uniquement les confabulations, elle pourrait être combinée avec d'autres méthodes pour encore plus d'efficacité. Les chercheurs notent que les LLM semblent déjà avoir les informations nécessaires pour savoir quand ils donnent la bonne réponse, il suffit de mieux les exploiter. L'université d'Oxford a donc ouvert une voie prometteuse pour améliorer leur fiabilité, en exploitant leur propre capacité à savoir ce qu'ils ne savent pas.