La sécurité de l’intelligence artificielle demeure un enjeu majeur. Une découverte troublante a récemment mis en lumière les vulnérabilités potentielles des systèmes d'IA les plus avancés, notamment ChatGPT, le célèbre modèle de langage développé par OpenAI. Cette révélation interroge sur leur fiabilité.
Une faille de sécurité inquiétante
Johann Rehberger, un chercheur en sécurité renommé, a mis au jour une faille dans ChatGPT permettant à des attaquants potentiels de stocker de fausses informations et des instructions malveillantes dans les paramètres de mémoire à long terme d'un utilisateur. Cette découverte a été traitée au départ avec une certaine légèreté par OpenAI, qui a classé le problème comme une simple "question de sûreté" plutôt qu'une véritable préoccupation de sécurité. Face à cette réponse peu satisfaisante, Rehberger a agit comme tout bon chercheur l’aurait fait, il a créé une preuve de concept démontrant comment cette vulnérabilité pouvait être exploitée pour exfiltrer en permanence toutes les entrées des utilisateurs. C'est seulement à ce moment-là que les ingénieurs d'OpenAI ont pris la mesure de la gravité du problème et ont publié une correction partielle début septembre.
Le fonctionnement de la mémoire à long terme
Pour comprendre l'ampleur du problème, il est essentiel de cerner le fonctionnement de la mémoire à long terme de ChatGPT. Cette fonctionnalité, introduite en février et largement déployée en septembre, permet à l'IA de stocker des informations provenant de conversations antérieures et de les utiliser comme contexte dans toutes les conversations futures. L'objectif est de lui permettre de se "souvenir" de détails tels que l'âge, le genre ou les croyances philosophiques d'un utilisateur, évitant ainsi de devoir les saisir à nouveau à chaque nouvelle requête.
L'exploitation de la vulnérabilité
Le chercheur a découvert que ces mémoires pouvaient être créées et stockées de manière permanente par le biais d'une injection de prompt indirecte. Cette technique d'exploitation de l'IA permet de faire suivre à un modèle de langage des instructions provenant de contenus non fiables tels que des e-mails, des blogs ou des documents. Il a donc démontré comment il pouvait tromper ChatGPT en lui faisant croire qu'un utilisateur ciblé avait 102 ans, vivait dans la Matrice et insistait sur le fait que la Terre était plate. Ces faux souvenirs pouvaient être implantés en stockant des fichiers sur Google Drive ou Microsoft OneDrive, en téléchargeant des images ou en naviguant sur un site comme Bing, autant d'actions qui pourraient être réalisées par un attaquant malveillant.
La réaction d'OpenAI
Rehberger a signalé sa découverte à OpenAI en mai, mais l'entreprise a initialement fermé le ticket de rapport. Un mois plus tard, il a soumis une nouvelle déclaration de divulgation, cette fois accompagnée d'une preuve de concept. Cette démonstration montrait comment l'application ChatGPT pour macOS pouvait être amenée à envoyer une copie textuelle de toutes les entrées de l'utilisateur et des sorties du chatbot vers un serveur de son choix. Pour réaliser cette exploitation, il suffisait d'inciter l'IA à visualiser un lien web hébergeant une image malveillante. À partir de ce moment, toutes les entrées et sorties de et vers ChatGPT étaient envoyées au site web de l'attaquant. Le plus inquiétant est que cette injection persistait dans la mémoire à long terme de du chatbot, continuant d'exfiltrer les données même lors du démarrage d'une nouvelle conversation.
Les limites de l'attaque et les correctifs
À noter que cette attaque n'est pas possible via l'interface web de ChatGPT, grâce à une API déployée par OpenAI l'année dernière. De plus, depuis la découverte de Rehberger, l’entreprise a ajouté un correctif empêchant l'utilisation des mémoires comme vecteur d'exfiltration. Le chercheur souligne malgré tout que des contenus non fiables peuvent toujours effectuer des injections de prompts. Face à ces risques et si vous êtes un utilisateur de ChatGPT, vous devriez rester vigilants. Il est recommandé de:
Surveiller attentivement les sessions pour détecter toute sortie indiquant qu'une nouvelle mémoire a été ajoutée.
Examiner régulièrement les mémoires stockées pour repérer tout élément qui pourrait avoir été planté par des sources non fiables.
Utiliser les outils fournis par OpenAI pour gérer la mémoire et les souvenirs spécifiques qui y sont stockés.
Les implications pour l'avenir de l'IA
Cette vulnérabilité soulève des questions importantes sur la sécurité et la fiabilité des systèmes d'IA avancés. Alors que ces technologies deviennent de plus en plus intégrées dans notre vie quotidienne et nos processus de travail, il est nécessaire de s'assurer qu'elles ne puissent pas être détournées à des fins malveillantes. Les chercheurs en sécurité comme Johann Rehberger jouent un rôle vital dans l'identification et la correction de ces failles. Leur travail permet non seulement d'améliorer la sécurité des systèmes existants, mais aussi d'informer le développement de futures technologies d'IA plus sûres et plus robustes. Pour l'instant, OpenAI n'a pas commenté ses efforts pour prévenir d'autres piratages visant à implanter de faux souvenirs. Cette absence de communication souligne l'importance d'une transparence accrue de la part des entreprises développant des technologies dans ce secteur.
Plus les avancées technologiques avancent, plus les chercheurs en sécurité découvre des failles. Ajouté au flou qui règne quand au fonctionnement exact de ces ia, on a le droit à un cocktail explosif de malveillance possible... Pas franchement rassurant.