Comment ChatGPT a été manipulé pour divulguer des clés produits Windows
Malgré les mesures de sécurité mises en place, ChatGPT peut encore être trompé pour révéler des informations sensibles ou restreintes grâce à des invites astucieuses. Un individu a même réussi à convaincre l'IA de divulguer des clés produits Windows, dont une utilisée par la banque Wells Fargo, en lui faisant jouer un jeu de devinettes.
Marco Figueroa, responsable technique du programme GenAI Bug Bounty chez 0DIN, explique que cette manipulation exploite les mécanismes de jeu des modèles de langage comme GPT-4o. La technique consiste à cadrer l'interaction avec ChatGPT comme un jeu, ce qui la rend moins sérieuse. L'IA est alors contrainte de participer et ne peut pas mentir, avec comme déclencheur la phrase "Je abandonne".
Le chercheur a d'abord demandé un indice, forçant ChatGPT à révéler les premiers caractères de la clé. Après une tentative incorrecte, l'utilisation de la phrase déclencheur a conduit l'IA à compléter la clé, qui s'est avérée valide. Ces clés, souvent trouvées sur des forums publics, faisaient partie des données d'entraînement, ce qui explique pourquoi ChatGPT les a jugées moins sensibles.
Figueroa a révélé au Register qu'une des clés divulguées appartenait à Wells Fargo. Cette technique pourrait également être adaptée pour obtenir d'autres contenus restreints, comme du matériel pour adultes ou des informations personnelles.
OpenAI a depuis mis à jour ChatGPT pour bloquer cette faille. L'IA répond désormais qu'elle ne peut pas partager de clés produits Windows, car cela violerait les règles éthiques et les accords de licence. Figueroa recommande aux développeurs d'anticiper ces techniques de manipulation et d'ajouter des protections contre l'ingénierie sociale.