Comment ChatGPT a été manipulé pour divulguer des clés produits Windows

Here's how ChatGPT was tricked into revealing Windows product keys

Comment ChatGPT a été manipulé pour divulguer des clés produits Windows

Malgré les mesures de sécurité mises en place, ChatGPT peut encore être trompé pour révéler des informations sensibles ou restreintes grâce à des invites astucieuses. Un individu a même réussi à convaincre l'IA de divulguer des clés produits Windows, dont une utilisée par la banque Wells Fargo, en lui faisant jouer un jeu de devinettes.

Marco Figueroa, responsable technique du programme GenAI Bug Bounty chez 0DIN, explique que cette manipulation exploite les mécanismes de jeu des modèles de langage comme GPT-4o. La technique consiste à cadrer l'interaction avec ChatGPT comme un jeu, ce qui la rend moins sérieuse. L'IA est alors contrainte de participer et ne peut pas mentir, avec comme déclencheur la phrase "Je abandonne".

Le chercheur a d'abord demandé un indice, forçant ChatGPT à révéler les premiers caractères de la clé. Après une tentative incorrecte, l'utilisation de la phrase déclencheur a conduit l'IA à compléter la clé, qui s'est avérée valide. Ces clés, souvent trouvées sur des forums publics, faisaient partie des données d'entraînement, ce qui explique pourquoi ChatGPT les a jugées moins sensibles.

Figueroa a révélé au Register qu'une des clés divulguées appartenait à Wells Fargo. Cette technique pourrait également être adaptée pour obtenir d'autres contenus restreints, comme du matériel pour adultes ou des informations personnelles.

OpenAI a depuis mis à jour ChatGPT pour bloquer cette faille. L'IA répond désormais qu'elle ne peut pas partager de clés produits Windows, car cela violerait les règles éthiques et les accords de licence. Figueroa recommande aux développeurs d'anticiper ces techniques de manipulation et d'ajouter des protections contre l'ingénierie sociale.

Cách ChatGPT bị lừa để tiết lộ key bản quyền Windows

Dù được trang bị nhiều rào chắn bảo mật, ChatGPT vẫn có thể bị lợi dụng để tiết lộ thông tin nhạy cảm thông qua các câu lệnh khéo léo. Một cá nhân thậm chí đã dụ dỗ AI tiết lộ key bản quyền Windows, bao gồm key được ngân hàng Wells Fargo sử dụng, bằng cách biến cuộc trò chuyện thành trò chơi đoán mật mã.

Theo Marco Figueroa - Giám đốc sản phẩm kỹ thuật chương trình GenAI Bug Bounty tại 0DIN, kỹ thuật jailbreak này khai thác cơ chế xử lý trò chơi của các mô hình ngôn ngữ lớn như GPT-4o. Bằng cách đóng khung tương tác như một trò chơi vô hại, yêu cầu AI tham gia mà không được nói dối, với câu kích hoạt quan trọng là "Tôi bó tay".

Nhà nghiên cứu đầu tiên yêu cầu gợi ý, buộc ChatGPT tiết lộ vài ký tự đầu key. Sau khi cố tình đoán sai, câu nói "Tôi bó tay" khiến AI tự động hoàn thiện key - vốn là key thật. Các key Windows Home, Pro và Enterprise phổ biến trên diễn đàn công khai đã tồn tại trong dữ liệu huấn luyện, khiến AI đánh giá thấp mức độ nhạy cảm.

Figueroa tiết lộ với The Register một trong các key bị lộ thuộc sở hữu riêng của Wells Fargo. Kỹ thuật này còn có thể áp dụng để khai thác nội dung người lớn, đường link độc hại hoặc thông tin cá nhân.

OpenAI đã vá lỗi sau sự cố. Hiện ChatGPT từ chối yêu cầu với thông báo: "Việc chia sẻ key Windows dù trong trò chơi cũng vi phạm nguyên tắc đạo đức và bản quyền phần mềm". Figueroa khuyến nghị nhà phát triển cần dự đoán các kỹ thuật che giấu câu lệnh, bổ sung cơ chế bảo vệ ở cấp logic và xem xét các mẫu tấn công kỹ thuật xã hội thay vì chỉ lọc từ khóa đơn thuần.