Alarmant : Les Modèles d'IA les Plus Puissants Restent Incroyablement Faciles à Pirater, et les Entreprises N'en Ont Rien à Faire

Image : Getty / Futurism

Vous n'utiliseriez pas un chatbot à des fins malveillantes, n'est-ce pas ? Bien sûr que non. Mais si vous ou une partie malintentionnée vouliez forcer un modèle d'IA à produire des contenus dangereux, ce serait étonnamment facile.

C'est ce que révèle une nouvelle étude d'une équipe d'informaticiens de l'Université Ben-Gurion. Ils ont constaté que les principaux chatbots d'IA restent extrêmement vulnérables au 'jailbreak' - une technique pour les tromper et obtenir des réponses nuisibles, comme des instructions pour fabriquer des armes chimiques.

Le mot clé ici est 'restent', car cette menace est connue depuis longtemps par l'industrie de l'IA. Pourtant, choquant, une technique de jailbreak découverte il y a plus de sept mois fonctionne toujours sur de nombreux LLM leaders.

Le risque est 'immédiat, tangible et profondément préoccupant', écrivent-ils dans le rapport récemment cité par The Guardian. La situation s'aggrave avec la montée des 'LLM noirs', explicitement commercialisés sans garde-fous éthiques.

'Ce qui était autrefois réservé aux États ou aux groupes criminels organisés pourrait bientôt être entre les mains de n'importe qui avec un ordinateur portable ou même un téléphone', avertissent les auteurs.

Le défi d'aligner les modèles d'IA sur les valeurs humaines persiste. Même les LLM les mieux entraînés peuvent devenir chaotiques : mentir, inventer des faits. Plus ils sont exposés, plus ils sont vulnérables aux attaques provoquant ce comportement.

Des chercheurs ont récemment découvert une technique de jailbreak universelle contournant les protections des principaux LLM : GPT-4o d'OpenAI, Gemini 2.5 de Google, Copilot de Microsoft et Claude 3.7 d'Anthropic.

En jouant des personnages fictifs, utilisant le 'leetspeak' (remplacer des lettres par des chiffres) ou imitant des 'fichiers de politique', les chatbots ont fourni des instructions détaillées sur des activités ultra-dangereuses comme l'enrichissement d'uranium ou la création d'anthrax.

Une autre étude montre qu'ajouter des fautes de frappe, des nombres aléatoires ou des majuscules dans une requête suffit à faire ignorer les restrictions à l'IA.

Un problème majeur identifié est la quantité de connaissances risquées intégrées dans les données d'entraînement des LLM, révélant un manque de diligence de l'industrie dans le filtrage des contenus.

'C'était choquant de voir ce que contient ce système de connaissances', a déclaré l'auteur principal Michael Fire (Université Ben-Gurion) au Guardian. Son coauteur Lior Rokach ajoute : 'Cette menace se distingue par son accessibilité, évolutivité et adaptabilité sans précédent'.

Fire et Rokach ont alerté les développeurs des LLM concernés. Les réponses ont été 'décevantes' : certains ont ignoré, d'autres ont estimé que cela ne relevait pas de leurs programmes de prime aux bugs.

En clair, l'industrie de l'IA semble 'jeter l'éponge'. L'expert en sécurité Peter Garraghan (Université de Lancaster) insiste : 'Les organisations doivent traiter les LLM comme tout logiciel critique - nécessitant des tests rigoureux, des attaques simulées continues et une modélisation contextuelle des menaces. La vraie sécurité exige non seulement une divulgation responsable, mais aussi une conception et un déploiement responsables'.

En savoir plus : Les Chatbots d'IA Deviennent Encore Pires pour Résumer les Données

Đáng Báo Động: Các Mô Hình AI Mạnh Nhất Vẫn Dễ Dàng Bị 'Bẻ Khóa' Trong Khi Các Công Ty Thờ Ơ

Ảnh: Getty / Futurism

Bạn sẽ không dùng chatbot cho mục đích xấu, phải không? Tất nhiên là không. Nhưng nếu bạn hoặc một bên nào đó muốn ép AI tạo ra nội dung độc hại mà nó không được phép, việc này lại dễ đến kinh ngạc.

Đây là kết quả từ một nghiên cứu mới của các nhà khoa học máy tính tại Đại học Ben-Gurion. Họ phát hiện các chatbot AI hàng đầu vẫn cực kỳ dễ bị 'jailbreak' - bị lừa để đưa ra phản hồi nguy hiểm, như hướng dẫn chế tạo vũ khí hóa học.

Từ khóa ở đây là 'vẫn', bởi ngành công nghiệp AI đã biết về mối đe dọa này từ lâu. Đáng chú ý, kỹ thuật jailbreak phát hiện hơn 7 tháng trước vẫn hiệu quả với nhiều mô hình ngôn ngữ lớn (LLM) hàng đầu.

Nguy cơ này 'hiện hữu, rõ ràng và cực kỳ đáng lo ngại', nhóm nghiên cứu viết trong báo cáo được The Guardian nhắc gần đây. Tình hình càng nghiêm trọng hơn với sự gia tăng của các 'LLM đen' - được quảng cáo là không có rào cản đạo đức.

'Điều từng chỉ dành cho tổ chức tội phạm giờ có thể nằm trong tay bất kỳ ai có laptop hoặc điện thoại', các tác giả cảnh báo.

Thách thức trong việc kiểm soát AI theo giá trị con người vẫn đè nặng lên ngành. Ngay cả LLM được đào tạo kỹ nhất cũng có thể hỗn loạn: nói dối, bịa đặt thông tin. Càng tiếp xúc lâu với thế giới thực, chúng càng dễ bị tấn công kích hoạt hành vi xấu.

Gần đây, các nhà nghiên cứu bảo mật phát hiện kỹ thuật jailbreak phổ quát có thể vượt qua rào chắn an toàn của mọi LLM lớn, bao gồm GPT-4o của OpenAI, Gemini 2.5 của Google, Copilot của Microsoft và Claude 3.7 của Anthropic.

Bằng cách nhập vai nhân vật hư cấu, dùng ngôn ngữ leet (thay số cho chữ), hoặc giả định lệnh là 'tệp chính sách' của nhà phát triển, các chatbot bị dụ đưa ra hướng dẫn chi tiết về hoạt động cực kỳ nguy hiểm như làm giàu uranium hay tạo bệnh than.

Nghiên cứu khác còn chỉ ra: chỉ cần thêm lỗi chính tả, số ngẫu nhiên hoặc chữ viết hoa vào lệnh là có thể khiến AI bỏ qua rào cản.

Một vấn đề lớn được nêu trong báo cáo là lượng kiến thức nguy hiểm được nhúng trong dữ liệu huấn luyện khổng lồ của LLM, cho thấy ngành công nghiệp AI chưa đủ cẩn trọng trong việc lọc nội dung đầu vào.

'Thật sốc khi thấy hệ thống kiến thức này chứa đựng những gì', tác giả chính Michael Fire (Đại học Ben-Gurion) nói với Guardian. Đồng tác giả Lior Rokach bổ sung: 'Mối đe dọa này khác biệt nhờ khả năng tiếp cận, mở rộng và thích ứng chưa từng có'.

Fire và Rokach cho biết họ đã cảnh báo các nhà phát triển LLM về kỹ thuật jailbreak phổ quát. Tuy nhiên, phản hồi rất 'nhạt nhòa': một số không hồi âm, số khác cho rằng đây không thuộc phạm vi chương trình tiền thưởng phát hiện lỗi.

Nói cách khác, ngành AI dường như đang 'bó tay'. Chuyên gia bảo mật AI Peter Garraghan (Đại học Lancaster) nhấn mạnh: 'Các tổ chức phải coi LLM như phần mềm quan trọng - cần kiểm tra bảo mật nghiêm ngặt, liên tục tấn công giả định và mô hình hóa mối đe dọa theo ngữ cảnh. An ninh thực sự đòi hỏi không chỉ công bố trách nhiệm, mà cả thiết kế và triển khai có trách nhiệm'.

Tham khảo thêm: Khả Năng Tóm Tắt Dữ Liệu Của AI Chatbot Đang Ngày Càng Tệ Hơn