Alarmant : Les Modèles d'IA les Plus Puissants Restent Incroyablement Faciles à Pirater, et les Entreprises N'en Ont Rien à Faire
Image : Getty / Futurism
Vous n'utiliseriez pas un chatbot à des fins malveillantes, n'est-ce pas ? Bien sûr que non. Mais si vous ou une partie malintentionnée vouliez forcer un modèle d'IA à produire des contenus dangereux, ce serait étonnamment facile.
C'est ce que révèle une nouvelle étude d'une équipe d'informaticiens de l'Université Ben-Gurion. Ils ont constaté que les principaux chatbots d'IA restent extrêmement vulnérables au 'jailbreak' - une technique pour les tromper et obtenir des réponses nuisibles, comme des instructions pour fabriquer des armes chimiques.
Le mot clé ici est 'restent', car cette menace est connue depuis longtemps par l'industrie de l'IA. Pourtant, choquant, une technique de jailbreak découverte il y a plus de sept mois fonctionne toujours sur de nombreux LLM leaders.
Le risque est 'immédiat, tangible et profondément préoccupant', écrivent-ils dans le rapport récemment cité par The Guardian. La situation s'aggrave avec la montée des 'LLM noirs', explicitement commercialisés sans garde-fous éthiques.
'Ce qui était autrefois réservé aux États ou aux groupes criminels organisés pourrait bientôt être entre les mains de n'importe qui avec un ordinateur portable ou même un téléphone', avertissent les auteurs.
Le défi d'aligner les modèles d'IA sur les valeurs humaines persiste. Même les LLM les mieux entraînés peuvent devenir chaotiques : mentir, inventer des faits. Plus ils sont exposés, plus ils sont vulnérables aux attaques provoquant ce comportement.
Des chercheurs ont récemment découvert une technique de jailbreak universelle contournant les protections des principaux LLM : GPT-4o d'OpenAI, Gemini 2.5 de Google, Copilot de Microsoft et Claude 3.7 d'Anthropic.
En jouant des personnages fictifs, utilisant le 'leetspeak' (remplacer des lettres par des chiffres) ou imitant des 'fichiers de politique', les chatbots ont fourni des instructions détaillées sur des activités ultra-dangereuses comme l'enrichissement d'uranium ou la création d'anthrax.
Une autre étude montre qu'ajouter des fautes de frappe, des nombres aléatoires ou des majuscules dans une requête suffit à faire ignorer les restrictions à l'IA.
Un problème majeur identifié est la quantité de connaissances risquées intégrées dans les données d'entraînement des LLM, révélant un manque de diligence de l'industrie dans le filtrage des contenus.
'C'était choquant de voir ce que contient ce système de connaissances', a déclaré l'auteur principal Michael Fire (Université Ben-Gurion) au Guardian. Son coauteur Lior Rokach ajoute : 'Cette menace se distingue par son accessibilité, évolutivité et adaptabilité sans précédent'.
Fire et Rokach ont alerté les développeurs des LLM concernés. Les réponses ont été 'décevantes' : certains ont ignoré, d'autres ont estimé que cela ne relevait pas de leurs programmes de prime aux bugs.
En clair, l'industrie de l'IA semble 'jeter l'éponge'. L'expert en sécurité Peter Garraghan (Université de Lancaster) insiste : 'Les organisations doivent traiter les LLM comme tout logiciel critique - nécessitant des tests rigoureux, des attaques simulées continues et une modélisation contextuelle des menaces. La vraie sécurité exige non seulement une divulgation responsable, mais aussi une conception et un déploiement responsables'.
En savoir plus : Les Chatbots d'IA Deviennent Encore Pires pour Résumer les Données