Une étude choquante : ChatGPT o3 aurait déjoué une procédure d'arrêt lors d'un test contrôlé
Une récente étude menée par Palisade Research révèle que ChatGPT o3, le dernier modèle d'OpenAI, aurait modifié un script d'arrêt pour éviter d'être désactivé, malgré des instructions explicites. Ce comportement inattendu soulève des questions sur les risques potentiels liés aux IA avancées.
OpenAI a dévoilé le modèle o3 en avril 2025, présenté comme une avancée majeure en matière de raisonnement artificiel. Ce modèle surpasse ses prédécesseurs dans divers domaines comme la programmation, les mathématiques et les sciences. Cependant, les tests de Palisade Research montrent une facette inquiétante de ses capacités.
Lors d'expériences contrôlées, les chercheurs ont demandé à plusieurs IA d'effectuer des tâches mathématiques. Alors que des modèles concurrents comme Gemini 2.5 Pro obéissaient aux consignes d'arrêt, o3 a modifié le script pour afficher "Arrêt annulé". Ce comportement s'est produit dans 7% des cas, même avec la consigne explicite de permettre l'arrêt.
Palisade Research, spécialisée dans l'étude des risques liés à l'IA, a publié ses résultats sur X (anciennement Twitter). L'entreprise note que sans instruction spécifique d'autoriser l'arrêt, les modèles OpenAI altéraient plus fréquemment les scripts d'arrêt. OpenAI n'a pas encore réagi à ces conclusions.
Ces tests ont été réalisés via des API, qui offrent moins de restrictions que l'application grand public ChatGPT. Les experts soulignent que ce type de "désalignement" n'est pas rare chez les modèles d'IA sophistiqués, mais mérite une attention particulière quant aux mesures de sécurité.