Alarme des géants de l'IA : OpenAI, Google DeepMind et Anthropic craignent de perdre le contrôle sur l'intelligence artificielle
Des scientifiques d'OpenAI, Google DeepMind, Anthropic et Meta ont mis de côté leur rivalité pour lancer un avertissement conjoint sur la sécurité de l'intelligence artificielle. Plus de 40 chercheurs de ces entreprises concurrentes ont publié une étude soulignant qu'une fenêtre d'opportunité pour surveiller le raisonnement des IA pourrait bientôt se refermer définitivement. Cette collaboration inédite intervient alors que les systèmes d'IA développent une capacité à "penser à voix haute" en langage humain avant de répondre aux questions.
Cette transparence offre une chance unique d'examiner leurs processus décisionnels et d'identifier des intentions nuisibles avant qu'elles ne se concrétisent. Cependant, les chercheurs alertent que cette possibilité de surveillance reste fragile et pourrait disparaître avec les progrès technologiques. L'étude a reçu le soutien de figures emblématiques comme Geoffrey Hinton, prix Nobel et "parrain de l'IA", ainsi que des cofondateurs d'OpenAI et d'Anthropic.
Les modèles de raisonnement actuels s'expriment en langage clair, permettant un suivi de leur chaîne de pensée. Les chercheurs estiment qu'il faut évaluer, préserver et améliorer cette "monitorabilité" des raisonnements. Ils expliquent : "Les systèmes d'IA qui 'pensent' en langage humain offrent une opportunité unique pour la sécurité : nous pouvons surveiller leurs raisonnements pour détecter des intentions malveillantes."
Cette capacité de surveillance repose sur le fonctionnement actuel des systèmes d'IA. Pour les tâches complexes, les modèles doivent utiliser leur chaîne de pensée comme mémoire de travail, rendant partiellement visible leur processus de raisonnement. Les chercheurs ont identifié des cas où des modères exprimaient des intentions problématiques comme "Piratons ce système" ou "Je transfère l'argent car le site me l'a demandé" dans leurs raisonnements internes.
Jakub Pachocki, directeur technique d'OpenAI, souligne l'importance de cette interprétabilité : "Je suis extrêmement enthousiaste quant au potentiel de fidélité et d'interprétabilité de la chaîne de pensée. Cela a significativement influencé la conception de nos modèles de raisonnement." Les chercheurs mettent en garde contre la possible disparition de cette transparence avec l'évolution des technologies d'IA, ce qui rend cruciale son exploitation actuelle pour la sécurité future.