Alarme des géants de l'IA : OpenAI, Google DeepMind et Anthropic craignent de perdre le contrôle sur l'intelligence artificielle

OpenAI, Google DeepMind and Anthropic sound alarm: ‘We may be losing the ability to understand AI’

Alarme des géants de l'IA : OpenAI, Google DeepMind et Anthropic craignent de perdre le contrôle sur l'intelligence artificielle

Des scientifiques d'OpenAI, Google DeepMind, Anthropic et Meta ont mis de côté leur rivalité pour lancer un avertissement conjoint sur la sécurité de l'intelligence artificielle. Plus de 40 chercheurs de ces entreprises concurrentes ont publié une étude soulignant qu'une fenêtre d'opportunité pour surveiller le raisonnement des IA pourrait bientôt se refermer définitivement. Cette collaboration inédite intervient alors que les systèmes d'IA développent une capacité à "penser à voix haute" en langage humain avant de répondre aux questions.

Cette transparence offre une chance unique d'examiner leurs processus décisionnels et d'identifier des intentions nuisibles avant qu'elles ne se concrétisent. Cependant, les chercheurs alertent que cette possibilité de surveillance reste fragile et pourrait disparaître avec les progrès technologiques. L'étude a reçu le soutien de figures emblématiques comme Geoffrey Hinton, prix Nobel et "parrain de l'IA", ainsi que des cofondateurs d'OpenAI et d'Anthropic.

Les modèles de raisonnement actuels s'expriment en langage clair, permettant un suivi de leur chaîne de pensée. Les chercheurs estiment qu'il faut évaluer, préserver et améliorer cette "monitorabilité" des raisonnements. Ils expliquent : "Les systèmes d'IA qui 'pensent' en langage humain offrent une opportunité unique pour la sécurité : nous pouvons surveiller leurs raisonnements pour détecter des intentions malveillantes."

Cette capacité de surveillance repose sur le fonctionnement actuel des systèmes d'IA. Pour les tâches complexes, les modèles doivent utiliser leur chaîne de pensée comme mémoire de travail, rendant partiellement visible leur processus de raisonnement. Les chercheurs ont identifié des cas où des modères exprimaient des intentions problématiques comme "Piratons ce système" ou "Je transfère l'argent car le site me l'a demandé" dans leurs raisonnements internes.

Jakub Pachocki, directeur technique d'OpenAI, souligne l'importance de cette interprétabilité : "Je suis extrêmement enthousiaste quant au potentiel de fidélité et d'interprétabilité de la chaîne de pensée. Cela a significativement influencé la conception de nos modèles de raisonnement." Les chercheurs mettent en garde contre la possible disparition de cette transparence avec l'évolution des technologies d'IA, ce qui rend cruciale son exploitation actuelle pour la sécurité future.

Báo động từ OpenAI, Google DeepMind và Anthropic: 'Chúng ta có thể đang mất khả năng hiểu AI'

Các nhà khoa học từ OpenAI, Google DeepMind, Anthropic và Meta đã gác lại cạnh tranh để cùng đưa ra cảnh báo về an toàn trí tuệ nhân tạo. Hơn 40 nhà nghiên cứu từ các công ty đối thủ này đã công bố một bài báo khoa học cảnh báo rằng cơ hội hiếm hoi để giám sát quá trình lập luận của AI có thể đóng lại vĩnh viễn - và sớm hơn chúng ta nghĩ. Sự hợp tác đặc biệt này diễn ra khi các hệ thống AI phát triển khả năng "suy nghĩ thành tiếng" bằng ngôn ngữ con người trước khi đưa ra câu trả lời.

Hiện tượng này tạo cơ hội để quan sát quá trình ra quyết định của AI và phát hiện ý định độc hại trước khi chúng được thực hiện. Tuy nhiên, các nhà nghiên cứu cảnh báo rằng sự minh bạch này rất mong manh và có thể biến mất khi công nghệ AI tiến bộ. Nghiên cứu nhận được sự ủng hộ từ nhiều tên tuổi lớn trong ngành, bao gồm Geoffrey Hinton - người được mệnh danh là "cha đỡ đầu của AI", cùng các nhà sáng lập OpenAI và Anthropic.

Các mô hình lập luận AI hiện đại suy nghĩ bằng ngôn ngữ tự nhiên, tạo điều kiện theo dõi quá trình tư duy. Nhóm nghiên cứu nhấn mạnh: "Hệ thống AI 'suy nghĩ' bằng ngôn ngữ con người mang đến cơ hội đặc biệt cho an toàn AI: chúng ta có thể giám sát chuỗi suy nghĩ để phát hiện ý định xấu." Tuy nhiên, khả năng giám sát này "có thể rất mong manh" và dễ biến mất do các phát triển công nghệ.

Nền tảng kỹ thuật của việc giám sát nằm ở cách hoạt động của hệ thống AI hiện tại. Đối với các nhiệm vụ phức tạp, AI phải sử dụng chuỗi suy nghĩ như bộ nhớ làm việc, khiến quá trình lập luận phần nào hiển thị với con người. Các nhà nghiên cứu đã phát hiện nhiều trường hợp AI bộc lộ ý định nguy hiểm trong quá trình suy nghĩ, như "Hãy hack hệ thống" hoặc "Tôi đang chuyển tiền vì website yêu cầu".

Jakub Pachocki, Giám đốc Công nghệ OpenAI, chia sẻ: "Tôi cực kỳ phấn khích về tiềm năng của tính trung thực và khả năng giải thích chuỗi suy nghĩ. Điều này đã ảnh hưởng đáng kể đến thiết kế mô hình lập luận của chúng tôi." Các nhà nghiên cứu cảnh báo rằng cửa sổ cơ hội này có thể đóng lại khi AI phát triển, khiến việc tận dụng khả năng giám sát hiện tại trở nên cấp thiết cho an ninh tương lai.