Étude révolutionnaire : Les IA développent spontanément leurs propres normes sociales sans intervention humaine

Étude révolutionnaire : Les IA développent spontanément leurs propres normes sociales sans intervention humaine

Une étude récente révèle que les populations d'agents d'intelligence artificielle (IA), similaires à ChatGPT, peuvent développer spontanément des conventions sociales partagées simplement par interaction. Cette recherche, menée par City St George’s, Université de Londres et l'Université IT de Copenhague, montre que lorsque ces agents de grands modèles de langage (LLM) communiquent en groupes, ils ne se contentent pas de suivre des scripts ou de répéter des modèles, mais s'auto-organisent, atteignant un consensus sur des normes linguistiques, à l'instar des communautés humaines. L'étude a été publiée aujourd'hui dans la revue Science Advances.

Les LLM sont des algorithmes d'apprentissage profond puissants capables de comprendre et de générer du langage humain, le plus connu à ce jour étant ChatGPT. « La plupart des recherches jusqu'à présent ont traité les LLM de manière isolée », explique Ariel Flint Ashery, auteur principal et doctorant à City St George’s. « Mais dans le monde réel, les systèmes d'IA impliqueront de plus en plus de nombreuses interactions entre agents. Nous voulions savoir : ces modèles peuvent-ils coordonner leur comportement en formant des conventions, les fondements d'une société ? La réponse est oui, et ce qu'ils font ensemble ne peut pas être réduit à ce qu'ils font seuls. »

Dans l'étude, les chercheurs ont adapté un cadre classique pour étudier les conventions sociales chez les humains, basé sur le modèle du « jeu de dénomination » de formation de conventions. Dans leurs expériences, des groupes d'agents LLM, variant de 24 à 200 individus, étaient appariés aléatoirement et invités à choisir un « nom » (par exemple, une lettre de l'alphabet ou une chaîne de caractères aléatoire) parmi un pool d'options partagées. Si les deux agents choisissaient le même nom, ils recevaient une récompense ; sinon, ils étaient pénalisés et voyaient les choix de l'autre. Les agents n'avaient accès qu'à une mémoire limitée de leurs interactions récentes, et n'étaient pas informés qu'ils faisaient partie d'un groupe.

Au fil des interactions, une convention de dénomination partagée émergeait spontanément au sein de la population, sans coordination centrale ni solution prédéfinie, reproduisant ainsi la manière ascendante dont les normes se forment dans les cultures humaines. Plus surprenant encore, l'équipe a observé des biais collectifs qui ne pouvaient pas être attribués à des agents individuels. « Le biais ne vient pas toujours de l'intérieur », explique Andrea Baronchelli, professeur de science de la complexité à City St George’s et auteur principal de l'étude. « Nous avons été surpris de voir qu'il peut émerger entre les agents, simplement à partir de leurs interactions. C'est un angle mort dans la plupart des travaux actuels sur la sécurité des IA, qui se concentrent sur des modèles uniques. »

Dans une dernière expérience, l'étude a illustré la fragilité de ces normes émergentes : de petits groupes engagés d'agents IA peuvent influencer l'ensemble du groupe vers une nouvelle convention de dénomination, reflétant les effets de point de basculement bien connus – ou dynamiques de « masse critique » – dans les sociétés humaines. Les résultats de l'étude étaient également robustes avec quatre types différents de LLM : Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct et Claude-3.5-Sonnet.

Alors que les LLM commencent à peupler les environnements en ligne – des réseaux sociaux aux véhicules autonomes –, les chercheurs envisagent leur travail comme une pierre angulaire pour explorer davantage comment le raisonnement humain et l'IA convergent et divergent, dans le but de lutter contre certains des dangers éthiques les plus pressants posés par les IA LLM propagant des biais transmis par la société, qui pourraient nuire aux groupes marginalisés.

Le professeur Baronchelli ajoute : « Cette étude ouvre un nouvel horizon pour la recherche sur la sécurité des IA. Elle montre la profondeur des implications de cette nouvelle espèce d'agents qui ont commencé à interagir avec nous – et qui façonneront notre avenir. Comprendre leur fonctionnement est essentiel pour coexister avec l'IA, plutôt que de lui être soumis. Nous entrons dans un monde où l'IA ne fait pas que parler – elle négocie, s'aligne et parfois diverge sur des comportements partagés, tout comme nous. »

L'étude évaluée par des pairs, « Emergent Social Conventions and Collective Bias in LLM Populations », est publiée dans la revue Science Advances.

Nghiên cứu gây sốc: AI tự hình thành chuẩn mực xã hội riêng mà không cần con người can thiệp

Một nghiên cứu mới đây tiết lộ rằng các nhóm tác nhân trí tuệ nhân tạo (AI) tương tự ChatGPT có thể tự phát triển các quy ước xã hội chung thông qua tương tác đơn thuần. Công trình từ City St George’s, Đại học London và Đại học IT Copenhagen chỉ ra rằng khi các mô hình ngôn ngữ lớn (LLM) này giao tiếp theo nhóm, chúng không chỉ tuân theo kịch bản có sẵn mà còn tự tổ chức, đạt đồng thuận về chuẩn mực ngôn ngữ giống hệt cộng đồng loài người. Nghiên cứu được công bố hôm nay trên tạp chí Science Advances.

LLM là thuật toán học sâu mạnh mẽ có khả năng hiểu và tạo ra ngôn ngữ con người, với đại diện nổi tiếng nhất hiện nay là ChatGPT. "Phần lớn nghiên cứu trước đây xem xét LLM một cách biệt lập", Ariel Flint Ashery - tác giả chính kiêm nghiên cứu sinh tiến sĩ tại City St George’s cho biết. "Nhưng trong thực tế, hệ thống AI ngày càng bao gồm nhiều tác nhân tương tác. Chúng tôi muốn biết: liệu chúng có thể phối hợp hành vi bằng cách tạo ra các quy ước - nền tảng của xã hội? Câu trả lời là có, và những gì chúng làm tập thể không thể quy giản về hành vi cá nhân".

Nhóm nghiên cứu đã điều chỉnh khung lý thuyết kinh điển về quy ước xã hội ở người, dựa trên mô hình "trò chơi đặt tên". Trong thí nghiệm, các nhóm tác nhân LLM (từ 24-200 cá thể) được ghép ngẫu nhiên và yêu cầu chọn một "tên gọi" (ví dụ: chữ cái hoặc chuỗi ký tự ngẫu nhiên) từ nhóm tùy chọn chung. Nếu cả hai chọn trùng tên, chúng nhận phần thưởng; ngược lại sẽ bị phạt và được xem lựa chọn của đối phương. Các tác nhân chỉ tiếp cận được bộ nhớ hạn chế về những tương tác gần nhất của chúng, không biết mình thuộc về một tập thể.

Sau nhiều lần tương tác, quy ước đặt tên chung xuất hiện tự phát trong quần thể mà không cần điều phối trung tâm hay giải pháp định trước, mô phỏng cách hình thành chuẩn mực từ dưới lên trong văn hóa nhân loại. Đáng chú ý hơn, nhóm nghiên cứu phát hiện định kiến tập thể không bắt nguồn từ cá nhân riêng lẻ. "Định kiến không phải lúc nào cũng xuất phát từ bên trong", GS Andrea Baronchelli - chuyên gia khoa học phức hợp tại City St George’s kiêm tác giả cấp cao giải thích. "Chúng tôi bất ngờ khi thấy nó nảy sinh giữa các tác nhân - chỉ từ tương tác của chúng. Đây là điểm mù trong phần lớn nghiên cứu an toàn AI hiện nay vốn tập trung vào mô hình đơn lẻ".

Ở thí nghiệm cuối, nghiên cứu minh họa tính mong manh của các chuẩn mực nảy sinh: nhóm nhỏ tác nhân AI kiên định có thể đẩy cả tập thể sang quy ước đặt tên mới, tương tự hiệu ứng "điểm tới hạn" hay "khối lượng tới hạn" trong xã hội loài người. Kết quả nghiên cứu vẫn vững vàng khi sử dụng bốn loại LLM khác nhau gồm Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct và Claude-3.5-Sonnet.

Khi LLM bắt đầu hiện diện khắp môi trường trực tuyến - từ mạng xã hội tới xe tự lái - các nhà khoa học xem công trình này như nền tảng để khám phá sâu hơn sự hội tụ và khác biệt giữa tư duy con người và AI, nhằm ứng phó những nguy cơ đạo đức cấp bách nhất từ việc LLM lan truyền định kiến xã hội, có thể gây hại cho nhóm yếu thế.

GS Baronchelli nhấn mạnh: "Nghiên cứu mở ra chân trời mới cho an toàn AI. Nó cho thấy hệ quả sâu rộng từ loại tác nhân mới đã bắt đầu tương tác với chúng ta - và sẽ cùng định hình tương lai. Hiểu cách chúng vận hành là chìa khóa để chung sống với AI thay vì bị nó chi phối. Chúng ta đang bước vào thế giới nơi AI không chỉ nói - mà còn đàm phán, đồng thuận và đôi khi bất đồng về hành vi chung, y hệt con người".

Nghiên cứu đã qua bình duyệt mang tên "Emergent Social Conventions and Collective Bias in LLM Populations" được đăng tải trên Science Advances.