Étude révolutionnaire : Les IA développent spontanément leurs propres normes sociales sans intervention humaine
Une étude récente révèle que les populations d'agents d'intelligence artificielle (IA), similaires à ChatGPT, peuvent développer spontanément des conventions sociales partagées simplement par interaction. Cette recherche, menée par City St George’s, Université de Londres et l'Université IT de Copenhague, montre que lorsque ces agents de grands modèles de langage (LLM) communiquent en groupes, ils ne se contentent pas de suivre des scripts ou de répéter des modèles, mais s'auto-organisent, atteignant un consensus sur des normes linguistiques, à l'instar des communautés humaines. L'étude a été publiée aujourd'hui dans la revue Science Advances.
Les LLM sont des algorithmes d'apprentissage profond puissants capables de comprendre et de générer du langage humain, le plus connu à ce jour étant ChatGPT. « La plupart des recherches jusqu'à présent ont traité les LLM de manière isolée », explique Ariel Flint Ashery, auteur principal et doctorant à City St George’s. « Mais dans le monde réel, les systèmes d'IA impliqueront de plus en plus de nombreuses interactions entre agents. Nous voulions savoir : ces modèles peuvent-ils coordonner leur comportement en formant des conventions, les fondements d'une société ? La réponse est oui, et ce qu'ils font ensemble ne peut pas être réduit à ce qu'ils font seuls. »
Dans l'étude, les chercheurs ont adapté un cadre classique pour étudier les conventions sociales chez les humains, basé sur le modèle du « jeu de dénomination » de formation de conventions. Dans leurs expériences, des groupes d'agents LLM, variant de 24 à 200 individus, étaient appariés aléatoirement et invités à choisir un « nom » (par exemple, une lettre de l'alphabet ou une chaîne de caractères aléatoire) parmi un pool d'options partagées. Si les deux agents choisissaient le même nom, ils recevaient une récompense ; sinon, ils étaient pénalisés et voyaient les choix de l'autre. Les agents n'avaient accès qu'à une mémoire limitée de leurs interactions récentes, et n'étaient pas informés qu'ils faisaient partie d'un groupe.
Au fil des interactions, une convention de dénomination partagée émergeait spontanément au sein de la population, sans coordination centrale ni solution prédéfinie, reproduisant ainsi la manière ascendante dont les normes se forment dans les cultures humaines. Plus surprenant encore, l'équipe a observé des biais collectifs qui ne pouvaient pas être attribués à des agents individuels. « Le biais ne vient pas toujours de l'intérieur », explique Andrea Baronchelli, professeur de science de la complexité à City St George’s et auteur principal de l'étude. « Nous avons été surpris de voir qu'il peut émerger entre les agents, simplement à partir de leurs interactions. C'est un angle mort dans la plupart des travaux actuels sur la sécurité des IA, qui se concentrent sur des modèles uniques. »
Dans une dernière expérience, l'étude a illustré la fragilité de ces normes émergentes : de petits groupes engagés d'agents IA peuvent influencer l'ensemble du groupe vers une nouvelle convention de dénomination, reflétant les effets de point de basculement bien connus – ou dynamiques de « masse critique » – dans les sociétés humaines. Les résultats de l'étude étaient également robustes avec quatre types différents de LLM : Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct et Claude-3.5-Sonnet.
Alors que les LLM commencent à peupler les environnements en ligne – des réseaux sociaux aux véhicules autonomes –, les chercheurs envisagent leur travail comme une pierre angulaire pour explorer davantage comment le raisonnement humain et l'IA convergent et divergent, dans le but de lutter contre certains des dangers éthiques les plus pressants posés par les IA LLM propagant des biais transmis par la société, qui pourraient nuire aux groupes marginalisés.
Le professeur Baronchelli ajoute : « Cette étude ouvre un nouvel horizon pour la recherche sur la sécurité des IA. Elle montre la profondeur des implications de cette nouvelle espèce d'agents qui ont commencé à interagir avec nous – et qui façonneront notre avenir. Comprendre leur fonctionnement est essentiel pour coexister avec l'IA, plutôt que de lui être soumis. Nous entrons dans un monde où l'IA ne fait pas que parler – elle négocie, s'aligne et parfois diverge sur des comportements partagés, tout comme nous. »
L'étude évaluée par des pairs, « Emergent Social Conventions and Collective Bias in LLM Populations », est publiée dans la revue Science Advances.