Un chatbot d'IA surpasse 30 des plus grands mathématiciens du monde lors d'une réunion secrète en Californie
Un week-end de mi-mai, un conclave mathématique clandestin s'est tenu à Berkeley, en Californie. Trente des mathématiciens les plus renommés au monde, certains venant du Royaume-Uni, ont affronté un chatbot "raisonneur" conçu pour résoudre des problèmes qu'ils avaient élaborés pour tester ses capacités. Après deux jours de questions de niveau professeur, les chercheurs ont été stupéfaits de constater que l'IA pouvait répondre à certaines des questions les plus complexes au monde. "Certains de mes collègues ont déclaré que ces modèles approchent du génie mathématique", confie Ken Ono, mathématicien à l'Université de Virginie et juge lors de l'événement.
Le chatbot en question, o4-mini, est un modèle de langage (LLM) spécialisé dans le raisonnement, développé par OpenAI. Contrairement aux LLM traditionnels, o4-mini est plus léger et agile, formé sur des ensembles de données spécialisés avec un renforcement humain accru. Cette approche lui permet de plonger bien plus profondément dans les problèmes mathématiques complexes que les modèles précédents.
Pour évaluer les progrès d'o4-mini, OpenAI a confié à Epoch AI, une organisation à but non lucratif spécialisée dans l'évaluation des LLM, la tâche de créer 300 questions mathématiques inédites. Alors que les LLM traditionnels ne parvenaient à résoudre que moins de 2% de ces questions, o4-mini a réussi à en résoudre environ 20% en avril 2025, y compris des problèmes de niveau recherche avancée.
En septembre 2024, Elliot Glazer, récent docteur en mathématiques, a rejoint le projet FrontierMath pour développer un quatrième niveau de questions, si complexes que seuls une poignée de mathématiciens au monde pourraient les résoudre. Les participants ont dû signer des accords de confidentialité stricts et communiquer uniquement via Signal pour éviter toute fuite d'information.
Les 17 et 18 mai, une réunion en personne a été organisée pour finaliser les dernières questions. Divisés en groupes de six, les mathématiciens ont tenté de concevoir des problèmes capables de piéger l'IA. Ken Ono a été particulièrement surpris lorsque o4-mini a résolu en dix minutes une question ouverte en théorie des nombres, un problème de niveau doctorat. Le chatbot a d'abord passé deux minutes à assimiler la littérature pertinente avant de proposer une solution détaillée, démontrant ainsi des capacités de raisonnement inédites.