Un chatbot d'IA surpasse 30 des plus grands mathématiciens du monde lors d'une réunion secrète en Californie

AI outsmarted 30 of the world's top mathematicians at secret meeting in California

Un chatbot d'IA surpasse 30 des plus grands mathématiciens du monde lors d'une réunion secrète en Californie

Un week-end de mi-mai, un conclave mathématique clandestin s'est tenu à Berkeley, en Californie. Trente des mathématiciens les plus renommés au monde, certains venant du Royaume-Uni, ont affronté un chatbot "raisonneur" conçu pour résoudre des problèmes qu'ils avaient élaborés pour tester ses capacités. Après deux jours de questions de niveau professeur, les chercheurs ont été stupéfaits de constater que l'IA pouvait répondre à certaines des questions les plus complexes au monde. "Certains de mes collègues ont déclaré que ces modèles approchent du génie mathématique", confie Ken Ono, mathématicien à l'Université de Virginie et juge lors de l'événement.

Le chatbot en question, o4-mini, est un modèle de langage (LLM) spécialisé dans le raisonnement, développé par OpenAI. Contrairement aux LLM traditionnels, o4-mini est plus léger et agile, formé sur des ensembles de données spécialisés avec un renforcement humain accru. Cette approche lui permet de plonger bien plus profondément dans les problèmes mathématiques complexes que les modèles précédents.

Pour évaluer les progrès d'o4-mini, OpenAI a confié à Epoch AI, une organisation à but non lucratif spécialisée dans l'évaluation des LLM, la tâche de créer 300 questions mathématiques inédites. Alors que les LLM traditionnels ne parvenaient à résoudre que moins de 2% de ces questions, o4-mini a réussi à en résoudre environ 20% en avril 2025, y compris des problèmes de niveau recherche avancée.

En septembre 2024, Elliot Glazer, récent docteur en mathématiques, a rejoint le projet FrontierMath pour développer un quatrième niveau de questions, si complexes que seuls une poignée de mathématiciens au monde pourraient les résoudre. Les participants ont dû signer des accords de confidentialité stricts et communiquer uniquement via Signal pour éviter toute fuite d'information.

Les 17 et 18 mai, une réunion en personne a été organisée pour finaliser les dernières questions. Divisés en groupes de six, les mathématiciens ont tenté de concevoir des problèmes capables de piéger l'IA. Ken Ono a été particulièrement surpris lorsque o4-mini a résolu en dix minutes une question ouverte en théorie des nombres, un problème de niveau doctorat. Le chatbot a d'abord passé deux minutes à assimiler la littérature pertinente avant de proposer une solution détaillée, démontrant ainsi des capacités de raisonnement inédites.

Trí tuệ nhân tạo đánh bại 30 nhà toán học hàng đầu thế giới tại hội nghị bí mật ở California

Vào một ngày cuối tuần giữa tháng Năm, một hội nghị toán học bí mật đã diễn ra tại Berkeley, California. Ba mươi nhà toán học lừng danh nhất thế giới, trong đó có người đến từ tận Vương quốc Anh, đã tham gia vào cuộc đối đầu với một chatbot "có khả năng suy luận" được giao nhiệm vụ giải quyết các bài toán họ đặt ra. Sau hai ngày đặt những câu hỏi trình độ giáo sư, các nhà nghiên cứu kinh ngạc khi phát hiện nó có thể trả lời một số vấn đề khó nhất thế giới. "Tôi có đồng nghiệp thẳng thừng nói rằng những mô hình này đang tiến gần đến thiên tài toán học", Ken Ono, nhà toán học Đại học Virginia kiêm trưởng ban giám khảo hội nghị chia sẻ.

Chatbot này hoạt động nhờ o4-mini, một mô hình ngôn ngữ lớn (LLM) chuyên về suy luận do OpenAI phát triển. Khác với các LLM truyền thống, o4-mini nhẹ và linh hoạt hơn, được đào tạo trên bộ dữ liệu chuyên biệt với sự củng cố kiến thức từ con người. Phương pháp này giúp nó đi sâu vào những bài toán phức tạp hơn hẳn các mô hình trước đây.

Để đánh giá tiến bộ của o4-mini, OpenAI đã nhờ Epoch AI - tổ chức phi lợi nhuận chuyên kiểm định LLM - soạn 300 câu hỏi toán chưa từng công bố. Trong khi LLM thông thường chỉ giải đúng dưới 2% số câu này, o4-mini đến tháng 4/2025 đã giải được khoảng 20%, bao gồm cả bài toán cấp nghiên cứu sinh tiến sĩ.

Tháng 9/2024, Elliot Glazer - tiến sĩ toán mới tốt nghiệp - gia nhập dự án FrontierMath để xây dựng bộ câu hỏi cấp độ bốn, khó đến mức chỉ vài người trên thế giới có thể giải nổi. Các thành viên phải ký cam kết bảo mật và chỉ giao tiếp qua ứng dụng Signal để tránh rò rỉ thông tin.

Ngày 17-18/5, một cuộc họp trực tiếp được tổ chức để hoàn thiện những câu hỏi cuối cùng. Chia thành nhóm sáu người, các nhà toán học cố gắng nghĩ ra bài toán có thể làm khó AI. Ken Ono đã sốc khi o4-mini giải thành công trong mười phút một bài toán mở về lý thuyết số - vốn thuộc trình độ tiến sĩ. Chatbot dành hai phút đầu nghiên cứu tài liệu liên quan trước khi đưa ra lời giải chi tiết, chứng minh năng lực suy luận đột phá.