Une entreprise chinoise lance un benchmark IA en constante évolution pour évaluer le raisonnement des modèles
Une nouvelle approche pour évaluer les modèles d'intelligence artificielle vient de voir le jour en Chine. Le fonds de capital-risque HSG (Hongshan Capital Group) a développé Xbench, un benchmark innovant qui mesure non seulement les performances académiques des IA, mais aussi leur capacité à accomplir des tâches réelles. Contrairement aux tests traditionnels, Xbench évolue constamment pour rester pertinent et une partie de ses questions est désormais open-source. Ce système, créé en 2022 après le succès de ChatGPT, permet d'identifier les modèles les plus prometteurs pour les investissements. Xbench combine deux méthodes d'évaluation : un test académique (Xbench-ScienceQA) et une simulation d'entretien technique mesurant l'utilité économique. Le premier évalue les connaissances STEM au niveau postgraduate, tandis que le second (Xbench-DeepResearch) teste la capacité à naviguer le web chinois et à effectuer des recherches complexes. Actuellement, ChatGPT-03 domine le classement, suivi de près par Doubao (ByteDance), Gemini 2.5 Pro et Grok. L'équipe prévoit d'ajouter de nouvelles dimensions comme la créativité et la collaboration entre IA, tout en mettant à jour les questions trimestriellement. Pour les tâches professionnelles (recrutement et marketing), des scénarios réalistes ont été créés avec des experts. Par exemple, l'IA doit sélectionner des candidats ingénieurs ou associer des annonceurs à des créateurs de contenu. D'autres secteurs (finance, droit, comptabilité) sont en développement. Selon Zihan Zheng de NYU, bien qu'il soit complexe de quantifier ces compétences, Xbench représente une avancée prometteuse dans l'évaluation des IA.