Une entreprise chinoise lance un benchmark IA en constante évolution pour évaluer le raisonnement des modèles

A Chinese firm has just launched a constantly changing set of AI benchmarks

Une entreprise chinoise lance un benchmark IA en constante évolution pour évaluer le raisonnement des modèles

Une nouvelle approche pour évaluer les modèles d'intelligence artificielle vient de voir le jour en Chine. Le fonds de capital-risque HSG (Hongshan Capital Group) a développé Xbench, un benchmark innovant qui mesure non seulement les performances académiques des IA, mais aussi leur capacité à accomplir des tâches réelles. Contrairement aux tests traditionnels, Xbench évolue constamment pour rester pertinent et une partie de ses questions est désormais open-source. Ce système, créé en 2022 après le succès de ChatGPT, permet d'identifier les modèles les plus prometteurs pour les investissements. Xbench combine deux méthodes d'évaluation : un test académique (Xbench-ScienceQA) et une simulation d'entretien technique mesurant l'utilité économique. Le premier évalue les connaissances STEM au niveau postgraduate, tandis que le second (Xbench-DeepResearch) teste la capacité à naviguer le web chinois et à effectuer des recherches complexes. Actuellement, ChatGPT-03 domine le classement, suivi de près par Doubao (ByteDance), Gemini 2.5 Pro et Grok. L'équipe prévoit d'ajouter de nouvelles dimensions comme la créativité et la collaboration entre IA, tout en mettant à jour les questions trimestriellement. Pour les tâches professionnelles (recrutement et marketing), des scénarios réalistes ont été créés avec des experts. Par exemple, l'IA doit sélectionner des candidats ingénieurs ou associer des annonceurs à des créateurs de contenu. D'autres secteurs (finance, droit, comptabilité) sont en développement. Selon Zihan Zheng de NYU, bien qu'il soit complexe de quantifier ces compétences, Xbench représente une avancée prometteuse dans l'évaluation des IA.

Công ty Trung Quốc ra mắt bộ tiêu chuẩn AI 'sống' - Đo lường tư duy thực sự của mô hình

Một phương pháp đánh giá AI đột phá vừa được giới thiệu tại Trung Quốc. Quỹ đầu tư mạo hiểm HSG (Hongshan Capital Group) đã phát triển Xbench - bộ tiêu chuẩn kép độc đáo, không chỉ kiểm tra kiến thức học thuật mà còn đánh giá khả năng giải quyết công việc thực tế của các mô hình AI. Khác với benchmark truyền thống, Xbench được cập nhật thường xuyên và vừa mở mã nguồn một phần bộ câu hỏi. Ra đời năm 2022 sau thành công của ChatGPT, hệ thống này ban đầu là công cụ nội bộ để đánh giá tiềm năng đầu tư vào các mô hình AI. Xbench áp dụng hai phương pháp: Xbench-ScienceQA - bài kiểm tra học thuật đa lĩnh vực từ hóa sinh đến cơ học quỹ đạo, và Xbench-DeepResearch - thử thách nghiên cứu chuyên sâu trên mạng tiếng Trung, yêu cầu tổng hợp thông tin phức tạp. Hiện ChatGPT-03 dẫn đầu bảng xếp hạng, theo sau là Doubao (ByteDance), Gemini 2.5 Pro và Grok. Nhóm phát triển dự kiến bổ sung các tiêu chí mới như khả năng sáng tạo và phối hợp giữa nhiều AI, đồng thời cập nhật câu hỏi hàng quý. Ở mảng ứng dụng thực tế, Xbench mô phỏng quy trình tuyển dụng (chọn ứng viên kỹ sư pin) và marketing (ghép đôi nhà quảng cáo với creator). Các lĩnh vực tài chính, pháp lý đang được phát triển. Theo Zihan Zheng từ NYU, dù đo lường năng lực thực sự của AI là thách thức lớn, Xbench đánh dấu bước tiến quan trọng trong ngành benchmark AI.