Les Modèles d'IA Peinent Encore à Raisonner – Voici Pourquoi
Malgré des prouesses remarquables, les modèles d'IA actuels éprouvent des difficultés dans le raisonnement logique approfondi, notamment face à des contextes nouveaux ou des problèmes complexes. De récentes études révèlent que les benchmarks traditionnels comme GSM8K ne mesureraient pas réellement la capacité de raisonnement de l'IA, mais refléteraient plutôt sa capacité à mémoriser et à imiter des schémas.
Le problème des benchmarks actuels
GSM8K, un ensemble de problèmes mathématiques largement utilisé pour évaluer l'IA, affiche souvent une précision supérieure à 90%. Cependant, une étude d'Apple démontre qu'en modifiant les noms et valeurs numériques des problèmes (via GSM-Symbolic), la performance des mêmes modèles chute considérablement. Cela prouve que l'IA manque d'adaptabilité, bien que la logique sous-jacente reste identique.
Le Dr Matthew Yip, concepteur d'évaluations mathématiques chez GMMO, souligne : 'Nous récompensons l'IA pour sa capacité à répéter des données d'entraînement, pas à raisonner à partir de principes fondamentaux.'
Un constat alarmant
Sur UTMath (1 053 problèmes formulés en tests unitaires), les meilleurs modèles ne résolvent que 32,57% des cas. Pire encore, avec FrontierMath (des centaines de problèmes complexes conçus par 60 mathématiciens), le taux de réussite de l'IA plafonne à moins de 2%. Cela soulève des doutes sur sa fiabilité dans des domaines critiques comme la santé ou la finance.
Des implications plus larges
Gary Marcus, scientifique cognitif, alerte : 'Les tests étroits donnent une illusion de progrès.' Une dépendance excessive à des benchmarks peu rigoureux pourrait conduire à des risques lors du déploiement réel de l'IA, surtout dans des secteurs exigeant un raisonnement complexe comme la recherche scientifique.
Des solutions pour progresser
Le Dr Yip propose 5 pistes d'amélioration : 1. Évaluation processus : Noter chaque étape du raisonnement, pas seulement le résultat final. 2. Variantes adverses : Générer en continu de nouveaux problèmes exploitant les faiblesses connues. 3. Tests multidisciplinaires : Combiner maths, langage et programmation dans un même benchmark. 4. Validation experte : Faire vérifier par des humains le raisonnement des modèles. 5. Évolution dynamique : Actualiser régulièrement les problèmes pour éviter l'obsolescence.
L'avenir de l'IA
Yip conclut : 'La prochaine vague d'IA sera jugée sur sa capacité à résoudre des problèmes inédits, pas sur des tests dépassés.' Pour y parvenir, il faut concevoir des benchmarks axés sur la flexibilité mentale plutôt que sur le simple par cœur.