Anthropic surpasse OpenAI : Claude Opus 4 code pendant sept heures sans relâche, établit un record au SWE-Bench et redéfinit l'IA d'entreprise
Anthropic a dévoilé aujourd'hui Claude Opus 4 et Claude Sonnet 4, repoussant les limites de ce que l'IA peut accomplir sans intervention humaine. Le modèle phare Opus 4 a maintenu sa concentration pendant près de sept heures sur un projet complexe de refonte de code open-source lors de tests chez Rakuten. Cette performance marathon marque un bond quantique par rapport aux modèles précédents, dont la durée d'attention se limitait à quelques minutes.
Anthropic annonce que Claude Opus 4 a obtenu un score de 72,5% au SWE-bench, un benchmark exigeant en ingénierie logicielle, surpassant ainsi le GPT-4.1 d'OpenAI qui avait atteint 54,6% lors de son lancement en avril. Ce résultat positionne Anthropic comme un concurrent redoutable sur le marché de l'IA, de plus en plus encombré.
L'industrie de l'IA a opéré un virage marqué vers les modèles de raisonnement en 2025. Ces systèmes analysent les problèmes méthodiquement avant de répondre, simulant des processus de pensée humains plutôt que de simplement s'appuyer sur des motifs issus des données d'entraînement. OpenAI a initié ce changement avec sa série "o" en décembre dernier, suivie par Google avec Gemini 2.5 Pro et sa capacité expérimentale "Deep Think".
Les nouveaux modèles de Claude se distinguent en intégrant directement l'utilisation d'outils dans leur processus de raisonnement. Cette approche simultanée de recherche et d'analyse reflète plus fidèlement la cognition humaine que les systèmes précédents qui collectaient d'abord des informations avant de commencer leur analyse.
Anthropic a résolu un point de friction persistant dans l'expérience utilisateur avec son approche hybride. Les deux modèles Claude 4 offrent des réponses quasi instantanées pour les requêtes simples et un temps de réflexion prolongé pour les problèmes complexes. Cette architecture à double mode préserve les interactions rapides attendues par les utilisateurs tout en permettant des capacités analytiques plus poussées lorsque nécessaire.
La persistance de la mémoire constitue une autre avancée majeure. Les modèles Claude 4 peuvent extraire des informations clés de documents, créer des fichiers de synthèse et conserver ces connaissances entre les sessions lorsqu'ils disposent des autorisations appropriées. Cette capacité résout le "problème d'amnésie" qui limitait jusqu'ici l'utilité de l'IA dans les projets de longue durée.
Le paysage concurrentiel s'intensifie alors que les leaders de l'IA se disputent des parts de marché. Cinq semaines seulement après le lancement de la famille GPT-4.1 par OpenAI, Anthropic riposte avec des modèles qui rivalisent ou surpassent ses performances sur des indicateurs clés. Google a mis à jour sa gamme Gemini 2.5 plus tôt ce mois-ci, tandis que Meta a récemment publié ses modèles Llama 4.
Anthropic a renforcé l'intégration de Claude dans les workflows de développement avec la sortie générale de Claude Code. Le système prend désormais en charge les tâches en arrière-plan via GitHub Actions et s'intègre nativement aux environnements VS Code et JetBrains. GitHub a choisi Claude Sonnet 4 comme modèle de base pour un nouvel agent de codage dans GitHub Copilot, apportant une validation de marché significative.
Un document de recherche d'Anthropic publié en avril a révélé des schémas préoccupants dans la façon dont ces systèmes communiquent leurs processus de pensée. L'étude a montré que Claude 3.7 Sonnet ne mentionnait que 25% du temps les indices cruciaux qu'il utilisait pour résoudre des problèmes, soulevant d'importantes questions sur la transparence du raisonnement de l'IA.
La session de codage autonome de sept heures de Claude Opus 4 offre un aperçu du futur rôle de l'IA dans le travail intellectuel. Alors que les modèles développent une attention prolongée et une mémoire améliorée, ils ressemblent de plus en plus à des collaborateurs capables de travaux complexes soutenus avec un minimum de supervision humaine.
Cette évolution annonce un changement profond dans la façon dont les organisations structureront le travail intellectuel. Les tâches qui nécessitaient autrefois une attention humaine continue peuvent désormais être déléguées à des systèmes d'IA capables de maintenir leur concentration et leur contexte pendant des heures, voire des jours.