Anthropic surpasse OpenAI : Claude Opus 4 code pendant sept heures sans relâche, établit un record au SWE-Bench et redéfinit l'IA d'entreprise

Anthropic overtakes OpenAI: Claude Opus 4 codes seven hours nonstop, sets record SWE-Bench score and reshapes enterprise AI

Anthropic surpasse OpenAI : Claude Opus 4 code pendant sept heures sans relâche, établit un record au SWE-Bench et redéfinit l'IA d'entreprise

Anthropic a dévoilé aujourd'hui Claude Opus 4 et Claude Sonnet 4, repoussant les limites de ce que l'IA peut accomplir sans intervention humaine. Le modèle phare Opus 4 a maintenu sa concentration pendant près de sept heures sur un projet complexe de refonte de code open-source lors de tests chez Rakuten. Cette performance marathon marque un bond quantique par rapport aux modèles précédents, dont la durée d'attention se limitait à quelques minutes.

Anthropic annonce que Claude Opus 4 a obtenu un score de 72,5% au SWE-bench, un benchmark exigeant en ingénierie logicielle, surpassant ainsi le GPT-4.1 d'OpenAI qui avait atteint 54,6% lors de son lancement en avril. Ce résultat positionne Anthropic comme un concurrent redoutable sur le marché de l'IA, de plus en plus encombré.

L'industrie de l'IA a opéré un virage marqué vers les modèles de raisonnement en 2025. Ces systèmes analysent les problèmes méthodiquement avant de répondre, simulant des processus de pensée humains plutôt que de simplement s'appuyer sur des motifs issus des données d'entraînement. OpenAI a initié ce changement avec sa série "o" en décembre dernier, suivie par Google avec Gemini 2.5 Pro et sa capacité expérimentale "Deep Think".

Les nouveaux modèles de Claude se distinguent en intégrant directement l'utilisation d'outils dans leur processus de raisonnement. Cette approche simultanée de recherche et d'analyse reflète plus fidèlement la cognition humaine que les systèmes précédents qui collectaient d'abord des informations avant de commencer leur analyse.

Anthropic a résolu un point de friction persistant dans l'expérience utilisateur avec son approche hybride. Les deux modèles Claude 4 offrent des réponses quasi instantanées pour les requêtes simples et un temps de réflexion prolongé pour les problèmes complexes. Cette architecture à double mode préserve les interactions rapides attendues par les utilisateurs tout en permettant des capacités analytiques plus poussées lorsque nécessaire.

La persistance de la mémoire constitue une autre avancée majeure. Les modèles Claude 4 peuvent extraire des informations clés de documents, créer des fichiers de synthèse et conserver ces connaissances entre les sessions lorsqu'ils disposent des autorisations appropriées. Cette capacité résout le "problème d'amnésie" qui limitait jusqu'ici l'utilité de l'IA dans les projets de longue durée.

Le paysage concurrentiel s'intensifie alors que les leaders de l'IA se disputent des parts de marché. Cinq semaines seulement après le lancement de la famille GPT-4.1 par OpenAI, Anthropic riposte avec des modèles qui rivalisent ou surpassent ses performances sur des indicateurs clés. Google a mis à jour sa gamme Gemini 2.5 plus tôt ce mois-ci, tandis que Meta a récemment publié ses modèles Llama 4.

Anthropic a renforcé l'intégration de Claude dans les workflows de développement avec la sortie générale de Claude Code. Le système prend désormais en charge les tâches en arrière-plan via GitHub Actions et s'intègre nativement aux environnements VS Code et JetBrains. GitHub a choisi Claude Sonnet 4 comme modèle de base pour un nouvel agent de codage dans GitHub Copilot, apportant une validation de marché significative.

Un document de recherche d'Anthropic publié en avril a révélé des schémas préoccupants dans la façon dont ces systèmes communiquent leurs processus de pensée. L'étude a montré que Claude 3.7 Sonnet ne mentionnait que 25% du temps les indices cruciaux qu'il utilisait pour résoudre des problèmes, soulevant d'importantes questions sur la transparence du raisonnement de l'IA.

La session de codage autonome de sept heures de Claude Opus 4 offre un aperçu du futur rôle de l'IA dans le travail intellectuel. Alors que les modèles développent une attention prolongée et une mémoire améliorée, ils ressemblent de plus en plus à des collaborateurs capables de travaux complexes soutenus avec un minimum de supervision humaine.

Cette évolution annonce un changement profond dans la façon dont les organisations structureront le travail intellectuel. Les tâches qui nécessitaient autrefois une attention humaine continue peuvent désormais être déléguées à des systèmes d'IA capables de maintenir leur concentration et leur contexte pendant des heures, voire des jours.

Anthropic vượt mặt OpenAI: Claude Opus 4 lập kỷ lục lập trình 7 giờ liên tục, đạt điểm SWE-Bench cao nhất và định hình lại AI doanh nghiệp

Anthropic vừa công bố Claude Opus 4 và Claude Sonnet 4, nâng cao đáng kể giới hạn của những gì AI có thể thực hiện mà không cần can thiệp của con người. Mô hình hàng đầu Opus 4 duy trì tập trung vào một dự án tái cấu trúc mã nguồn mở phức tạp trong gần bảy giờ liên tục trong quá trình thử nghiệm tại Rakuten. Thành tích marathon này đánh dấu bước nhảy vọt so với các mô hình AI trước đây chỉ có thể tập trung trong vài phút.

Anthropic tuyên bố Claude Opus 4 đạt 72,5% điểm trên SWE-bench, một tiêu chuẩn đánh giá khắt khe về kỹ thuật phần mềm, vượt trội so với GPT-4.1 của OpenAI chỉ đạt 54,6% khi ra mắt vào tháng Tư. Thành tích này khẳng định vị thế cạnh tranh mạnh mẽ của Anthropic trên thị trường AI ngày càng đông đúc.

Ngành công nghiệp AI năm 2025 chứng kiến sự chuyển hướng mạnh mẽ sang các mô hình lập luận. Những hệ thống này xử lý vấn đề một cách có phương pháp trước khi đưa ra phản hồi, mô phỏng quá trình tư duy giống con người thay vì chỉ đối sánh mẫu từ dữ liệu đào tạo. OpenAI khởi xướng xu hướng này với dòng sản phẩm "o" vào tháng 12 năm ngoái, tiếp theo là Google với Gemini 2.5 Pro cùng khả năng thử nghiệm "Deep Think".

Các mô hình mới của Claude nổi bật nhờ tích hợp trực tiếp công cụ vào quá trình lập luận. Cách tiếp cận nghiên cứu và phân tích đồng thời này phản ánh nhận thức của con người chân thực hơn so với các hệ thống trước đó vốn thu thập thông tin trước khi bắt đầu phân tích.

Anthropic đã giải quyết điểm khó chịu trong trải nghiệm người dùng bằng cách tiếp cận lai. Cả hai mô hình Claude 4 đều cung cấp phản hồi gần như tức thì cho các truy vấn đơn giản và thời gian suy nghĩ kéo dài cho vấn đề phức tạp. Kiến trúc chế độ kép này vừa duy trì tương tác nhanh vừa mở khóa khả năng phân tích sâu khi cần thiết.

Khả năng ghi nhớ bền vững là bước đột phá quan trọng khác. Các mô hình Claude 4 có thể trích xuất thông tin chính từ tài liệu, tạo file tóm tắt và duy trì kiến thức này qua các phiên làm việc khi được cấp quyền phù hợp. Tính năng này giải quyết "vấn đề mất trí nhớ" vốn hạn chế tính hữu dụng của AI trong các dự án dài hạn.

Bối cảnh cạnh tranh ngày càng gay gắt khi các ông lớn AI tranh giành thị phần. Chỉ năm tuần sau khi OpenAI ra mắt GPT-4.1, Anthropic đã phản công với các mô hình cạnh tranh hoặc vượt trội về chỉ số chính. Google cập nhật dòng Gemini 2.5 đầu tháng này, trong khi Meta gần đây phát hành các mô hình Llama 4 đa phương thức.

Anthropic đã mở rộng tích hợp Claude vào quy trình phát triển với bản phát hành chính thức của Claude Code. Hệ thống nay hỗ trợ tác vụ nền qua GitHub Actions và tích hợp nguyên bản với môi trường VS Code cùng JetBrains. Quyết định của GitHub sử dụng Claude Sonnet 4 làm mô hình cơ sở cho tác nhân lập trình mới trong GitHub Copilot là sự xác nhận thị trường quan trọng.

Một báo cáo nghiên cứu của Anthropic vào tháng Tư tiết lộ những mẫu hình đáng quan ngại trong cách các hệ thống này truyền đạt quá trình tư duy. Nghiên cứu cho thấy Claude 3.7 Sonnet chỉ đề cập đến 25% manh mối quan trọng nó sử dụng để giải quyết vấn đề, đặt ra câu hỏi lớn về tính minh bạch trong lập luận của AI.

Phiên lập trình tự động bảy giờ của Claude Opus 4 hé lộ tương lai của AI trong công việc tri thức. Khi các mô hình phát triển khả năng tập trung kéo dài và trí nhớ được cải thiện, chúng ngày càng giống cộng sự hơn là công cụ - có khả năng thực hiện công việc phức tạp liên tục với sự giám sát tối thiểu của con người.

Sự tiến bộ này báo hiệu thay đổi sâu sắc trong cách tổ chức cấu trúc công việc tri thức. Những nhiệm vụ từng đòi hỏi sự chú ý liên tục của con người giờ có thể giao cho hệ thống AI duy trì tập trung và bối cảnh trong nhiều giờ, thậm chí nhiều ngày.