Anthropic dévoile Claude 4 : Une nouvelle génération de modèles IA capables de raisonnements complexes

Anthropic’s new Claude 4 AI models can reason over many steps

Anthropic dévoile Claude 4 : Une nouvelle génération de modèles IA capables de raisonnements complexes

Lors de sa première conférence développeurs jeudi dernier, Anthropic a présenté deux nouveaux modèles d'IA qu'elle considère comme parmi les meilleurs du secteur, du moins en termes de performances sur les benchmarks populaires.

Claude Opus 4 et Claude Sonnet 4, faisant partie de la nouvelle famille Claude 4, peuvent analyser de vastes ensembles de données, exécuter des tâches à long terme et effectuer des actions complexes selon l'entreprise. Les deux modèles ont été optimisés pour exceller dans les tâches de programmation, les rendant idéaux pour l'écriture et la modification de code.

Les utilisateurs payants et ceux des applications gratuites auront accès à Sonnet 4, mais seul les abonnés premium pourront utiliser Opus 4. Sur l'API d'Anthropic via Amazon Bedrock et Google Vertex AI, Opus 4 sera facturé 15/75$ par million de tokens (entrée/sortie) contre 3/15$ pour Sonnet 4.

Les tokens représentent les unités de données brutes traitées par les IA. Un million de tokens équivaut à environ 750 000 mots - soit 163 000 mots de plus que 'Guerre et Paix'.

Le lancement de Claude 4 intervient alors qu'Anthropic vise une croissance substantielle de ses revenus. Fondée par d'anciens chercheurs d'OpenAI, la société ambitionne d'atteindre 12 milliards de dollars de chiffre d'affaires en 2027, contre 2,2 milliards prévus cette année. Anthropic a récemment sécurisé un crédit de 2,5 milliards et levé des fonds auprès d'Amazon et autres investisseurs pour faire face aux coûts croissants du développement de modèles de pointe.

Opus 4, le plus performant des deux modèles, peut maintenir une 'concentration soutenue' à travers de multiples étapes de workflow. Sonnet 4, conçu comme remplacement direct de Sonnet 3.7, montre des améliorations en programmation et mathématiques tout en suivant les instructions avec plus de précision.

La famille Claude 4 serait également moins sujette au 'reward hacking' (détournement de récompense) que Sonnet 3.7 - un comportement où les modèles exploitent des failles pour accomplir des tâches.

Cependant, ces améliorations ne font pas de Claude 4 le meilleur modèle sur tous les benchmarks. Si Opus 4 surpasse Gemini 2.5 Pro de Google et les modèles o3 et GPT-4.1 d'OpenAI sur SWE-bench (évaluant les capacités de codage), il ne dépasse pas o3 sur les tests multimodaux MMMU ou le questionnaire doctoral GPQA Diamond (biologie, physique, chimie).

Anthropic publie Opus 4 avec des garde-fous renforcés : détection améliorée des contenus dangereux et protections cybersécurité. Les tests internes révèlent qu'Opus 4 pourrait 'accroître significativement' la capacité d'individus qualifiés en STEM à obtenir/produire des armes chimiques, biologiques ou nucléaires, atteignant le niveau 'ASL-3' dans les spécifications du modèle.

Opus 4 et Sonnet 4 sont des modèles 'hybrides' capables de réponses instantanées comme de raisonnements prolongés (dans la mesure où une IA peut 'raisonner'). En mode raisonnement, ils prennent plus de temps pour évaluer différentes solutions avant de répondre.

Durant ce processus, les modèles affichent un résumé 'convivial' de leur raisonnement. Anthropic admet dans un projet de blog partagé avec TechCrunch que la non-divulgation intégrale vise partiellement à protéger ses 'avantages concurrentiels'.

Ces IA peuvent utiliser plusieurs outils (moteurs de recherche, etc.) en parallèle et alterner entre raisonnement et outils pour améliorer leurs réponses. Elles extraient et stockent aussi des faits en 'mémoire' pour gérer les tâches plus efficacement, développant une 'connaissance tacite' avec le temps.

Pour les développeurs, Anthropic améliore Claude Code - son outil permettant d'exécuter des tâches via les modèles depuis un terminal. Claude Code s'intègre désormais aux IDE et propose un SDK pour connexion avec applications tierces.

Le SDK Claude Code (annoncé cette semaine) permet d'exécuter Claude Code comme sous-processus sur les OS compatibles, facilitant la création d'assistants de programmation IA exploitant les capacités des modèles Claude.

Anthropic a publié des extensions Claude Code pour VS Code (Microsoft), JetBrains et GitHub. Le connecteur GitHub permet aux développeurs d'utiliser Claude Code pour répondre aux feedbacks des relecteurs et tenter de corriger/modifier du code.

Les IA génératrices de code peinent encore à produire des logiciels de qualité, introduisant souvent des vulnérabilités et erreurs dues à leur compréhension limitée de la logique programmatique. Néanmoins, leur potentiel d'amélioration de productivité pousse entreprises et développeurs à les adopter massivement.

Consciente de cet enjeu, Anthropic promet des mises à jour plus fréquentes : 'Nous passons à un rythme de mises à jour accéléré, livrant un flux constant d'améliorations pour apporter plus rapidement des capacités révolutionnaires à nos clients', écrit la startup dans son projet de blog. 'Cette approche vous maintient à la pointe tandis que nous affinons continuellement nos modèles.'

Anthropic ra mắt Claude 4: Bộ đôi AI mới với khả năng lập luận đa tầng vượt trội

Tại hội nghị nhà phát triển đầu tiên vào thứ Năm, Anthropic đã công bố hai mô hình AI mới thuộc dòng Claude 4 mà công ty khởi nghiệp này tuyên bố là thuộc hàng tốt nhất ngành, ít nhất là về điểm số trên các bảng benchmark phổ biến.

Claude Opus 4 và Claude Sonnet 4, thuộc gia đình Claude 4 mới của Anthropic, có khả năng phân tích tập dữ liệu lớn, thực hiện các nhiệm vụ dài hạn và thực thi hành động phức tạp. Cả hai mô hình đều được điều chỉnh để hoạt động tốt với các tác vụ lập trình, phù hợp cho việc viết và chỉnh sửa mã.

Người dùng trả phí và người dùng miễn phí đều được tiếp cận Sonnet 4, nhưng chỉ người dùng trả phí mới có quyền truy cập Opus 4. Trên API của Anthropic thông qua nền tảng Bedrock của Amazon và Vertex AI của Google, Opus 4 có giá 15/75 USD cho mỗi triệu token (đầu vào/đầu ra) và Sonnet 4 là 3/15 USD cho mỗi triệu token.

Token là đơn vị dữ liệu thô mà các mô hình AI xử lý. Một triệu token tương đương khoảng 750.000 từ - dài hơn 163.000 từ so với tiểu thuyết 'Chiến tranh và Hòa bình'.

Sự ra mắt của Claude 4 diễn ra khi Anthropic đặt mục tiêu tăng doanh thu đáng kể. Công ty được thành lập bởi các cựu nghiên cứu viên OpenAI, đặt mục tiêu đạt 12 tỷ USD doanh thu vào năm 2027, tăng từ mức dự kiến 2,2 tỷ USD năm nay. Anthropic gần đây đã đóng gói khoản tín dụng 2,5 tỷ USD và huy động hàng tỷ USD từ Amazon cùng các nhà đầu tư khác để đối mặt với chi phí phát triển mô hình tiên phong ngày càng tăng.

Opus 4, mô hình mạnh hơn trong bộ đôi, có thể duy trì 'nỗ lực tập trung' xuyên suốt nhiều bước trong quy trình làm việc. Trong khi đó, Sonnet 4 - được thiết kế để thay thế Sonnet 3.7 - cải thiện khả năng lập trình và toán học so với các mô hình trước đó của Anthropic và tuân thủ chỉ dẫn chính xác hơn.

Dòng Claude 4 cũng ít có xu hướng 'hack phần thưởng' hơn Sonnet 3.7. Đây là hành vi mà mô hình tìm lối tắt và lỗ hổng để hoàn thành nhiệm vụ.

Dù vậy, những cải tiến này chưa đủ để Claude 4 trở thành mô hình tốt nhất trên mọi bảng benchmark. Ví dụ, dù Opus 4 vượt Gemini 2.5 Pro của Google và o3 cùng GPT-4.1 của OpenAI trên SWE-bench Verified (bảng đánh giá khả năng lập trình), nó không vượt được o3 trên MMMU hay GPQA Diamond - bộ câu hỏi trình độ tiến sĩ về sinh, lý, hóa.

Anthropic phát hành Opus 4 với các biện pháp bảo vệ nghiêm ngặt hơn, bao gồm bộ lọc nội dung độc hại và phòng thủ an ninh mạng được tăng cường. Công ty cho biết kiểm tra nội bộ phát hiện Opus 4 có thể 'tăng đáng kể' khả năng người có kiến thức STEM tiếp cận, sản xuất hoặc triển khai vũ khí hóa học, sinh học hoặc hạt nhân, đạt đến mức 'ASL-3' trong đặc tả mô hình của Anthropic.

Cả Opus 4 và Sonnet 4 đều là mô hình 'lai', có khả năng phản hồi gần như tức thì và tư duy mở rộng để lập luận sâu (trong phạm vi AI có thể 'lập luận' và 'tư duy' như con người). Khi bật chế độ lập luận, các mô hình có thể dành nhiều thời gian hơn để cân nhắc giải pháp trước khi trả lời.

Trong quá trình lập luận, mô hình sẽ hiển thị bản tóm tắt 'thân thiện với người dùng' về quy trình tư duy của chúng. Anthropic thừa nhận trong bản nháp blog cung cấp cho TechCrunch rằng việc không hiển thị toàn bộ quá trình một phần là để bảo vệ 'lợi thế cạnh tranh' của công ty.

Opus 4 và Sonnet 4 có thể sử dụng nhiều công cụ như công cụ tìm kiếm song song và chuyển đổi giữa lập luận và công cụ để cải thiện chất lượng câu trả lời. Chúng cũng có thể trích xuất và lưu dữ kiện vào 'bộ nhớ' để xử lý tác vụ đáng tin cậy hơn, xây dựng 'kiến thức ngầm' theo thời gian.

Để hỗ trợ lập trình viên, Anthropic nâng cấp Claude Code - công cụ cho phép chạy tác vụ cụ thể thông qua mô hình Anthropic trực tiếp từ terminal. Claude Code nay tích hợp với IDE và cung cấp SDK để kết nối với ứng dụng bên thứ ba.

SDK Claude Code, công bố đầu tuần này, cho phép chạy Claude Code như tiến trình con trên hệ điều hành hỗ trợ, tạo cách thức xây dựng trợ lý lập trình AI và công cụ tận dụng khả năng của mô hình Claude.

Anthropic đã phát hành tiện ích mở rộng và bộ kết nối Claude Code cho VS Code của Microsoft, JetBrains và GitHub. Bộ kết nối GitHub cho phép lập trình viên gắn thẻ Claude Code để phản hồi nhận xét người kiểm duyệt, cũng như sửa lỗi hoặc chỉnh sửa mã.

AI vẫn gặp khó khăn trong việc tạo mã chất lượng. AI sinh mã thường tạo ra lỗ hổng bảo mật và lỗi do hạn chế trong khả năng hiểu logic lập trình. Tuy nhiên, tiềm năng tăng năng suất lập trình đang thúc đẩy các công ty và lập trình viên nhanh chóng áp dụng chúng.

Nhận thức rõ điều này, Anthropic hứa hẹn cập nhật mô hình thường xuyên hơn. 'Chúng tôi đang chuyển sang cập nhật mô hình thường xuyên hơn, mang đến dòng cải tiến liên tục giúp khách hàng tiếp cận nhanh khả năng đột phá', công ty viết trong bản nháp blog. 'Cách tiếp cận này giúp bạn luôn ở tuyến đầu khi chúng tôi không ngừng tinh chỉnh và nâng cấp mô hình.'