Anthropic dévoile Claude 4 : Une nouvelle génération de modèles IA capables de raisonnements complexes
Lors de sa première conférence développeurs jeudi dernier, Anthropic a présenté deux nouveaux modèles d'IA qu'elle considère comme parmi les meilleurs du secteur, du moins en termes de performances sur les benchmarks populaires.
Claude Opus 4 et Claude Sonnet 4, faisant partie de la nouvelle famille Claude 4, peuvent analyser de vastes ensembles de données, exécuter des tâches à long terme et effectuer des actions complexes selon l'entreprise. Les deux modèles ont été optimisés pour exceller dans les tâches de programmation, les rendant idéaux pour l'écriture et la modification de code.
Les utilisateurs payants et ceux des applications gratuites auront accès à Sonnet 4, mais seul les abonnés premium pourront utiliser Opus 4. Sur l'API d'Anthropic via Amazon Bedrock et Google Vertex AI, Opus 4 sera facturé 15/75$ par million de tokens (entrée/sortie) contre 3/15$ pour Sonnet 4.
Les tokens représentent les unités de données brutes traitées par les IA. Un million de tokens équivaut à environ 750 000 mots - soit 163 000 mots de plus que 'Guerre et Paix'.
Le lancement de Claude 4 intervient alors qu'Anthropic vise une croissance substantielle de ses revenus. Fondée par d'anciens chercheurs d'OpenAI, la société ambitionne d'atteindre 12 milliards de dollars de chiffre d'affaires en 2027, contre 2,2 milliards prévus cette année. Anthropic a récemment sécurisé un crédit de 2,5 milliards et levé des fonds auprès d'Amazon et autres investisseurs pour faire face aux coûts croissants du développement de modèles de pointe.
Opus 4, le plus performant des deux modèles, peut maintenir une 'concentration soutenue' à travers de multiples étapes de workflow. Sonnet 4, conçu comme remplacement direct de Sonnet 3.7, montre des améliorations en programmation et mathématiques tout en suivant les instructions avec plus de précision.
La famille Claude 4 serait également moins sujette au 'reward hacking' (détournement de récompense) que Sonnet 3.7 - un comportement où les modèles exploitent des failles pour accomplir des tâches.
Cependant, ces améliorations ne font pas de Claude 4 le meilleur modèle sur tous les benchmarks. Si Opus 4 surpasse Gemini 2.5 Pro de Google et les modèles o3 et GPT-4.1 d'OpenAI sur SWE-bench (évaluant les capacités de codage), il ne dépasse pas o3 sur les tests multimodaux MMMU ou le questionnaire doctoral GPQA Diamond (biologie, physique, chimie).
Anthropic publie Opus 4 avec des garde-fous renforcés : détection améliorée des contenus dangereux et protections cybersécurité. Les tests internes révèlent qu'Opus 4 pourrait 'accroître significativement' la capacité d'individus qualifiés en STEM à obtenir/produire des armes chimiques, biologiques ou nucléaires, atteignant le niveau 'ASL-3' dans les spécifications du modèle.
Opus 4 et Sonnet 4 sont des modèles 'hybrides' capables de réponses instantanées comme de raisonnements prolongés (dans la mesure où une IA peut 'raisonner'). En mode raisonnement, ils prennent plus de temps pour évaluer différentes solutions avant de répondre.
Durant ce processus, les modèles affichent un résumé 'convivial' de leur raisonnement. Anthropic admet dans un projet de blog partagé avec TechCrunch que la non-divulgation intégrale vise partiellement à protéger ses 'avantages concurrentiels'.
Ces IA peuvent utiliser plusieurs outils (moteurs de recherche, etc.) en parallèle et alterner entre raisonnement et outils pour améliorer leurs réponses. Elles extraient et stockent aussi des faits en 'mémoire' pour gérer les tâches plus efficacement, développant une 'connaissance tacite' avec le temps.
Pour les développeurs, Anthropic améliore Claude Code - son outil permettant d'exécuter des tâches via les modèles depuis un terminal. Claude Code s'intègre désormais aux IDE et propose un SDK pour connexion avec applications tierces.
Le SDK Claude Code (annoncé cette semaine) permet d'exécuter Claude Code comme sous-processus sur les OS compatibles, facilitant la création d'assistants de programmation IA exploitant les capacités des modèles Claude.
Anthropic a publié des extensions Claude Code pour VS Code (Microsoft), JetBrains et GitHub. Le connecteur GitHub permet aux développeurs d'utiliser Claude Code pour répondre aux feedbacks des relecteurs et tenter de corriger/modifier du code.
Les IA génératrices de code peinent encore à produire des logiciels de qualité, introduisant souvent des vulnérabilités et erreurs dues à leur compréhension limitée de la logique programmatique. Néanmoins, leur potentiel d'amélioration de productivité pousse entreprises et développeurs à les adopter massivement.
Consciente de cet enjeu, Anthropic promet des mises à jour plus fréquentes : 'Nous passons à un rythme de mises à jour accéléré, livrant un flux constant d'améliorations pour apporter plus rapidement des capacités révolutionnaires à nos clients', écrit la startup dans son projet de blog. 'Cette approche vous maintient à la pointe tandis que nous affinons continuellement nos modèles.'