OpenAI dévoile o3-pro, une version surpuissante de son modèle d'IA raisonné o3

OpenAI releases o3-pro, a souped-up version of its o3 AI reasoning model

OpenAI dévoile o3-pro, une version surpuissante de son modèle d'IA raisonné o3

OpenAI a lancé o3-pro, un modèle d'IA présenté comme le plus performant à ce jour par l'entreprise. Cette version améliorée du modèle raisonné o3, introduit plus tôt cette année, se distingue par sa capacité à résoudre les problèmes étape par étape, offrant ainsi une fiabilité accrue dans des domaines comme la physique, les mathématiques et la programmation.

Dès ce mardi, o3-pro est disponible pour les utilisateurs de ChatGPT Pro et Team, remplaçant ainsi le modèle o1-pro. Les utilisateurs Enterprise et Edu devront patienter une semaine supplémentaire avant d'y accéder. Parallèlement, OpenAI a intégré o3-pro à son API développeur dès cet après-midi.

Tarifé à 20$ par million de tokens en entrée et 80$ par million en sortie, o3-pro traite environ 750 000 mots pour un million de tokens d'entrée - soit l'équivalent de 'Guerre et Paix'. Les tokens d'entrée représentent les données fournies au modèle, tandis que les tokens de sortie correspondent aux réponses générées.

Selon OpenAI, les évaluations expertes plébiscitent o3-pro face à o3 dans toutes les catégories testées, particulièrement en sciences, éducation, programmation, affaires et aide rédactionnelle. Le modèle excelle également en clarté, exhaustivité, suivi des instructions et précision.

O3-pro intègre des fonctionnalités avancées : recherche web, analyse de fichiers, raisonnement visuel, utilisation de Python et personnalisation des réponses via mémoire. Cependant, OpenAI note un temps de réponse plus long comparé à o1-pro.

Parmi les limites actuelles : les chats temporaires dans ChatGPT sont temporairement désactivés pour résoudre un problème technique. O3-pro ne génère pas d'images et ne prend pas en charge Canvas, l'espace de travail intelligent d'OpenAI.

Les tests internes révèlent des performances impressionnantes : o3-pro surpasse Gemini 2.5 Pro de Google sur le test AIME 2024 (évaluation des compétences mathématiques) et devance Claude 4 Opus d'Anthropic sur GPQA Diamond (test de connaissances scientifiques niveau doctorat).

OpenAI ra mắt o3-pro - phiên bản nâng cấp vượt trội của mô hình lập luận AI o3

OpenAI vừa chính thức ra mắt o3-pro, mô hình AI được công ty đánh giá là mạnh mẽ nhất từ trước đến nay. Đây là phiên bản nâng cấp từ o3 - mô hình lập luận AI mà startup này giới thiệu đầu năm. Khác với các mô hình AI thông thường, mô hình lập luận giải quyết vấn đề theo từng bước, giúp nâng cao độ tin cậy trong các lĩnh vực như vật lý, toán học và lập trình.

Bắt đầu từ thứ Ba này, o3-pro sẽ có mặt cho người dùng ChatGPT Pro và Team, thay thế cho mô hình o1-pro trước đó. Người dùng doanh nghiệp (Enterprise) và giáo dục (Edu) sẽ được tiếp cận sau đó một tuần. Song song đó, OpenAI cũng đã tích hợp o3-pro vào API dành cho nhà phát triển từ chiều nay.

Về giá cả, o3-pro được định mức 20$ cho mỗi triệu token đầu vào và 80$ cho triệu token đầu ra. Một triệu token đầu vào tương đương khoảng 750.000 từ - dài hơn một chút so với tiểu thuyết 'Chiến tranh và Hòa bình'. Token đầu vào là dữ liệu cung cấp cho mô hình, trong khi token đầu ra là phản hồi được tạo ra.

Theo đánh giá chuyên gia được OpenAI công bố, o3-pro vượt trội hơn o3 trên mọi phương diện, đặc biệt ở các lĩnh vực then chốt như khoa học, giáo dục, lập trình, kinh doanh và hỗ trợ viết lách. Mô hình mới cũng được đánh giá cao hơn về độ rõ ràng, toàn diện, khả năng tuân thủ hướng dẫn và độ chính xác.

O3-pro được trang bị nhiều công cụ mạnh mẽ: tìm kiếm web, phân tích file, lập luận hình ảnh, sử dụng Python, và cá nhân hóa phản hồi nhờ bộ nhớ. Tuy nhiên, OpenAI thừa nhận thời gian phản hồi của o3-pro thường lâu hơn so với o1-pro.

Hiện mô hình này có một số hạn chế: tính năng chat tạm thời trên ChatGPT tạm ngưng để khắc phục sự cố kỹ thuật, không thể tạo ảnh và chưa hỗ trợ Canvas - tính năng không gian làm việc AI của OpenAI.

Kết quả kiểm tra nội bộ cho thấy o3-pro đạt điểm ấn tượng trong các bài benchmark AI phổ biến. Trên AIME 2024 (đánh giá năng lực toán học), o3-pro vượt trội hơn Gemini 2.5 Pro của Google. Mô hình này cũng đánh bại Claude 4 Opus của Anthropic trong bài kiểm tra kiến thức khoa học cấp tiến sĩ GPQA Diamond.