ChatGPT dévoile son nouvel agent IA : navigation web et création de présentations PowerPoint automatisées

ChatGPT’s new AI agent can browse the web and create PowerPoint slideshows

ChatGPT dévoile son nouvel agent IA : navigation web et création de présentations PowerPoint automatisées

OpenAI a lancé jeudi dernier ChatGPT Agent, une nouvelle fonctionnalité permettant à son assistant IA d'accomplir des tâches multi-étapes en contrôlant son propre navigateur web. Cette mise à jour combine les capacités de l'outil Operator et de la fonctionnalité Deep Research, offrant à ChatGPT la possibilité de naviguer sur des sites, d'exécuter du code et de créer des documents tout en laissant aux utilisateurs le contrôle du processus. Ce lancement marque l'entrée d'OpenAI dans le domaine des "IA agentiques", des systèmes capables d'effectuer des actions autonomes et complexes pour le compte des utilisateurs.

Selon OpenAI, ChatGPT Agent peut gérer des demandes variées comme assembler et acheter une tenue vestimentaire pour une occasion spécifique, créer des présentations PowerPoint, planifier des repas ou mettre à jour des feuilles de calcul financières. Le système utilise une combinaison de navigateurs web, d'accès terminal et de connexions API, incluant des "Connecteurs ChatGPT" intégrés à des applications comme Gmail et GitHub. Les utilisateurs peuvent observer toutes les actions de l'IA via une fenêtre dédiée dans l'interface ChatGPT, fonctionnant dans un sandbox privé doté de son propre système d'exploitation virtuel et d'un navigateur web connecté à Internet.

OpenAI précise que "ChatGPT exécute ces tâches en utilisant son propre ordinateur virtuel, alternant fluidement entre raisonnement et action pour gérer des workflows complexes de bout en bout, basés sur les instructions de l'utilisateur". À l'instar d'Operator, cette nouvelle fonctionnalité requiert l'autorisation de l'utilisateur pour les actions ayant des conséquences réelles, comme effectuer des achats. Les utilisateurs peuvent interrompre les tâches à tout moment, reprendre le contrôle du navigateur ou arrêter complètement les opérations. Un "Mode Surveillance" est également disponible pour les tâches critiques comme l'envoi d'emails.

Avec des capacités supérieures à Operator, OpenAI prévoit de maintenir le site de prévisualisation d'Operator actif pendant quelques semaines avant sa fermeture définitive. Cependant, les performances réelles de ChatGPT Agent varieront considérablement selon les situations. Bien qu'OpenAI affirme que son agent atteint des performances de pointe selon ses propres benchmarks, des tests indépendants restent nécessaires pour confirmer ces dires. Par exemple, lors d'une évaluation "Cyber Range", l'agent s'est révélé incapable de mener à bien une opération complexe dans un réseau simulé, malgré sa capacité à effectuer des recherches préliminaires.

Malgré ces limites, ChatGPT Agent montre des résultats prometteurs sur certains benchmarks. Il atteint 41,6% de précision sur le test "Humanity's Last Exam" (contre 24,9% pour OpenAI o3 avec outils) et 27,4% sur FrontierMath, l'un des benchmarks mathématiques les plus difficiles (contre 19,3% pour o3 avec Python). Ces performances, bien qu'impressionnantes, soulignent que l'agent reste avant tout un imitateur complexe, avec des capacités limitées face à des problèmes nécessitant une approche véritablement novatrice.

ChatGPT ra mắt AI Agent mới: Duyệt web tự động và thiết kế slide PowerPoint thông minh

OpenAI đã chính thức ra mắt tính năng ChatGPT Agent vào thứ Năm tuần trước, cho phép trợ lý AI của họ thực hiện các tác vụ đa bước bằng cách tự điều khiển trình duyệt web. Bản cập nhật này kết hợp khả năng từ công cụ Operator trước đây và tính năng Deep Research, giúp ChatGPT có thể duyệt website, chạy mã code và tạo tài liệu trong khi người dùng vẫn kiểm soát toàn bộ quá trình. Đây là bước tiến mới nhất của OpenAI vào lĩnh vực "AI agentic" - những hệ thống có khả năng tự động thực hiện chuỗi hành động phức tạp thay mặt người dùng.

Theo OpenAI, ChatGPT Agent có thể xử lý các yêu cầu đa dạng như lựa chọn và mua sắm trang phục cho sự kiện cụ thể, thiết kế slide PowerPoint, lên kế hoạch bữa ăn hay cập nhật dữ liệu tài chính. Hệ thống sử dụng kết hợp trình duyệt web, truy cập terminal và kết nối API, bao gồm cả "ChatGPT Connectors" tích hợp với các ứng dụng như Gmail và GitHub. Người dùng có thể quan sát mọi hành động của AI thông qua cửa sổ riêng trong giao diện ChatGPT, hoạt động trong môi trường sandbox an toàn với hệ điều hành ảo và trình duyệt web riêng biệt.

OpenAI nhấn mạnh: "ChatGPT thực hiện các tác vụ này bằng máy tính ảo của chính nó, chuyển đổi linh hoạt giữa lập luận và hành động để xử lý quy trình phức tạp từ đầu đến cuối, dựa trên hướng dẫn của người dùng". Giống như Operator trước đây, tính năng mới yêu cầu sự cho phép của người dùng trước khi thực hiện các hành động có tác động thực tế như mua sắm. Người dùng có thể tạm dừng tác vụ bất cứ lúc nào, kiểm soát trình duyệt hoặc dừng hoàn toàn hoạt động. Chế độ "Giám sát" cũng được trang bị cho các tác vụ nhạy cảm như gửi email.

Với khả năng vượt trội so với Operator, OpenAI cho biết sẽ duy trì trang preview của Operator thêm vài tuần trước khi đóng cửa hoàn toàn. Tuy nhiên, hiệu suất thực tế của ChatGPT Agent sẽ thay đổi đáng kể tùy tình huống. Mặc dù OpenAI tuyên bố agent đạt hiệu suất đỉnh cao theo benchmark nội bộ, vẫn cần kiểm chứng độc lập. Trong bài đánh giá "Cyber Range", agent đã thất bại khi thực hiện chiến dịch phức tạp trong mạng lưới mô phỏng, dù có thể hoàn thành các bước nghiên cứu ban đầu.

Dù vậy, ChatGPT Agent vẫn cho thấy kết quả ấn tượng trên một số benchmark cụ thể: đạt 41.6% độ chính xác trên bài kiểm tra "Humanity's Last Exam" (so với 24.9% của OpenAI o3 khi dùng công cụ) và 27.4% trên FrontierMath - một trong những benchmark toán học khó nhất (so với 19.3% của o3 dùng Python). Những con số này khẳng định agent là bước tiến đáng kể, đồng thời cũng cho thấy giới hạn của nó khi đối mặt với vấn đề đòi hỏi tư duy thực sự sáng tạo.