ChatGPT dévoile son nouvel agent IA : navigation web et création de présentations PowerPoint automatisées
OpenAI a lancé jeudi dernier ChatGPT Agent, une nouvelle fonctionnalité permettant à son assistant IA d'accomplir des tâches multi-étapes en contrôlant son propre navigateur web. Cette mise à jour combine les capacités de l'outil Operator et de la fonctionnalité Deep Research, offrant à ChatGPT la possibilité de naviguer sur des sites, d'exécuter du code et de créer des documents tout en laissant aux utilisateurs le contrôle du processus. Ce lancement marque l'entrée d'OpenAI dans le domaine des "IA agentiques", des systèmes capables d'effectuer des actions autonomes et complexes pour le compte des utilisateurs.
Selon OpenAI, ChatGPT Agent peut gérer des demandes variées comme assembler et acheter une tenue vestimentaire pour une occasion spécifique, créer des présentations PowerPoint, planifier des repas ou mettre à jour des feuilles de calcul financières. Le système utilise une combinaison de navigateurs web, d'accès terminal et de connexions API, incluant des "Connecteurs ChatGPT" intégrés à des applications comme Gmail et GitHub. Les utilisateurs peuvent observer toutes les actions de l'IA via une fenêtre dédiée dans l'interface ChatGPT, fonctionnant dans un sandbox privé doté de son propre système d'exploitation virtuel et d'un navigateur web connecté à Internet.
OpenAI précise que "ChatGPT exécute ces tâches en utilisant son propre ordinateur virtuel, alternant fluidement entre raisonnement et action pour gérer des workflows complexes de bout en bout, basés sur les instructions de l'utilisateur". À l'instar d'Operator, cette nouvelle fonctionnalité requiert l'autorisation de l'utilisateur pour les actions ayant des conséquences réelles, comme effectuer des achats. Les utilisateurs peuvent interrompre les tâches à tout moment, reprendre le contrôle du navigateur ou arrêter complètement les opérations. Un "Mode Surveillance" est également disponible pour les tâches critiques comme l'envoi d'emails.
Avec des capacités supérieures à Operator, OpenAI prévoit de maintenir le site de prévisualisation d'Operator actif pendant quelques semaines avant sa fermeture définitive. Cependant, les performances réelles de ChatGPT Agent varieront considérablement selon les situations. Bien qu'OpenAI affirme que son agent atteint des performances de pointe selon ses propres benchmarks, des tests indépendants restent nécessaires pour confirmer ces dires. Par exemple, lors d'une évaluation "Cyber Range", l'agent s'est révélé incapable de mener à bien une opération complexe dans un réseau simulé, malgré sa capacité à effectuer des recherches préliminaires.
Malgré ces limites, ChatGPT Agent montre des résultats prometteurs sur certains benchmarks. Il atteint 41,6% de précision sur le test "Humanity's Last Exam" (contre 24,9% pour OpenAI o3 avec outils) et 27,4% sur FrontierMath, l'un des benchmarks mathématiques les plus difficiles (contre 19,3% pour o3 avec Python). Ces performances, bien qu'impressionnantes, soulignent que l'agent reste avant tout un imitateur complexe, avec des capacités limitées face à des problèmes nécessitant une approche véritablement novatrice.