Odyssey révolutionne le streaming vidéo avec un modèle IA générant des mondes 3D interactifs en temps réel
Odyssey, une startup fondée par les pionniers de la conduite autonome Oliver Cameron et Jeff Hawke, a développé un modèle d'IA permettant aux utilisateurs d'"interagir" avec des vidéos en streaming. Disponible sur le web dans une "démo précoce", ce modèle génère et diffuse des images vidéo toutes les 40 millisecondes. Grâce à des commandes basiques, les spectateurs peuvent explorer des zones dans une vidéo, à la manière d'un jeu vidéo en 3D.
"Compte tenu de l'état actuel du monde, d'une action entrante et d'un historique d'états et d'actions, le modèle tente de prédire l'état suivant du monde", explique Odyssey dans un billet de blog. "Cela est rendu possible par un nouveau modèle de monde, démontrant des capacités telles que la génération de pixels réalistes, le maintien de la cohérence spatiale, l'apprentissage d'actions à partir de vidéos et la production de flux vidéo cohérents pendant 5 minutes ou plus."
Plusieurs startups et géants de la tech, dont DeepMind, World Labs de Fei-Fei Li, Microsoft et Decart, se lancent dans la course aux modèles de monde. Ces derniers pourraient un jour servir à créer des médias interactifs comme des jeux et des films, ou à exécuter des simulations réalistes pour l'entraînement de robots. Cependant, les professionnels du divertissement restent partagés sur cette technologie.
Une enquête récente de Wired a révélé que des studios comme Activision Blizzard, qui a licencié des dizaines d'employés, utilisent l'IA pour réduire les coûts et lutter contre l'attrition. Une étude de 2024 commandée par l'Animation Guild estime que plus de 100 000 emplois dans le cinéma, la télévision et l'animation aux États-Unis seront perturbés par l'IA dans les mois à venir.
Odyssey promet de collaborer avec les professionnels créatifs plutôt que de les remplacer. "La vidéo interactive ouvre la porte à de nouvelles formes de divertissement, où les histoires peuvent être générées et explorées à la demande, libérées des contraintes et des coûts de la production traditionnelle", écrit la société. "À terme, nous croyons que tout ce qui est vidéo aujourd'hui – divertissement, publicités, éducation, formation, voyage, etc. – évoluera vers la vidéo interactive, alimentée par Odyssey."
La démo d'Odyssey présente encore des imperfections, comme l'admettent ses créateurs. Les environnements générés sont flous, déformés et instables, avec des dispositions qui changent parfois brusquement. Cependant, la startup promet des améliorations rapides. Le modèle peut actuellement diffuser des vidéos à 30 images par seconde grâce à des clusters de GPU Nvidia H100, pour un coût de 1 à 2 dollars par "heure utilisateur".
Odyssey adopte une approche unique dans le domaine des modèles de monde. Elle a conçu un système de caméra à 360° monté sur un sac à dos pour capturer des paysages réels, censés servir de base à des modèles plus qualitatifs que ceux entraînés uniquement sur des données publiques. À ce jour, Odyssey a levé 27 millions de dollars auprès d'investisseurs comme EQT Ventures, GV et Air Street Capital. Ed Catmull, cofondateur de Pixar et ancien président de Walt Disney Animation Studios, siège à son conseil d'administration.
En décembre dernier, Odyssey a annoncé travailler sur un logiciel permettant aux créateurs d'importer des scènes générées par ses modèles dans des outils comme Unreal Engine, Blender et Adobe After Effects pour les modifier manuellement.