Odyssey révolutionne le streaming vidéo avec un modèle IA générant des mondes 3D interactifs en temps réel

Odyssey’s new AI model streams 3D interactive worlds

Odyssey révolutionne le streaming vidéo avec un modèle IA générant des mondes 3D interactifs en temps réel

Odyssey, une startup fondée par les pionniers de la conduite autonome Oliver Cameron et Jeff Hawke, a développé un modèle d'IA permettant aux utilisateurs d'"interagir" avec des vidéos en streaming. Disponible sur le web dans une "démo précoce", ce modèle génère et diffuse des images vidéo toutes les 40 millisecondes. Grâce à des commandes basiques, les spectateurs peuvent explorer des zones dans une vidéo, à la manière d'un jeu vidéo en 3D.

"Compte tenu de l'état actuel du monde, d'une action entrante et d'un historique d'états et d'actions, le modèle tente de prédire l'état suivant du monde", explique Odyssey dans un billet de blog. "Cela est rendu possible par un nouveau modèle de monde, démontrant des capacités telles que la génération de pixels réalistes, le maintien de la cohérence spatiale, l'apprentissage d'actions à partir de vidéos et la production de flux vidéo cohérents pendant 5 minutes ou plus."

Plusieurs startups et géants de la tech, dont DeepMind, World Labs de Fei-Fei Li, Microsoft et Decart, se lancent dans la course aux modèles de monde. Ces derniers pourraient un jour servir à créer des médias interactifs comme des jeux et des films, ou à exécuter des simulations réalistes pour l'entraînement de robots. Cependant, les professionnels du divertissement restent partagés sur cette technologie.

Une enquête récente de Wired a révélé que des studios comme Activision Blizzard, qui a licencié des dizaines d'employés, utilisent l'IA pour réduire les coûts et lutter contre l'attrition. Une étude de 2024 commandée par l'Animation Guild estime que plus de 100 000 emplois dans le cinéma, la télévision et l'animation aux États-Unis seront perturbés par l'IA dans les mois à venir.

Odyssey promet de collaborer avec les professionnels créatifs plutôt que de les remplacer. "La vidéo interactive ouvre la porte à de nouvelles formes de divertissement, où les histoires peuvent être générées et explorées à la demande, libérées des contraintes et des coûts de la production traditionnelle", écrit la société. "À terme, nous croyons que tout ce qui est vidéo aujourd'hui – divertissement, publicités, éducation, formation, voyage, etc. – évoluera vers la vidéo interactive, alimentée par Odyssey."

La démo d'Odyssey présente encore des imperfections, comme l'admettent ses créateurs. Les environnements générés sont flous, déformés et instables, avec des dispositions qui changent parfois brusquement. Cependant, la startup promet des améliorations rapides. Le modèle peut actuellement diffuser des vidéos à 30 images par seconde grâce à des clusters de GPU Nvidia H100, pour un coût de 1 à 2 dollars par "heure utilisateur".

Odyssey adopte une approche unique dans le domaine des modèles de monde. Elle a conçu un système de caméra à 360° monté sur un sac à dos pour capturer des paysages réels, censés servir de base à des modèles plus qualitatifs que ceux entraînés uniquement sur des données publiques. À ce jour, Odyssey a levé 27 millions de dollars auprès d'investisseurs comme EQT Ventures, GV et Air Street Capital. Ed Catmull, cofondateur de Pixar et ancien président de Walt Disney Animation Studios, siège à son conseil d'administration.

En décembre dernier, Odyssey a annoncé travailler sur un logiciel permettant aux créateurs d'importer des scènes générées par ses modèles dans des outils comme Unreal Engine, Blender et Adobe After Effects pour les modifier manuellement.

Odyssey trình làng mô hình AI đột phá: Stream thế giới 3D tương tác theo thời gian thực

Odyssey, startup do các nhà tiên phong xe tự hành Oliver Cameron và Jeff Hawke sáng lập, vừa phát triển một mô hình AI cho phép người dùng "tương tác" với video stream. Phiên bản demo sớm hiện có trên web, mô hình này tạo và truyền tải khung hình video mới mỗi 40 mili giây. Thông qua các điều khiển cơ bản, người xem có thể khám phá không gian bên trong video, tương tự như game 3D.

"Dựa trên trạng thái thế giới hiện tại, hành động tiếp theo và lịch sử các trạng thái - hành động, mô hình dự đoán trạng thái tiếp theo của thế giới", Odyssey giải thích trong blog. "Lõi công nghệ là mô hình thế giới mới với khả năng tạo pixel chân thực, duy trì tính nhất quán không gian, học hành động từ video và xuất video liền mạch trong 5 phút hoặc hơn."

Nhiều startup và gã khổng lồ công nghệ như DeepMind, World Labs của chuyên gia AI Fei-Fei Li, Microsoft và Decart đang đua phát triển mô hình thế giới. Họ tin công nghệ này có thể tạo nội dung tương tác (game, phim) hay mô phỏng thực tế để huấn luyện robot. Tuy nhiên, giới sáng tạo tỏ ra dè dặt.

Điều tra của Wired phát hiện các studio như Activision Blizzard - nơi đã cắt giảm hàng loạt nhân sự - đang dùng AI để cắt giảm chi phí. Nghiên cứu năm 2024 từ Hiệp hội Hoạt hình Hollywood dự báo hơn 100.000 việc làm trong ngành phim, TV và animation tại Mỹ sẽ bị AI ảnh hưởng trong thời gian tới.

Odyssey cam kết hợp tác với chuyên gia sáng tạo thay vì thay thế họ. "Video tương tác mở ra hình thức giải trí mới, nơi câu chuyện được tạo và khám phá theo yêu cầu, vượt khỏi giới hạn sản xuất truyền thống", công ty viết. "Về lâu dài, mọi nội dung video hiện nay - giải trí, quảng cáo, giáo dục, đào tạo, du lịch... sẽ tiến hóa thành video tương tác nhờ Odyssey."

Bản demo hiện còn nhiều hạn chế như Odyssey thừa nhận. Môi trường tạo ra bị mờ, biến dạng và thiếu ổn định - bố cục có thể thay đổi đột ngột khi người dùng di chuyển. Công ty hứa hẹn cải thiện nhanh chóng. Hiện mô hình stream được 30 khung hình/giây từ cụm GPU Nvidia H100 với chi phí 1-2 USD mỗi "giờ người dùng".

Odyssey tiếp cận khác biệt trong lĩnh vực mô hình thế giới. Họ thiết kế hệ thống camera 360 độ gắn ba lô để thu thập cảnh quan thực, làm nền tảng cho mô hình chất lượng cao hơn so với đào tạo từ dữ liệu công khai. Đến nay, startup đã huy động 27 triệu USD từ EQT Ventures, GV và Air Street Capital. Ed Catmull - đồng sáng lập Pixar, cựu chủ tịch Walt Disney Animation - là thành viên hội đồng quản trị.

Tháng 12/2023, Odyssey tiết lộ đang phát triển phần mềm cho phép creator tải cảnh từ mô hình vào công cụ như Unreal Engine, Blender hay Adobe After Effects để chỉnh sửa thủ công.