Une IA de génération vidéo révolutionnaire formée exclusivement sur des films du domaine public
Les intelligences artificielles génératrices de vidéos font partie des technologies les plus controversées. Ces algorithmes complexes, qui assemblent des millions de données pour produire de courtes séquences vidéo, sont généralement entraînés sur du matériel protégé par des droits d'auteur, soulevant d'importantes questions éthiques et juridiques. (Sans même mentionner l'énergie colossale nécessaire à la synthèse vidéo par IA.) Les milliardaires de la tech affirment souvent que cette pratique est inévitable – pour développer l'IA, il faudrait nécessairement lui fournir des livres, de la musique et des vidéos sous copyright. Cependant, une startup californienne prouve le contraire.
Moonvalley, une jeune pousse basée à Los Angeles, propose un modèle de synthèse vidéo 'conscient en 3D' entièrement formé sur des films du domaine public. Son produit phare, Marey, lancé en version limitée en mars, est désormais accessible au grand public via un système de crédits, comme le rapporte TechCrunch. L'entreprise attire l'attention de poids lourds du cinéma, comme Ed Ulbrich, artiste VFX et producteur ayant travaillé sur 'Titanic', 'Benjamin Button' et 'Top Gun : Maverick'.
Engagé en juin comme interlocuteur auprès des studios, Ulbrich a été séduit par le 'modèle propre' de Moonvalley. Initialement sceptique face à l'IA générative, il explique que l'approche éthique de la startup a changé son opinion. 'Ce qui m'a convaincu, c'est l'idée d'un modèle éthique, formé légalement, sans pixels volés ni moissonnage sauvage sur internet', a-t-il déclaré à Deadline. 'C'est fait proprement. Et c'est crucial que cela existe.'
D'autres initiatives similaires émergent. En juin, une équipe de chercheurs a entraîné un modèle linguistique (LLM) sur des données libres de droits, démontrant qu'il est possible de créer une IA conversationnelle sans recourir à des millions de livres piratés. Un travail titanesque – huit téraoctets de données analysés deux fois (l'équivalent de 1 685 461 Bibles) – mais qui a produit un LLM rivalisant avec les modèles Llama 1 et 2 7B de Meta, certes anciens mais performants.
Si la provenance des données de Moonvalley reste à vérifier, cette approche pourrait contredire l'argument des géants tech sur la 'nécessité' de piller des données protégées. Une lueur d'espoir pour une IA plus éthique.