Apple réalise une percée majeure en IA avec une technologie de génération d'images rivalisant avec DALL-E et Midjourney
L'équipe de recherche en apprentissage automatique d'Apple a développé un système d'IA révolutionnaire pour générer des images haute résolution, capable de rivaliser avec les modèles de diffusion qui alimentent des générateurs d'images populaires comme DALL-E et Midjourney. Cette avancée, détaillée dans un article de recherche publié la semaine dernière, introduit "STARFlow", un système combinant des flux de normalisation avec des transformateurs autorégressifs pour atteindre des performances comparables aux modèles de diffusion les plus avancés.
Cette percée intervient à un moment crucial pour Apple, qui fait face à des critiques croissantes concernant ses difficultés dans le domaine de l'intelligence artificielle. Lors de la conférence Worldwide Developers Conference, la société n'a présenté que des mises à jour modestes de sa plateforme Apple Intelligence, soulignant la pression concurrentielle dans la course à l'IA.
"À notre connaissance, ce travail est la première démonstration réussie de flux de normalisation fonctionnant efficacement à cette échelle et résolution", ont écrit les chercheurs, dont des experts d'Apple et des collaborateurs universitaires de UC Berkeley et Georgia Tech. STARFlow représente un effort plus large d'Apple pour développer des capacités d'IA distinctives pouvant différencier ses produits.
L'équipe a relevé un défi fondamental : adapter les flux de normalisation pour les images haute résolution. Traditionnellement éclipsés par les modèles de diffusion, ces flux apprennent à transformer des distributions simples en distributions complexes. STARFlow atteint des performances compétitives dans les tâches de génération d'images conditionnées par classe ou par texte, rivalisant avec les modèles les plus avancés.
Apple a introduit plusieurs innovations clés, dont une conception "profonde-superficielle" utilisant des blocs Transformer, et opère dans l'espace latent d'autoencodeurs pré-entraînés pour une meilleure efficacité. Contrairement aux modèles de diffusion, STARFlow maintient les propriétés mathématiques des flux de normalisation, permettant un entraînement par vraisemblance exacte.
Cette recherche survient alors qu'Apple subit une pression croissante pour démontrer des progrès en IA. STARFlow pourrait offrir des avantages dans les applications nécessitant un contrôle précis du contenu généré, potentiellement précieux pour les capacités d'IA embarquée qu'Apple met en avant.
La collaboration avec des institutions universitaires comme Georgia Tech et UC Berkeley illustre la stratégie d'Apple pour faire progresser ses capacités en IA. Le modèle reste un flux de normalisation de bout en bout, se distinguant des méthodes hybrides.
Bien que STARFlow représente une réalisation technique significative, le vrai test sera de traduire cette recherche en fonctionnalités grand public. Pour Apple, qui a révolutionné des industries entières, la question n'est pas de savoir s'ils peuvent innover en IA, mais s'ils peuvent le faire assez rapidement.