Apple réalise une percée majeure en IA avec une technologie de génération d'images rivalisant avec DALL-E et Midjourney

Apple makes major AI advance with image generation technology rivaling DALL-E and Midjourney

Apple réalise une percée majeure en IA avec une technologie de génération d'images rivalisant avec DALL-E et Midjourney

L'équipe de recherche en apprentissage automatique d'Apple a développé un système d'IA révolutionnaire pour générer des images haute résolution, capable de rivaliser avec les modèles de diffusion qui alimentent des générateurs d'images populaires comme DALL-E et Midjourney. Cette avancée, détaillée dans un article de recherche publié la semaine dernière, introduit "STARFlow", un système combinant des flux de normalisation avec des transformateurs autorégressifs pour atteindre des performances comparables aux modèles de diffusion les plus avancés.

Cette percée intervient à un moment crucial pour Apple, qui fait face à des critiques croissantes concernant ses difficultés dans le domaine de l'intelligence artificielle. Lors de la conférence Worldwide Developers Conference, la société n'a présenté que des mises à jour modestes de sa plateforme Apple Intelligence, soulignant la pression concurrentielle dans la course à l'IA.

"À notre connaissance, ce travail est la première démonstration réussie de flux de normalisation fonctionnant efficacement à cette échelle et résolution", ont écrit les chercheurs, dont des experts d'Apple et des collaborateurs universitaires de UC Berkeley et Georgia Tech. STARFlow représente un effort plus large d'Apple pour développer des capacités d'IA distinctives pouvant différencier ses produits.

L'équipe a relevé un défi fondamental : adapter les flux de normalisation pour les images haute résolution. Traditionnellement éclipsés par les modèles de diffusion, ces flux apprennent à transformer des distributions simples en distributions complexes. STARFlow atteint des performances compétitives dans les tâches de génération d'images conditionnées par classe ou par texte, rivalisant avec les modèles les plus avancés.

Apple a introduit plusieurs innovations clés, dont une conception "profonde-superficielle" utilisant des blocs Transformer, et opère dans l'espace latent d'autoencodeurs pré-entraînés pour une meilleure efficacité. Contrairement aux modèles de diffusion, STARFlow maintient les propriétés mathématiques des flux de normalisation, permettant un entraînement par vraisemblance exacte.

Cette recherche survient alors qu'Apple subit une pression croissante pour démontrer des progrès en IA. STARFlow pourrait offrir des avantages dans les applications nécessitant un contrôle précis du contenu généré, potentiellement précieux pour les capacités d'IA embarquée qu'Apple met en avant.

La collaboration avec des institutions universitaires comme Georgia Tech et UC Berkeley illustre la stratégie d'Apple pour faire progresser ses capacités en IA. Le modèle reste un flux de normalisation de bout en bout, se distinguant des méthodes hybrides.

Bien que STARFlow représente une réalisation technique significative, le vrai test sera de traduire cette recherche en fonctionnalités grand public. Pour Apple, qui a révolutionné des industries entières, la question n'est pas de savoir s'ils peuvent innover en IA, mais s'ils peuvent le faire assez rapidement.

Apple đột phá trong AI với công nghệ tạo ảnh cạnh tranh DALL-E và Midjourney

Nhóm nghiên cứu máy học của Apple đã phát triển một hệ thống AI đột phá có khả năng tạo ra hình ảnh độ phân giải cao, thách thức sự thống trị của các mô hình khuếch tán - công nghệ đứng sau những trình tạo ảnh nổi tiếng như DALL-E và Midjourney. Thành tựu này, được mô tả chi tiết trong một bài báo nghiên cứu công bố tuần trước, giới thiệu "STARFlow" - hệ thống kết hợp luồng chuẩn hóa với bộ biến đổi tự hồi quy để đạt hiệu suất cạnh tranh với các mô hình khuếch tán tiên tiến nhất.

Đột phá này đến vào thời điểm quan trọng khi Apple đối mặt với nhiều chỉ trích về những khó khăn trong lĩnh vực trí tuệ nhân tạo. Tại Hội nghị Nhà phát triển Toàn cầu, công ty chỉ công bố những cập nhật AI khiêm tốn cho nền tảng Apple Intelligence, làm nổi bật áp lực cạnh tranh trong cuộc đua AI.

"Theo chúng tôi biết, đây là lần đầu tiên luồng chuẩn hóa được chứng minh hoạt động hiệu quả ở quy mô và độ phân giải như vậy", nhóm nghiên cứu - bao gồm các chuyên gia của Apple và cộng tác viên học thuật từ UC Berkeley và Georgia Tech - cho biết. STARFlow đại diện cho nỗ lực rộng lớn hơn của Apple nhằm phát triển khả năng AI độc đáo để phân biệt sản phẩm của họ.

Nhóm nghiên cứu đã giải quyết thách thức cơ bản: mở rộng luồng chuẩn hóa cho ảnh độ phân giải cao. Vốn bị lu mờ bởi mô hình khuếch tán, luồng chuẩn hóa học cách biến đổi phân phối đơn giản thành phức tạp. STARFlow đạt hiệu suất cạnh tranh trong cả tạo ảnh có điều kiện lớp và văn bản, ngang bằng với các mô hình tiên tiến.

Apple đã giới thiệu nhiều cải tiến quan trọng, bao gồm thiết kế "sâu-nông" sử dụng khối Transformer, và hoạt động trong không gian tiềm ẩn của bộ tự mã hóa được đào tạo trước để hiệu quả cao hơn. Khác với mô hình khuếch tán, STARFlow duy trì tính chất toán học của luồng chuẩn hóa, cho phép đào tạo khả năng xảy ra chính xác.

Nghiên cứu này xuất hiện khi Apple chịu áp lực ngày càng lớn trong việc chứng minh tiến bộ về AI. STARFlow có thể mang lại lợi thế cho các ứng dụng yêu cầu kiểm soát chính xác nội dung được tạo ra, đặc biệt quan trọng cho khả năng AI trên thiết bị mà Apple nhấn mạnh.

Việc hợp tác với các viện nghiên cứu như Georgia Tech và UC Berkeley minh họa chiến lược của Apple trong phát triển AI. Mô hình này vẫn là luồng chuẩn hóa end-to-end, khác biệt với các phương pháp lai.

Dù STARFlow là thành tựu kỹ thuật quan trọng, thử thách thực sự là biến nghiên cứu thành tính năng AI cho người dùng phổ thông. Với Apple - từng cách mạng hóa nhiều ngành công nghiệp - câu hỏi không phải là họ có thể đổi mới trong AI hay không, mà là liệu họ có làm đủ nhanh.