Étude révolutionnaire d'Apple : Des robots humanoïdes apprennent en observant nos gestes grâce à la Vision Pro

New Apple study teaches robots how to act by watching first-person videos of humans

Étude révolutionnaire d'Apple : Des robots humanoïdes apprennent en observant nos gestes grâce à la Vision Pro

Une nouvelle étude menée par Apple en collaboration avec plusieurs universités prestigieuses propose une méthode innovante pour entraîner des robots humanoïdes à reproduire des actions humaines en analysant des vidéos à la première personne. Cette approche pourrait considérablement accélérer et réduire les coûts de formation des robots.

L'étude intitulée « Humanoid Policy ∼ Human Policy » est le fruit d'une collaboration entre Apple, le MIT, Carnegie Mellon, l'Université de Washington et UC San Diego. Les chercheurs ont collecté plus de 25 000 démonstrations humaines et 1 500 démonstrations robotiques pour créer un ensemble de données appelé PH2D.

Pour capturer les mouvements humains, l'équipe a développé une application Apple Vision Pro exploitant la caméra inférieure gauche du casque et la technologie ARKit pour suivre les mouvements 3D de la tête et des mains. Ils ont également créé un support imprimé en 3D pour adapter une caméra stéréo ZED Mini à d'autres casques comme le Meta Quest 3, offrant une solution plus économique.

La méthode traditionnelle de collecte de données via téléopération robotique s'avère lente, coûteuse et difficile à mettre à l'échelle. En revanche, cette nouvelle approche permet d'enregistrer des démonstrations de haute qualité en quelques secondes seulement, avec l'avantage supplémentaire que les humains effectuent naturellement des mouvements plus variés que les robots.

Un détail technique intéressant : les chercheurs ont dû ralentir les démonstrations humaines d'un facteur quatre pendant l'entraînement, car les robots actuels ne peuvent pas suivre la vitesse naturelle des mouvements humains.

Le cœur de l'étude repose sur le Human Action Transformer (HAT), un modèle unique entraîné simultanément sur des données humaines et robotiques. Contrairement aux approches traditionnelles qui séparent ces sources, HAT apprend une politique unifiée qui s'adapte aux deux types de corps, améliorant ainsi la flexibilité et l'efficacité du système.

Les tests ont montré que cette méthode permet aux robots de mieux gérer des tâches complexes, y compris celles qu'ils n'ont jamais rencontrées auparavant. Cette généralisation accrue ouvre des perspectives prometteuses pour le développement de robots humanoïdes polyvalents.

Cette recherche marque une étape importante vers la création de robots domestiques capables d'apprendre en observant simplement les humains. Reste à savoir si cette perspective vous enthousiasme, vous inquiète ou vous laisse indifférent - un débat que les auteurs invitent à poursuivre dans les commentaires.

Marcus Mendes, journaliste tech brésilien spécialisé sur Apple depuis les années 2000, rapporte que cette étude pourrait révolutionner la manière dont nous concevons l'apprentissage des robots. Les implications potentielles vont bien au-delà du simple cadre domestique, touchant à de nombreux secteurs industriels.

Apple tiết lộ nghiên cứu đột phá: Robot học hành động bằng cách xem video góc nhìn thứ nhất từ con người

Apple cùng các đối tác nghiên cứu vừa công bố phương pháp đào tạo robot hình người mới thông qua phân tích video góc nhìn thứ nhất từ con người, hứa hẹn cách mạng hóa ngành robot học.

Nghiên cứu mang tên 'Humanoid Policy ∼ Human Policy' là sự hợp tác giữa Apple, MIT, Đại học Carnegie Mellon, Đại học Washington và UC San Diego. Phương pháp này sử dụng dữ liệu từ 25.000 thao tác của con người và 1.500 thao tác robot để huấn luyện mô hình AI tổng hợp.

Thay vì chỉ học từ dữ liệu robot tốn kém, nhóm nghiên cứu đề xuất sử dụng video ghi lại hành động con người từ góc nhìn thứ nhất. Họ phát triển ứng dụng trên Apple Vision Pro để ghi hình và theo dõi chuyển động 3D của đầu và tay bằng ARKit.

Để giảm chi phí, nhóm còn chế tạo giá đỡ in 3D gắn camera ZED Mini Stereo lên các headset như Meta Quest 3. Giải pháp này cho phép thu thập dữ liệu chất lượng cao trong vài giây, vượt trội so với phương pháp điều khiển robot truyền thống.

Một điểm đặc biệt là các video con người được làm chậm 4 lần để robot có thể bắt kịp tốc độ. Trung tâm của nghiên cứu là mô hình Human Action Transformer (HAT), được huấn luyện đồng thời trên dữ liệu người và robot.

HAT học được một chính sách tổng quát áp dụng cho cả hai loại 'cơ thể', giúp hệ thống linh hoạt và hiệu quả hơn. Trong nhiều thử nghiệm, phương pháp này giúp robot xử lý tốt hơn các tác vụ khó, kể cả những tình huống chưa từng gặp.

Nghiên cứu mở ra hướng tiếp cận mới trong đào tạo robot, kết hợp giữa tính linh hoạt của con người và độ chính xác của máy móc. Đây có thể là bước tiến quan trọng trong việc phát triển robot đa năng cho tương lai.

Tác giả Marcus Mendes, nhà báo công nghệ người Brazil với kinh nghiệm theo dõi Apple từ giữa thập niên 2000, cho biết nghiên cứu này đặc biệt hấp dẫn với giới công nghệ. Ông bắt đầu đưa tin về Apple từ năm 2012 và mở rộng sang toàn ngành công nghệ, từng dẫn chương trình podcast hàng ngày suốt 7 năm.