Parallélisme au niveau mémoire : Comparaison des performances entre l'Apple M2 et l'Apple M4

Memory-level parallelism :: Apple M2 vs Apple M4

Parallélisme au niveau mémoire : Comparaison des performances entre l'Apple M2 et l'Apple M4

Les processeurs Apple M2 (2022) et Apple M4 (2024), basés sur l'architecture ARM, partagent une conception unifiée de la mémoire, utilisant la même mémoire pour le GPU et le CPU. Le M2 utilise la mémoire LPDDR5 tandis que le M4 exploite la LPDDR5X, offrant un débit légèrement supérieur. Cependant, cet article se concentre sur les performances d'accès aléatoire en single-core.

Pour mesurer ces performances, l'auteur a créé un benchmark de 'pointer chasing' en construisant un grand tableau d'index formant une boucle aléatoire. Cette méthode simule des structures de données complexes avec des pointeurs imbriqués, révélant la latence mémoire et la capacité du processeur à gérer plusieurs requêtes simultanément.

Le concept clé évalué est le 'memory-level parallelism' (MLP), c'est-à-dire la capacité du sous-système mémoire à traiter plusieurs tâches en parallèle. Le benchmark a été divisé en 'voies' (lanes), permettant de démarrer la lecture à plusieurs positions simultanément. Jusqu'à 28 voies ont été testées pour limiter le bruit dans les mesures.

Les résultats montrent que les deux processeurs gèrent efficacement 28 voies, avec un écart de performance d'environ 15% en faveur du M4. Chaque accès mémoire est considéré comme équivalent au chargement d'une ligne de cache de 128 octets. Le tableau utilisé contient plus de 33 millions de mots de 64 bits.

Cette analyse, publiée le 9 juillet 2025 par Daniel Lemire, professeur d'informatique à l'Université du Québec (TELUQ), démontre que l'amélioration entre les générations M2 et M4 reste modeste pour ce type de charge de travail. Le code du benchmark est disponible pour consultation.

So sánh khả năng xử lý song song bộ nhớ: Apple M2 đấu với Apple M4

Chip Apple M2 (ra mắt 2022) và Apple M4 (2024) đều là hệ thống trên chip (SoC) dựa trên kiến trúc ARM với bộ nhớ thống nhất cho cả GPU và CPU. Trong khi M2 sử dụng bộ nhớ LPDDR5 thì M4 được trang bị LPDDR5X cho băng thông cao hơn. Bài viết tập trung đánh giá hiệu năng truy cập ngẫu nhiên đơn nhân.

Để đo lường, tác giả tạo một mảng chỉ số lớn tạo thành vòng lặp ngẫu nhiên - kỹ thuật 'pointer chasing' mô phỏng các cấu trúc dữ liệu phức tạp với nhiều con trỏ lồng nhau. Phương pháp này giúp đo độ trễ bộ nhớ và khả năng xử lý đồng thời nhiều yêu cầu.

Khái niệm then chốt được đánh giá là 'memory-level parallelism' (MLP) - khả năng xử lý song song của hệ thống bộ nhớ. Benchmark được chia thành các 'lane' (làn), cho phép đọc dữ liệu từ nhiều vị trí cùng lúc. Thử nghiệm được giới hạn ở 28 làn để đảm bảo độ chính xác.

Kết quả cho thấy cả hai chip đều xử lý hiệu quả 28 làn, với M4 vượt trội khoảng 15%. Mỗi lần truy cập tương đương nạp 128 byte dữ liệu. Mảng thử nghiệm chứa hơn 33 triệu từ 64-bit.

Nghiên cứu được công bố ngày 9/7/2025 bởi Daniel Lemire, giáo sư khoa học máy tính tại Đại học Québec (TELUQ), cho thấy sự cải tiến từ M2 lên M4 ở khía cạnh này khá khiêm tốn. Mã nguồn benchmark được công khai để tham khảo.