Nouveaux serveurs Amazon EC2 P6e-GB200 UltraServers boostés par les GPU NVIDIA Grace Blackwell pour des performances IA ultimes
Amazon Web Services (AWS) annonce aujourd'hui la disponibilité générale des serveurs Amazon Elastic Compute Cloud (EC2) P6e-GB200 UltraServers, accélérés par les GPU NVIDIA GB200 NVL72 pour offrir les meilleures performances en matière d'entraînement et d'inférence d'IA. Ces serveurs révolutionnaires connectent plusieurs instances EC2 via une interconnexion dédiée à haute bande passante et faible latence.
L'architecture repose sur les Superpuce NVIDIA Grace Blackwell, combinant deux GPU NVIDIA Blackwell à coeurs tensoriels et un CPU NVIDIA Grace basé sur l'architecture Arm, le tout relié par l'interconnexion NVLink-C2C. Chaque Superpuce fournit une puissance de calcul de 10 pétaflops FP8 (sans sparsité) et jusqu'à 372 Go de mémoire HBM3e.
La colocalisation du GPU et du CPU dans un même module de calcul augmente considérablement la bande passante par rapport aux instances EC2 P5en actuelles. Les P6e-GB200 UltraServers permettent d'accéder à 72 GPU NVIDIA Blackwell dans un seul domaine NVLink, offrant 360 pétaflops FP8 et 13,4 To de mémoire HBM3e.
Propulsés par le système AWS Nitro, ces serveurs sont déployés dans des UltraClusters EC2 pour une montée en charge sécurisée de dizaines de milliers de GPU. Ils fournissent jusqu'à 28,8 Tbps de réseau via Elastic Fabric Adapter (EFAv4), couplé à NVIDIA GPUDirect RDMA pour des communications GPU-GPU à faible latence.
Disponibles en configurations de 36 à 72 GPU sous NVLink, les P6e-GB200 UltraServers sont idéaux pour les charges de travail IA les plus intensives, comme l'entraînement de modèles frontières à l'échelle du billion de paramètres. Ils permettent de développer des applications génératives avancées : génération de code, vidéo, image, reconnaissance vocale, etc.
Les utilisateurs peuvent réserver ces serveurs via EC2 Capacity Blocks for ML dans la Dallas Local Zone (us-east-1-dfw-2a), extension de la région US East (N. Virginia). Le paiement s'effectue intégralement lors de la réservation.
Pour le déploiement, AWS propose plusieurs options : console de gestion, CLI ou SDKs. Les AWS Deep Learning AMIs fournissent des environnements préconfigurés avec PyTorch, JAX et autres frameworks. L'intégration avec Amazon SageMaker Hyperpod et Amazon EKS simplifie la gestion du cycle de vie des instances.