Nouveauté : Boostez les performances des requêtes Apache Iceberg sur Amazon S3 avec le compactage par tri et Z-order
Amazon S3 introduit deux nouvelles stratégies de compactage pour améliorer les performances des requêtes Apache Iceberg : le tri et le Z-order. Ces options, disponibles pour les tables S3 gérées et les buckets S3 standard via AWS Glue Data Catalog, optimisent l'organisation des données pour réduire les coûts et accélérer l'exécution des requêtes.
Le compactage par tri organise les fichiers selon un ordre de colonnes défini par l'utilisateur, regroupant ainsi les valeurs similaires. Cette méthode réduit le nombre de fichiers analysés lors des requêtes, améliorant la latence et diminuant les coûts. Par exemple, un tri par état et code postal permet des requêtes plus rapides sur ces critères.
Le Z-order va plus loin en permettant un élagage efficace des fichiers sur plusieurs dimensions. Il entrelace les représentations binaires des valeurs de plusieurs colonnes, ce qui le rend idéal pour les requêtes spatiales ou multidimensionnelles. Par exemple, des filtres simultanés sur lieu de prise en charge, lieu de dépôt et montant de la course bénéficieront de cette méthode.
Pour activer ces fonctionnalités, les tables S3 utilisent automatiquement l'ordre de tri existant dans les métadonnées Iceberg. Le Z-order nécessite une configuration via l'API S3 Tables. Les tables Iceberg dans des buckets standard peuvent être configurées via AWS Glue Data Catalog.
Seules les nouvelles données écrites après activation seront affectées. Les fichiers existants restent inchangés sauf réécriture explicite. Cette approche permet de contrôler le coût et l'impact des réorganisations.
Disponibles dans toutes les régions AWS supportant les tables S3, ces stratégies n'entraînent pas de frais supplémentaires. Les tests montrent des améliorations de performance allant jusqu'à trois fois par rapport au compactage binpack par défaut.
Un exemple pratique avec Apache Spark et AWS CLI démontre comment configurer l'ordre de tri et observer les améliorations après compactage. Les utilisateurs peuvent commencer à tester ces fonctionnalités via l'API S3 Tables ou les optimisations AWS Glue.