Organizations font face à des défis importants pour accroître l’efficacité de leurs dépenses croissantes dans le cloud, même si la flexibilité et la variété des services cloud disponibles offrent de nombreuses opportunités d’optimisation. Les environnements cloud sont complexes et dynamiques en raison de la diversité des services et de la volonté d’adopter de nouvelles technologies, telles que les processeurs basés sur Arm et les GPU qui permettent des capacités d’IA. Ces complexités rendent difficile pour les organisations de comprendre pleinement les facteurs contribuant à leurs coûts cloud.
Pour ce rapport, nous avons analysé les données de coûts cloud AWS de centaines d’organisations. Nous avons exploré comment leur utilisation de technologies émergentes et de génération précédente, les modèles d’utilisation des ressources cloud et la participation aux programmes de réduction AWS contribuent tous à leurs coûts cloud. Nos conclusions suggèrent que, bien que les organisations aient des opportunités d’optimisation des coûts dans chacune de ces dimensions, identifier et atteindre ces gains peut être difficile dans un paysage complexe et éphémère.
Les organisations qui utilisent des instances GPU ont augmenté leurs dépenses moyennes sur ces instances de 40 pour cent - passant de 10 pour cent de leurs coûts de calcul EC2 à 14 pour cent - au cours de la dernière année. La capacité des GPU pour le traitement parallèle les rend essentiels pour la formation des LLM et l’exécution d’autres charges de travail d’IA, où ils peuvent être plus de 200 pour cent plus rapides que les CPU.
Les types d’instances EC2 basés sur GPU coûtent généralement plus cher que les instances qui n’utilisent pas de GPU. Mais le type le plus largement utilisé - le , utilisé par 74 pour cent des adopteurs de GPU - est également le moins cher. Cela suggère que de nombreux clients expérimentent l’IA, appliquant le G4dn à leurs premiers efforts en IA adaptative, en apprentissage automatique (ML) et en formation à petite échelle. Nous prévoyons que à mesure que ces organisations étendront leurs activités d’IA et les mettront en production, elles dépenseront une plus grande proportion de leur budget de calcul cloud sur les GPU.
Nous avons observé qu’en moyenne, les organisations qui utilisent des instances basées sur Arm dépensent 18 pour cent de leurs coûts de calcul EC2 sur elles - deux fois plus qu’il y a un an. Les types d’instances basées sur le processeur Arm consomment jusqu’à 60 pour cent moins d’énergie que des EC2 similaires et offrent souvent de meilleures performances à moindre coût.
Le type d’instance Arm le plus courant que nous voyons en utilisation est , utilisé par environ 65 pour cent des organisations. Ces instances sont alimentées par des processeurs Graviton2 et offrent jusqu’à 40 pour cent de meilleures performances au prix que leurs homologues T3 basés sur x86-64.
Les instances basées sur Arm représentent toujours une minorité des dépenses de calcul EC2, mais l’augmentation que nous avons observée au cours de la dernière année a été constante et soutenue. Il semble que les organisations commencent à mettre à jour leurs applications et à profiter de processeurs plus efficaces pour ralentir la croissance de leurs dépenses de calcul dans l’ensemble.
Les organisations utilisent environ 35 pour cent de leurs dépenses de calcul EC2 pour exécuter des conteneurs, contre 30 pour cent il y a un an. Cela inclut les instances EC2 déployées en tant que nœuds de contrôle ou de travail Kubernetes dans des clusters auto-gérés, ainsi que les instances qui s’exécutent dans des clusters ECS et EKS. Parmi tous les clients que nous avons analysés, environ un quart allouent plus de 75 pour cent de leurs dépenses EC2 pour exécuter des conteneurs.
Nous prévoyons de voir une croissance continue de la proportion des dépenses cloud allouées aux conteneurs à mesure que les organisations bénéficient de plus en plus des efficacités associées, notamment des déploiements rationalisés, une gestion améliorée des dépendances et une utilisation plus efficace de l’infrastructure. Mais elles seront également confrontées au défi de gérer la complexité supplémentaire d’attribuer des coûts en fonction d’une infrastructure éphémère et partagée et de provisionner l’infrastructure de conteneurs de manière rentable.
Notre recherche montre que 83 pour cent des coûts des conteneurs sont associés à des ressources inutilisées. Environ 54 pour cent de ces dépenses gaspillées sont liées à l’inactivité du cluster, c’est-à-dire au coût de la surprovision de l’infrastructure du cluster. Les 29 pour cent restants sont associés à l’inactivité de la charge de travail, qui provient de ressources qui sont plus grandes que ce que leurs charges de travail nécessitent.
Nous ne pensons pas que les dépenses de conteneurs gaspillées puissent être totalement éliminées. Il est difficile pour les équipes de développement de prévoir avec précision les besoins en ressources de chaque nouvelle application, ce qui rend difficile l’allocation efficace de ces ressources. Et les besoins en ressources changent souvent en fonction de la nature et de l’utilisation des charges de travail. Les organisations peuvent mettre en place un dimensionnement automatique de leur infrastructure de cluster et de leurs charges de travail individuelles, mais le dimensionnement automatique est complexe - les équipes peuvent optimiser les paramètres de dimensionnement en fonction des modèles de trafic des charges de travail, mais les améliorations d’efficacité sont souvent marginales et insaisissables.
Les offres d’infrastructure actuelles d’AWS surpassent généralement leurs versions de génération précédente et coûtent moins cher. Cependant, nos données montrent que - bien que les organisations s’efforcent de se moderniser - dans le cas des types d’instances EC2 et des types de volumes , les anciennes technologies ont toujours une présence significative dans de nombreux environnements.
Nous avons constaté que 83 pour cent des organisations utilisent encore des types d’instances EC2 de génération précédente, contre 89 pour cent il y a un an. Ces organisations dépensent en moyenne environ 17 pour cent de leur budget EC2 sur eux.
Dans le cas d’EBS, la génération actuelle de volumes - gp3 - coûte environ 20 pour cent de moins que les volumes gp2, mais les organisations dépensent toujours plus sur les anciens volumes. Les coûts des volumes gp2 représentent 58 pour cent des dépenses EBS moyennes de l’organisation, en baisse par rapport à 68 pour cent il y a un an.
Bien que nous nous attendions à continuer à voir des volumes gp2 utilisés à l’avenir proche, nous prévoyons que les organisations diminueront progressivement leur dépendance à leur égard au fil du temps. Les défis de la migration - y compris la complexité du déplacement de grandes quantités de données, la collaboration inter-équipes requise et la difficulté de prédire les performances des charges de travail sur les technologies de génération plus récente - contribuent tous au rythme lent de l’adoption. Cependant, les réductions de coûts et les gains de performances offerts par les versions EC2 et EBS plus récentes - voire même par les technologies plus récentes à l’avenir - continueront d’être une motivation pour migrer.
Notre recherche a révélé qu’en moyenne, les organisations dépensent presque autant pour envoyer des données d’une zone de disponibilité (AZ) à une autre que pour tous les autres types de transfert de données combinés - y compris les VPN, les passerelles, l’entrée et la sortie. Le trafic inter-AZ peut être inévitable dans certains scénarios, comme lorsque l’architecture haute disponibilité d’une application exige que les instances soient déployées dans plus d’une AZ. Il peut également être un effet secondaire inévitable des changements organisationnels qui surviennent à mesure que les équipes, les services et les applications se développent.
D’où proviennent les coûts, leur impact est important : 98 pour cent des organisations sont affectées par les frais inter-AZ. Cela peut indiquer une opportunité quasi universelle d’optimiser les coûts cloud, par exemple en regroupant les ressources connexes dans une seule AZ chaque fois que les exigences de disponibilité le permettent.
Dans certains cas, les fournisseurs cloud ont cessé de facturer certains types de transfert de données. Il est difficile de prédire comment ces changements pourraient évoluer, mais si les fournisseurs assouplissent davantage les coûts de transfert de données, le trafic inter-AZ futur pourrait devenir moins un facteur d’efficacité des coûts cloud.
Les fournisseurs de services cloud offrent des remises sur bon nombre de leurs services - par exemple, AWS propose des programmes de remise pour Amazon EC2, Amazon RDS, Amazon SageMaker, et autres. La plupart des organisations optent pour ces programmes, s’engageant à un certain montant de dépenses ou d’utilisation future du service. Mais nos données montrent une proportion décroissante d’organisations participant - 67 pour cent, contre 72 pour cent l’année dernière.
De plus, nous constatons une implication relativement faible dans ces programmes de remise - seuls 29 pour cent des organisations achètent suffisamment de remises pour couvrir plus de la moitié de leurs dépenses cloud éligibles. Cette sous-utilisation des remises suggère que les organisations hésitent à s’engager à l’avance à un montant spécifique d’utilisation ou de dépenses, peut-être en raison de la difficulté de prévoir avec suffisamment de confiance leurs besoins en ressources pour s’engager à une utilisation continue. Ils peuvent également rencontrer des difficultés à prendre des décisions d’achat de remises en raison du manque de clarté sur les équipes responsables de ces décisions et de la propriété des ressources affectées. Nous voyons une opportunité d’optimisation, où la plupart des organisations peuvent tirer parti des remises pour améliorer l’efficacité des coûts à mesure qu’elles acquièrent une compréhension plus complète des modèles d’utilisation derrière leurs coûts cloud.
Les utilisateurs AWS ont deux options pour réduire leurs coûts EC2 : les Plans d’Économies - dans lesquels les clients s’engagent à un certain montant de dépenses EC2, et les Instances Réservées - dans lesquelles ils s’engagent à une quantité d’utilisation d’un type d’instance spécifique dans une zone de disponibilité spécifique. Les Plans d’Économies sont plus flexibles, et nous avons constaté que la plupart des organisations - 59 pour cent - en profitent et appliquent des Plans d’Économies à au moins une partie de leurs coûts EC2. Beaucoup moins d’organisations utilisent des Instances Réservées - seulement 15 pour cent. Cela pourrait suggérer que les organisations sont plus confiantes dans leur capacité à savoir combien elles devront dépenser en EC2 que dans les types d’instances qu’elles devront déployer et où.
Les conclusions sont basées sur des données collectées entre mai 2023 et avril 2024.
Pour ce rapport, nous avons compilé des données de coûts cloud à partir d’un échantillon d’organisations ayant utilisé la Gestion des Coûts Cloud de Datadog pour analyser leur facture AWS.
Nous avons calculé le pourcentage des dépenses mensuelles amorties EC2 de chaque organisation qui était utilisé pour exécuter des instances GPU et avons moyenné ce coût sur toutes les organisations ayant une quelconque dépense de calcul EC2.
Nous avons analysé les données de toutes les organisations ayant exécuté des instances de calcul EC2 dans les mois indiqués. Nous avons calculé le pourcentage de leurs dépenses mensuelles amorties EC2 qui étaient utilisées pour exécuter des instances basées sur les types d’instances suivants : A1, C6g, C7g, G5g, Hpc7g, I4g, Im4gn, Is4gen, M6g, M7g, R6g, R7g, T4g, X2gd.
Nous avons calculé le pourcentage des dépenses mensuelles amorties EC2 de chaque organisation qui étaient utilisées pour exécuter des instances EC2 conteneurisées - celles qui allouent une partie de leur CPU ou de leur mémoire à des conteneurs - et avons moyenné ce coût sur toutes les organisations ayant une quelconque dépense de calcul EC2.
Nous avons calculé les proportions de l’inactivité de la charge de travail, de l’inactivité du cluster et des dépenses utilisées sur des instances EC2 conteneurisées et avons moyenné ces proportions sur toutes les organisations exécutant des instances conteneurisées.
Dans le premier graphique, la valeur en pourcentage pour chaque mois représente la proportion d’organisations utilisant des instances EC2 qui ont dépensé une certaine somme ce mois-là sur l’un des types d’instances suivants :
Dans le deuxième graphique, les pourcentages des dépenses gp2 et gp3 sont moyennés sur toutes les organisations ayant dépensé une certaine somme sur EBS pendant les mois indiqués.
Pour ce fait, nous avons moyenné la proportion de différents types de frais de transfert sur toutes les organisations ayant supporté des coûts de transfert de données amortisés en avril 2024. Nous avons utilisé les valeurs de l’étiquette aws_datatransfer_type - que Datadog ajoute automatiquement en fonction des valeurs du Rapport de Coûts et d’Utilisation (CUR) de l’organisation - pour déterminer les coûts de transfert inter-AZ, inter-région, internet et intra-zone.
Le premier graphique analyse les données de toutes les organisations ayant dépensé une certaine somme sur l’un des produits AWS éligibles aux programmes de remise : Amazon EC2, AWS Lambda, AWS Fargate, Amazon SageMaker, Amazon RDS, Amazon ElastiCache, Amazon DynamoDB, Amazon Redshift, Amazon Neptune, Amazon Elasticsearch et Amazon MemoryDB. Les données de chaque mois montrent le pourcentage de ces organisations dont la facture cloud inclut l’un des éléments de ligne suivants pendant les mois indiqués : SavingsPlanRecurringFee, SavingsPlanUpfrontFee, Fee, RIFee, DiscountedUsage, SavingsPlanCoveredUsage.
Le deuxième graphique montre les données des organisations ayant dépensé une certaine somme sur des produits éligibles aux programmes de remise pour montrer le pourcentage moyen de dépenses sur ces produits couvert par un programme de remise.
Ce fait montre la proportion d’organisations utilisant des Plans d’Économies et des Instances Réservées en pourcentage du nombre total d’organisations utilisant des instances EC2. Ces programmes de remise ne sont pas exclusifs, et une organisation peut participer aux deux.