Au-delà du PUE : métriques énergétiques d’un cluster IA
- Cedric KTORZA
- 22 oct.
- 7 min de lecture

Mesurer la performance énergétique d’un cluster IA au-delà du PUE classique, c’est possible et nécessaire. Les charges IA bousculent les datacenters avec des GPU denses, des régimes de refroidissement inédits et des profils d’usage très variables. Cet article vous donne un cadre concret pour compléter le PUE par des indicateurs opérationnels (carbone, eau, réutilisation d’énergie, performance par watt et par tâche) et une méthode de mesure du nœud jusqu’au workload, afin d’optimiser sans compromettre la performance.
En bref
Combinez PUE avec CUE, WUE, ERF et des métriques “par tâche” (J/inférence, J/token, J/itération d’entraînement).
Instrumentez à 5 niveaux: site, cluster, nœud, accélérateur, workload; synchronisez l’horodatage.
Normalisez les résultats: par unité métier (token, échantillon, modèle), par heure et par mix énergétique réel.
Gouvernez: fixez des cibles, suivez un tableau de bord, ajustez le scheduling et le power capping.
Industrialisez avec une approche intégrée énergie + IT + new tech, comme nous le faisons chez Score Group.
Pourquoi le PUE ne suffit plus pour l’IA
Le PUE (Power Usage Effectiveness) reste la base pour comparer l’efficacité énergétique d’un site, mais il ne dit rien de l’efficacité “utile” du calcul IA ni des impacts eau et carbone. Un PUE excellent peut coexister avec un cluster sous-utilisé, un refroidissement peu sobre en eau, ou un mix électrique carboné. Les entraînements et inférences IA ont des profils transitoires (pics courts, phases d’I/O, variations de batch) que le PUE ne capture pas.
PUE = énergie totale du site / énergie IT. Il mesure l’efficience d’infrastructure, pas la valeur calculée par watt.
Pour les charges IA, il faut relier l’énergie à la production: exemples concrets (tokens générés, images inferées, étapes d’entraînement accomplies).
Les standards et analyses soulignent ces limites et la nécessité d’indicateurs complémentaires et de granularité fine au niveau IT et workload. Voir l’analyse de l’Uptime Institute sur l’interprétation du PUE: Uptime Institute – PUE, ce que l’indicateur nous dit (et ne dit pas).
Les bons indicateurs au-delà du PUE
On n’améliore durablement que ce que l’on mesure au bon niveau, au bon moment, avec la bonne unité.
Panorama des métriques essentielles
Empreinte carbone opérationnelle: CUE (Carbon Usage Effectiveness) pour relier émissions et énergie IT.
Empreinte eau: WUE (Water Usage Effectiveness), critique avec le refroidissement liquide ou adiabatique.
Réutilisation d’énergie: ERF (Energy Reuse Factor), pour valoriser la chaleur fatale.
Efficacité “utile”: performance par watt et énergie par unité de travail (J/token, J/inférence, J/itération).
Utilisation et proportionnalité énergétique: taux d’occupation GPU/CPU, pente idle→plein régime (energy proportionality).
Tableau – Métriques clés pour un cluster IA
Mesurer au bon niveau: du site au workload
Pour rendre ces métriques actionnables, instrumentez sur cinq couches, avec un horodatage précis et synchronisé.
Site/infrastructure
Compteurs électriques par tableau, PDU, rangée; mesure de la consommation non-IT.
Capteurs hydriques (make-up water), débit/∆T pour circuits eau/glycol.
Qualité d’air, pression, consignes et cartes thermiques (ASHRAE).
Objectif: fiabiliser PUE, WUE, ERF et fournir le contexte thermique.
Cluster
Énergie par cluster via PDU intelligents et API (Redfish, SNMP).
Mesure des pertes conversion/distribution (UPS, busbar).
Objectif: lier consommation cluster et production IA.
Nœud/serveur
Télémétrie BMC (iDRAC/iLO/Redfish), puissance instantanée, températures, ventilateurs.
Compteurs CPU/GPU/nic; pour CPU, RAPL; pour GPU, NVML/rocm-smi.
Objectif: corréler power draw et goulots (I/O, mémoire, réseau).
Accélérateur (GPU/TPU)
Puissance, horloges, P-states, utilisation SM/TensorCore, HBM.
Objectif: comprendre la proportionnalité énergétique et l’impact du power cap.
Workload
Compteurs applicatifs: itérations/s, tokens/s, pertes, qualité (accuracy/perplexity).
Journalisation pour calculer J/itération, J/token et throughput/W.
Objectif: relier optimisation logicielle au résultat énergétique.
Chez Score Group, notre division Noor ITS – Datacenters conçoit l’instrumentation côté site et cluster, pendant que Noor Technology – Intelligence Artificielle aide à exposer des métriques au niveau des workloads. Noor Energy – Gestion de l’énergie pilote l’efficacité globale et le suivi des consommations.
Outils, protocoles et bonnes pratiques de collecte
Protocoles et APIs: Redfish/IPMI pour serveurs; NVML (nvidia-smi), ROCm-SMI pour GPU; SNMP/Modbus pour PDU/UPS; export Prometheus pour agrégation.
DCIM/BMS: centraliser PUE/WUE/ERF, alarmes et historiques; rapprocher IT et facility.
Étalonnage et échantillonnage: alignez pas de temps (≥1 Hz pour les phases transitoires IA), synchronisez NTP, et calibrez les compteurs clés.
Benchmarks et étalons: utilisez MLPerf Power pour comparer performance/W; pour serveurs généraux, voir SPECpower_ssj2008.
Conditions ambiantes: respect des plages ASHRAE (classe A1–A4) et optimisation des consignes; référence: ASHRAE – Thermal Guidelines.
Normaliser, comparer, décider
Normalisation par unité de valeur: J/token (LLM), J/inférence (vision), J/itération (training), J/échantillon.
Normalisation temporelle: Wh/h pour lisser les variations de courte durée.
Normalisation carbone: CUE avec facteur d’émission réel (local vs market-based; voir GHG Protocol – Scope 2).
Proportionnalité énergétique: favorisez des plages d’utilisation où la pente W vs charge est la plus favorable; consolidez, planifiez les jobs pour maintenir les clusters “dans le vert”.
L’objectif n’est pas seulement d’abaisser le PUE, mais d’augmenter la quantité de calcul utile par kWh et par litre d’eau, tout en réduisant le kgCO2e par unité métier.
Leviers d’optimisation spécifiques aux clusters IA
Scheduling et placement: regrouper les jobs pour limiter l’idle et maintenir les GPU proches de leurs sweet spots.
Power capping intelligent: plafonner à 320–380 W peut maximiser “perf/W” selon les modèles; à valider via NVML/rocm et tests internes.
Optimisations logicielles: mix de précision (FP16/BF16/INT8), quantification, pruning, KV cache, batch sizing.
Réseau et stockage: réduire les attentes I/O (préfetch, pipelines), éviter les bulles d’inactivité des GPU.
Thermique: améliorer le containment, optimiser vitesse ventilateurs, envisager DLC (direct liquid cooling) avec suivi WUE; guidance OCP: Open Compute – Energy Efficiency.
Gouvernance, objectifs et reporting
Cibles multi-métriques: PUE, CUE, WUE, ERF + J/unité métier; évitez l’optimisation d’un indicateur au détriment des autres.
Périmètre et référentiels: clarifiez scope 2 location-based vs market-based (RECs, PPAs) pour le CUE; alignez-vous sur le GHG Protocol.
Cycle d’amélioration continue: baseline → quick wins → optimisations structurelles → révision des cibles.
Rôles et process: rapprocher équipes facility, IT et data science. Chez Score Group, notre approche tripartite Énergie / Digital / New Tech et nos services managés facilitent ce pilotage unifié.
Plan d’action en 90 jours
Semaine 1–2: cadrage des métriques cibles (PUE, CUE, WUE, ERF, J/token/J/itération), périmètre et sources de données.
Semaine 3–4: instrumentation minimale viable (PDU intelligents, NVML/ROCm, Redfish, compteurs eau), pipeline de collecte (Prometheus, logs).
Semaine 5–6: baseline sur 2–3 workloads représentatifs (training, inference), calcul J/unité et perf/W; revue de proportionnalité énergétique.
Semaine 7–8: quick wins (power caps, scheduling, batch/precision), optimisation des consignes thermiques; évaluation WUE.
Semaine 9–12: mise en place d’un tableau de bord opérationnel, cibles trimestrielles, et plan d’investissement (ex: récupération de chaleur pour augmenter ERF).
Pour structurer ou auditer ce plan, découvrez Score Group et nos divisions Noor ITS, Noor Energy et Noor Technology qui agissent de concert.
FAQ – Questions fréquentes
PUE vs CUE: lequel privilégier pour un cluster IA ?
Le PUE mesure l’efficacité d’infrastructure (kWh site/kWh IT) et reste essentiel pour piloter le datacenter. Le CUE (kgCO2e/kWh IT) capture l’impact climatique opérationnel en intégrant le mix électrique (local ou contractualisé). Pour l’IA, utilisez les deux: le PUE pour réduire les pertes (refroidissement, distribution), le CUE pour piloter l’empreinte carbone réelle des jobs. Complétez-les par des métriques “par tâche” (J/token, J/inférence, J/itération) afin de relier énergie et valeur produite par vos modèles.
Comment calculer l’énergie par token pour un LLM en production ?
Instrumentez la consommation électrique au niveau nœud/cluster (PDU + NVML/rocm) et synchronisez-la avec les journaux applicatifs qui comptent les tokens générés. Intégrez ces séries temporelles dans un pipeline (ex: Prometheus + exporter) et calculez l’intégrale d’énergie sur la fenêtre d’inférence, puis divisez par le nombre de tokens. Répétez sur plusieurs charges (context length, température, top-k) pour obtenir un profil robuste en J/token. Cette approche s’aligne avec les recommandations de MLCommons Power.
Le WUE est-il pertinent si j’utilise un refroidissement liquide direct (DLC) ?
Oui. Le DLC améliore souvent l’efficacité thermique et la proportionnalité énergétique, mais il peut mobiliser de l’eau (selon le design: dry coolers vs adiabatique). Le WUE (L/kWh IT) permet de piloter cet impact et d’arbitrer consignes, échangeurs et récupération de chaleur. Suivez les débits, ∆T et l’appoint d’eau, et comparez plusieurs régimes (saisonnalité, consignes) pour optimiser WUE et ERF conjointement. Référez-vous aux guides d’ASHRAE TC 9.9 pour les enveloppes de température recommandées.
Quelles sources utiliser pour calculer le CUE avec un mix électrique variable ?
Le CUE dépend des facteurs d’émission (kgCO2e/kWh). Utilisez une méthode duale: “location-based” à partir de facteurs temporels (par heure/jour, via opérateur réseau ou source publique) et “market-based” selon vos garanties d’origine, PPA ou certificats. Alignez le reporting avec le GHG Protocol – Scope 2. Selon votre région, exploitez les données de l’opérateur (ex: ENTSO-E en Europe) et vos contrats d’énergie pour refléter la réalité opérationnelle et contractuelle.
Quels benchmarks de performance par watt sont adaptés aux workloads IA ?
Pour comparer objectivement, appuyez-vous sur MLPerf avec volet énergie (MLCommons Power) qui rapporte throughput et consommation. À défaut, mettez en place des micro-benchs internes qui publient simultanément débit utile et puissance (via NVML/rocm/Redfish). Pour les serveurs généralistes, SPECpower peut donner un ordre de grandeur. L’essentiel: exprimer la performance en unités métier (images/s/W, tokens/s/W) et compléter avec l’énergie par tâche (J/inférence, J/token).
L’essentiel à retenir
Le PUE seul ne suffit pas: complétez-le par CUE, WUE, ERF et des métriques “par tâche”.
Mesurez sur 5 couches (site → workload) avec horodatage synchronisé et données fiables.
Normalisez par unité métier et par mix électrique pour piloter carbone et coûts.
Activez des leviers IA: scheduling, power capping, mix de précision, optimisation thermique.
Industrialisez le pilotage avec un tableau de bord multi-métriques et des revues régulières.
Envie d’accélérer sans sacrifier la sobriété énergétique? Parlons-en. Contactez-nous via Score Group ou prenez rendez-vous depuis la page Contact. Là où l’efficacité embrasse l’innovation.



