Refroidissement datacenter : fiabilité et densité GPU

10 févr.
9 min de lecture

Intérieur de datacenter moderne en allée froide, racks GPU haute densité avec tuyauterie de refroidissement liquide et échangeur arrière, éclairage bleu/cyan, LEDs vertes, focus premium sur le refroidissement datacenter et la fiabilité.

Le refroidissement n’est plus un “lot technique” secondaire : c’est un facteur de fiabilité et de capacité.

Si vous cherchez comment dimensionner un refroidissement datacenter capable d’absorber la montée en puissance des GPU (IA, HPC), tout en sécurisant l’exploitation (pannes, dérives thermiques, humidité, fuites, maintenance), cet article vous donne une méthode claire, des repères concrets et les principales architectures possibles.

Le contexte est simple : la demande énergétique et la densification des salles continuent d’augmenter. L’IEA estime la consommation électrique mondiale des data centers à 240–340 TWh en 2022 (hors crypto), soit environ 1–1,3% de la demande finale mondiale d’électricité. (iea.org)

Pourquoi le refroidissement devient critique à l’ère des GPU

La densité “moyenne” reste modérée… mais l’IA change l’équation

Les enquêtes sectorielles montrent que la densité la plus courante reste encore relativement contenue : selon les résultats d’enquête Uptime (2024), les densités de racks augmentent mais restent en moyenne sous ~8 kW, et la plupart des sites n’ont pas de racks au-delà de 30 kW (souvent seulement quelques-uns quand c’est le cas). (uptimeinstitute.com)

La difficulté, en pratique, vient des îlots GPU (training IA, calcul scientifique, rendu, etc.) : quelques rangées peuvent concentrer une part majeure de la charge thermique. Résultat : on peut avoir un datacenter “globalement” stable, mais localement en stress (hotspots, recirculation, pertes de marge sur les UPS/PDUs, variation brutale de charge).

Fiabilité : la thermique impacte directement le risque opérationnel

Au-delà du confort thermique, la température influence le vieillissement de composants et la stabilité : des modèles de fiabilité s’appuient sur des lois d’accélération (type Arrhenius) pour relier température et taux de défaillance. Par exemple, un article technique détaille comment une baisse de température de jonction peut réduire significativement le taux de pannes (illustration par calcul Arrhenius sur semi-conducteurs). (edn.com)

Et côté disponibilité, l’industrie progresse, mais les incidents existent toujours : Uptime souligne que l’alimentation électrique reste une cause majeure d’incacts, et que de nombreux incidents sont liés à des procédés, changements, ou erreurs humaines (procédures non suivies). (uptimeinstitute.com)

Les fondamentaux d’un bon refroidissement de centre de données

Le bon indicateur : température à l’entrée serveur, pas “température de salle”

En exploitation, la question utile est : quelles conditions voient réellement les équipements (entrée serveur, points chauds, delta-T, pression statique, recirculation). Les recommandations ASHRAE (édition 2021 citée) sont fréquemment résumées ainsi : plage recommandée 18–27°C pour les classes A1 à A4, avec des plages “allowable” plus larges selon la classe. (techtarget.com)

Airflow : éviter la recirculation avant d’ajouter des kW de froid

Beaucoup de “problèmes de refroidissement datacenter” sont d’abord des problèmes d’aéraulique : court-circuit d’air, fuites de confinement, obturation insuffisante (blanks), câblage perturbant le flux, perforations mal positionnées, déséquilibre des vitesses de ventilateurs IT vs CRAC/CRAH, etc.

Objectif 1 : maximiser la part d’air froid utile (à l’entrée) et minimiser les mélanges.
Objectif 2 : stabiliser les gradients (vertical/horizontal) dans le rack.
Objectif 3 : conserver des marges d’exploitation (maintenance, pics de charge, incident partiel).

Humidité et point de rosée : un sujet de fiabilité, pas seulement de confort

La maîtrise de l’humidité vise surtout à éviter deux extrêmes : condensation (risque matériel) et ESD (risque lors des interventions). Les recommandations exactes dépendent des classes d’équipement et des politiques d’exploitation, mais la démarche reste la même : piloter via point de rosée et non uniquement via %RH, et vérifier la cohérence avec la stratégie d’économisation (free cooling, adiabatique, etc.). (techtarget.com)

Panorama des solutions de refroidissement datacenter (air et liquide)

Refroidissement à air optimisé : la base, tant que la densité le permet

Le refroidissement à air reste dominant et peut être très performant lorsqu’il est correctement conçu : confinement allées chaudes/froides, gestion des fuites, bonne sélection CRAH/CRAC, réglages des consignes, variateurs, et stratégie d’économisation (selon climat et contraintes). Il est aussi généralement plus simple à maintenir dans des environnements “IT généralistes”.

Quand le liquide devient pertinent (et de plus en plus courant)

Pour les charges à forte densité (souvent GPU), les approches liquid cooling (direct-to-chip, rear-door heat exchanger, immersion) gagnent du terrain. En 2024, Uptime indique que 22% des répondants déclarent que leur organisation fait un certain usage du direct liquid cooling (DLC), et que beaucoup d’autres l’envisagent. (intelligence.uptimeinstitute.com)

Le liquide n’est pas “magique” : il déplace les contraintes (hydraulique, échangeurs, CDUs, contrôle des fuites, procédures MOP/SOP/EOP, formation), mais il apporte une réponse pragmatique quand l’air ne peut plus évacuer la chaleur localement sans surventilation, sur-refroidissement ou perte de marge.

Tableau de choix (repères pratiques)

Le tableau ci-dessous propose des repères d’orientation (à valider par étude thermique, contraintes bâtiment, niveau de redondance, et profil de charge GPU). Les seuils exacts varient selon équipements, implantation et objectifs de résilience.

Comparatif des approches de refroidissement pour densité et fiabilité

Approche	Où l’échange thermique se fait	Points forts (densité / exploitation)	Points de vigilance (fiabilité / maintenance)	Cas d’usage typique
Air + confinement (HAC/CAC)	Salle (CRAC/CRAH) + circulation maîtrisée	Architecture connue, évolutive par zones, bon ratio efficacité/complexité si l’aéraulique est maîtrisée	Recirculation, fuites, déséquilibres pression, bruit/consommation ventilateurs IT si densité locale élevée	Datacenter “généraliste”, densité modérée et homogène
In-row / in-rack (air assisté)	Au plus près des racks	Améliore la maîtrise locale (hotspots), facilite le zonage “GPU vs standard”	Multiplication d’équipements à maintenir, intégration aéraulique critique	Rénovation, salles mixtes, montée en densité progressive
Rear Door Heat Exchanger (RDHx)	À l’arrière du rack (porte échangeur)	Capte une grande part de chaleur au rack, utile pour “booster” quelques racks denses sans tout refondre	Hydraulique au rack, contrôle fuites/condensation, compatibilité racks/portes, procédures d’intervention	Îlots GPU dans une salle existante, approche intermédiaire
Direct-to-Chip (cold plates + CDU)	Au contact CPU/GPU + boucle eau/fluide	Très efficace sur charges GPU, réduit la dépendance à l’air pour les composants les plus chauds	Conception hydraulique, qualité d’eau, détection fuites, formation équipes, intégration aux MOP/EOP	IA/HPC, clusters denses, nouvelles zones dédiées
Immersion (mono/bi-phase)	Serveurs immergés dans un fluide diélectrique	Potentiel élevé sur densité et uniformité thermique, réduction de certains besoins aérauliques	Process IT spécifiques (matériel compatible), logistique, maintenance, gouvernance des fluides	Workloads très denses, projets dédiés et standardisés

Fiabilité : les risques “cachés” quand la densité GPU augmente

Hotspots, dérives et “thermal throttling” : le risque performance devient un risque SLA

Les GPU et serveurs modernes protègent le matériel via des mécanismes de throttling : quand la température monte, la performance peut chuter. Même sans panne franche, cela peut dégrader un SLA (latence, temps de traitement, délais d’entraînement IA). Un bon design de refroidissement vise donc la stabilité (peu de variations) autant que la “capacité de froid”.

Humidité, point de rosée et condensation (notamment avec économisation)

Plus vous poussez l’économisation (free cooling, adiabatique), plus vous devez piloter finement le compromis : efficacité énergétique vs maîtrise du point de rosée. La référence opérationnelle reste de s’aligner sur les recommandations de l’industrie (plages “recommended” vs “allowable”) et de documenter des scénarios saisonniers (hiver sec, mi-saison humide, canicule, etc.). (techtarget.com)

Liquide : fuites, procédures et observabilité

Le refroidissement liquide exige une approche “data center grade” : matériaux, redondance (si nécessaire), capteurs, alarmes, tests, et surtout procédures. En pratique, ce n’est pas tant la présence d’eau qui inquiète, que l’absence de mécanismes robustes : détection de fuite, isolement rapide, consignations, MOP/SOP, et une supervision qui corrèle thermique + hydraulique + IT.

Passer à des îlots GPU : méthode de conception sans “sur-refroidir” tout le site

1) Cartographier la charge : puissance, variabilité, et contraintes de rack

Avant de choisir air ou liquide, il faut qualifier :

Puissance IT (kW) par zone et par rack, pas seulement au global.
Variabilité (pics courts, ramp-up, cycles jour/nuit, jobs IA).
Contraintes physiques : hauteur sous plancher, chemins d’air, charge au sol, espaces de maintenance.

Les données Uptime illustrent bien cette réalité “hybride” : la densité la plus courante reste souvent sous ~8 kW, mais quelques racks très denses apparaissent et vont se multiplier. (uptimeinstitute.com)

2) Zoner : standard vs haute densité (GPU) avec règles d’exploitation distinctes

Une bonne pratique consiste à créer des zones thermiques :

Zone standard (air optimisé) : confinement, airflow maîtrisé, consignes alignées, marges de maintenance.
Zone haute densité (GPU) : solutions au plus près (in-row, RDHx, direct-to-chip), instrumentation renforcée.

3) Assurer la cohérence énergie + refroidissement

À forte densité, le refroidissement ne se pense pas sans l’énergie : capacités UPS, distribution (PDUs, busways), sélectivité, et scénarios de bascule. Comme le rappelle Uptime, les sujets d’alimentation restent une source majeure d’incidents significatifs dans l’industrie, ce qui impose une ingénierie rigoureuse et une exploitation disciplinée. (uptimeinstitute.com)

Pilotage, métriques et optimisation continue

PUE : une métrique utile si elle est mesurée correctement

La PUE (Power Usage Effectiveness) reste la métrique la plus utilisée pour suivre l’efficacité énergétique d’un datacenter. Elle est normalisée par ISO/IEC : la version ISO/IEC 30134-2:2026 a été publiée en janvier 2026 et remplace l’édition précédente, avec des règles de mesure et de reporting pour mieux comparer dans le temps. (iso.org)

Attention : optimiser la PUE ne doit pas se faire au détriment de la fiabilité (marges thermiques, qualité d’air, maintenance). L’objectif est un pilotage “en équilibre” : performance IT, disponibilité, énergie, et contraintes environnementales.

Supervision : l’observabilité thermique est un prérequis (capteurs, tendances, alertes)

À densité GPU, les décisions doivent s’appuyer sur des données : température entrée rack, delta-T, vitesse d’air, pression, humidité/point de rosée, consommation ventilateurs IT, et (si liquide) températures aller/retour, débit, pression, alarmes fuite. C’est aussi ce qui rend possible des stratégies avancées (réglages dynamiques, prédictif, jumeau numérique).

Valorisation de chaleur : une option à étudier selon le contexte

Dans certains environnements, la chaleur fatale peut devenir un levier (bâtiments, réseaux de chaleur, process). L’IEA rappelle que les pompes à chaleur peuvent valoriser des sources de chaleur comme les data centres pour des réseaux de chauffage urbain, selon la proximité et les conditions locales. (iea.org)

Chez Score Group : une approche intégrée Énergie, Digital et New Tech

Chez Score Group, notre positionnement d’intégrateur global s’appuie sur une architecture tripartite : Énergie, Digital et New Tech, pour améliorer à la fois la performance, la durabilité et l’exploitabilité des infrastructures. Notre signature : Des solutions adaptées à chacun de vos besoins. Pour en savoir plus, vous pouvez consulter notre site score-grp.com.

Notre division Noor ITS intervient sur la conception et l’optimisation de datacenters, notamment sur les architectures de refroidissement, la résilience et la cohérence avec l’infrastructure IT : DataCenters et IT Infrastructure.
Notre division Noor Energy accompagne la mesure et l’optimisation des consommations et le pilotage des installations : Gestion de l’Énergie et Gestion du Bâtiment.
Notre division Noor Technology aide à instrumenter et exploiter la donnée terrain (capteurs, connectivité, monitoring) pour une meilleure observabilité des risques thermiques : Smart Connecting.
Pour pérenniser la performance, nous proposons aussi un cadre d’exploitation via Services Managés (selon périmètre et SLA définis).

Là où l’efficacité embrasse l’innovation… L’enjeu n’est pas seulement de “faire du froid”, mais de construire un refroidissement datacenter mesurable, maintenable et aligné avec la trajectoire GPU/IA.

FAQ – Refroidissement datacenter (questions fréquentes)

Quelle température viser dans un datacenter pour préserver la fiabilité des équipements ?

En pratique, on vise la température à l’entrée des serveurs, pas la moyenne de la salle. Les recommandations ASHRAE (édition 2021 citée) indiquent une plage recommandée de 18 à 27°C pour les classes A1 à A4, avec des plages “allowable” plus larges selon les équipements. (techtarget.com) Pour la fiabilité, l’important est la stabilité (éviter les pics et gradients), la maîtrise du point de rosée et la réduction des hotspots (recirculation, fuites, obturation). Une validation par mesures (capteurs en façade, cartographie) reste indispensable.

À partir de quelle densité faut-il envisager le refroidissement liquide pour des racks GPU ?

Il n’existe pas un seuil universel, car tout dépend de l’aéraulique, du confinement, des serveurs (débits d’air), et de l’objectif de marge. Cela dit, l’industrie observe une montée du liquid cooling : Uptime indique qu’en 2024, 22% des répondants déclarent déjà un certain usage du direct liquid cooling. (intelligence.uptimeinstitute.com) Dès que vous introduisez quelques racks très denses (souvent GPU), la question devient : “faut-il surdimensionner toute la salle à air, ou traiter localement (RDHx, direct-to-chip) ?”. Une étude thermique par zones est la méthode la plus sûre.

Comment éviter les problèmes de condensation quand on optimise l’efficacité énergétique (free cooling, adiabatique) ?

Le risque de condensation se gère en pilotant l’humidité via le point de rosée et en gardant une marge entre surfaces froides et conditions d’air. Les bonnes pratiques incluent : capteurs humidité/DP en plusieurs points, consignes saisonnières, scénarios “air extérieur humide”, et règles d’exploitation claires (bascule, alarmes, maintenance). Les recommandations ASHRAE (édition 2021 citée) fournissent un cadre “recommended vs allowable” pour éviter des conditions extrêmes. (techtarget.com) Enfin, toute modification de stratégie (économisation plus agressive) doit être validée par mesures et tendance, pas uniquement par calcul.

Comment mesurer si mon refroidissement datacenter est réellement performant (au-delà du ressenti) ?

Commencez par des indicateurs “terrain” : température d’entrée serveurs, delta-T, taux de recirculation, consommation ventilateurs IT, alarmes, et cartographie des hotspots. Ensuite, suivez une métrique globale comme la PUE, normalisée par ISO/IEC (la norme ISO/IEC 30134-2:2026 remplace l’édition précédente), qui structure la mesure et le reporting. (iso.org) L’erreur classique est d’optimiser la PUE en “serrant” trop les marges thermiques : l’objectif est une performance mesurable sans dégrader la fiabilité ni la maintenabilité.

Et maintenant ?

Si vous préparez une montée en densité (GPU/IA) ou une rénovation de salle, l’étape la plus rentable est souvent de cartographier l’existant (airflow, consignes, points chauds, marges électriques) puis de construire une trajectoire “zones standard + îlots haute densité”. Pour engager une étude et cadrer une architecture adaptée, vous pouvez contacter Score Group via notre page Contact et découvrir l’accompagnement de notre division Noor ITS.

Le Digital

La New Tech

L'Énergie

Nos Divisions