Datacenters : quelle maintenance pour assurer disponibilité et sécurité ?

Dans les environnements de datacenters à haut niveau de disponibilité et de continuité de service d’aujourd’hui, la moindre panne a un coût et souvent des conséquences sur l’image de la société et la qualité de son service. Maintenir le plus haut niveau de disponibilité de tous les équipements techniques est une obligation, par un entretien préventif régulier, une surveillance de tous les process, une intervention efficace et rapide en cas de panne.

Les entreprises, petites ou grandes, sont de plus en plus dépendantes de leur centre de données pour toutes les activités et services. Parfois, comme dans le cas des hébergeurs, c’est même leur principal outil de travail. Gérer et exploiter ce type d’environnement exige que les responsables des installations, les personnels, leurs fournisseurs et partenaires mettent tout en œuvre pour éviter tout incident ou dysfonctionnement.

Un choix judicieux des matériels et solutions techniques mises en œuvre est essentiel, mais ne doit pas pour autant conduire à multiplier les équipements en utilisant des schémas trop complexes, au risque d’entraîner davantage de pannes et de rendre plus délicates les opérations de maintenance/dépannage. Ensuite, ces matériels devront faire l’objet d’un entretien préventif régulier, d’une surveillance et d’un contrôle de tous les process : alimentation électrique sécurisée et groupes électrogènes, distribution électrique et câblage, installations de refroidissement, équipements de surveillance et de sécurité. Et en cas de panne, l’intervention devra être efficace et rapide, tout en assurant la sécurité des personnels de dépannage (plans de sécurité et formation, procédures de consignation, respect de la réglementation de sécurité).

Un entretien régulier pour garantir la qualité des installations techniques
La maintenance préventive, qui implique une détection systématique des dysfonctionnements avant qu’ils ne se traduisent par une panne, concernera le remplacement des pièces et composants, les réglages, le nettoyage de filtres, les mises à jour de logiciels. Les onduleurs et leurs batteries, ainsi que les climatiseurs, sont rapidement concernés par cette maintenance. Ce que confirme Florent Raison, Country Manager France de Vertiv : « Les onduleurs/batteries et les équipements de refroidissement sont critiques pour un datacenter, et la moindre coupure ou arrêt peut coûter des centaines de milliers ou des millions d’euros. La maintenance préventive va permettre de changer des éléments qui vieillissent avant défaillance. Pour les ventilateurs, ce sont des sondes qui détectent les problèmes, et pour les batteries, une mesure permanente de l’impédance et des autotests mensuels comparent mois après mois les caractéristiques de la batterie. Pour les batteries de moyenne et forte puissance, chaque branche a son organe de coupure, mais la qualité des batteries plomb étanche est en hausse et le vieillissement est contrôlé. Dans tous nos onduleurs, le “firmware” surveille la batterie en permanence (impédance et conductivité). Les armoires de climatisation sont les plus critiques et nécessitent 2 à 4 visites par an. »

Contrôle des équipements de baies de serveurs. (c) Vertiv

Des solutions modulaires pour favoriser la maintenance
De nombreux équipements ou fonctions sont installés en redondance, notamment l’arrivée moyenne tension qui peut être doublée, les onduleurs installés en redondance N+1 ou 2N, les inverseurs de source sans coupure, les groupes électrogènes en redondance N+1. Mais la conception de certains de ces équipements est souvent modulaire pour suivre le développement des capacités d’un site. Cette modularité peut aussi permettre de changer un module en panne (module ou tiroir débrochable) « à chaud », c’est-à-dire sans altérer la fonction assurée et sous tension. Car, explique Florent Raison, « la modularité réduit le MTTR (Mean Time To Repair, temps moyen de réparation) et c’est particulièrement important pour les petits datacenters isolés : cela réduit le temps d’intervention avec des matériels modulaires, hot-swappable. Le seul frein du modulaire est le poids des modules pour la mise en place par le technicien. Mais il existe pour les onduleurs de puissance des solutions comme Liebert Trinergy Cube (de 150 kW à 3,4 MW) avec des fonctions de diagnostic à distance et de maintenance prédictive, afin de déterminer les besoins en maintenance et garantir une continuité critique, une analyse des événements et un enregistrement de données ».

Cette solution débrochable a été adoptée par ABB pour sa nouvelle gamme de disjoncteurs Smissline. Pour Didier Payelleville, responsable du segment Datacenter d’ABB France, « ces disjoncteurs sur socle enfichable permettent de débrancher et brancher les équipements sans charge sous tension, le câblage d’entrée étant intégré au socle ; une solution pour les applications à forte disponibilité telles que les technologies de l’information ou les hôpitaux ».

Les limites de ces solutions modulaires sont le coût plus élevé et, dans certains cas, une complexité plus grande des câblages, des châssis, et une augmentation du nombre de composants et de fonctions, donc potentiellement une augmentation du risque de panne et du nombre d’interventions de dépannage, même si celles-ci se font avec moins d’urgence. Cela suppose également une bonne gestion des modules de rechange et de leur niveau technique.

Maintenance de batteries d’onduleur en rack. (c) Eaton

L’importance de la formation des techniciens de maintenance
Jérôme Totel, vice-président Sales Engineering & Product Development du groupe Data4, qui opère 15 datacenters en Europe, explique : « Nous travaillons avec des fournisseurs sur la durée et en partenariat, mais nous réalisons aussi des opérations en interne pour assurer certaines prestations techniques qu’attendent nos clients. » Mais la situation peut être différente pour les petits datacenters du Edge Computing, qui traitent les données à proximité du site qui les produit plutôt que de les envoyer dans le cloud.. Pour Philippe Lebreton, VP Field Services de Schneider Electric, « le Edge va remettre en cause beaucoup de choses pour les services : le client veut un support du constructeur avec une seule adresse IP, pouvoir localiser son datacenter (qui peut être un serveur perdu dans un centre commercial), guider du personnel non qualifié, rebooter à distance ».

« Un onduleur est un maillon critique de la chaîne de disponibilité, tout comme peut l’être un groupe électrogène ou un groupe de production froid, explique Patrick Marty, Business Developer and Marketing Service offers PCS&EE de Socomec. De ce fait, beaucoup de clients Datacenter privilégient l’entretien de leurs utilités critiques directement ou indirectement par le constructeur, qui doit lui garantir un service d’excellence dans sa maintenance préventive et corrective. Depuis de nombreuses années, Socomec travaille en étroite collaboration avec ses clients pour améliorer sans cesse la qualité de ses interventions ». Cette garantie d’excellence couvre notamment :
– la gestion des incidents, avec un processus d’escalade dédié ;
– la qualification spécifique des intervenants, qui suivent un cursus adapté ;
– la proximité, avec plus de 80 techniciens couvrant le territoire national, certains contrats clients exigeant une présence sur site en moins de 4 heures ;
– la logistique des pièces détachées d’origine disponibles 24/7 prioritairement, partout dans le monde.

La suppression de l’erreur humaine comme cause numéro un des interruptions de système nécessite de recruter et de former du personnel compétent comptant des spécialistes de plusieurs disciplines avec, de plus en plus, une connaissance des systèmes de gestion de la maintenance informatisée, des systèmes de gestion des infrastructures de centre de données (DCIM) et de gestion du bâtiment (BMS). Ces personnels doivent être préparés aux situations d’urgence pour tous les scénarios de panne à haut risque (mise en place de procédures opérationnelles d’urgence).

« Pour ces personnels, les formations en ligne deviennent de plus en plus importantes et on assiste à une numérisation des services avec des solutions de réalité augmentée, avec caméra sur tablette », explique Philippe Lebreton.

Opération de contrôle et de maintenance de groupes électrogènes d’un datacenter. (c) Socomec

Les solutions DCIM pour une maintenance plus efficace
Florent Raison explique : « L’offre Trellis de Vertiv est modulaire, et une solution comme Trellis Critical Insight (application de visualisation et suivi en temps réel des infrastructures critiques) est particulièrement utile pour des sites isolés, et sera de plus en plus courante dans les petits sites en permettant de surveiller, mesurer et prédire des événements. Le DCIM permet de faire de la planification et de mieux gérer l’installation et l’énergie avec des contrats qui visent à l’optimisation de l’efficacité. Cela peut aller jusqu’à des contrats de type “Energy Saving As a Service”, avec des investissements de réduction d’énergie, un engagement et des mesures et contrôles. Pour les climatisations, le DCIM va permettre d’éviter les points chauds avec des mesures à distance. Vertiv peut proposer d’autres services, où les données du client disposées dans le cloud, accessibles à la fois par le client et par le constructeur, seront exploitées plus efficacement encore pour mieux analyser les conditions d’environnement et proposer des axes d’amélioration et d’optimisation tels que la diminution du PUE, par exemple. »

De son côté, Schneider Electric utilise sa plateforme EcoStruxure pour le sujet spécifique du datacenter. Selon Philippe Lebreton, « EcoStruxure migre vers le cloud, ce qui veut dire que l’on aura de l’intelligence artificielle, du big data, du machine learning pour aller vers une maintenance conditionnée au vieillissement des composants et aux conditions du site (par exemple la température), et on aura le bénéfice de tous les ensembles connectés (modèles de vieillissement provenant de tous les objets connectés à la plateforme). Nous avons aussi développé EcoStruxure Asset Advisor, qui offre une approche proactive pour la distribution électrique et les applications critiques des datacenters, en associant les technologies IoT et du cloud aux experts et aux services de Schneider Electric, pour proposer une analyse prédictive assurant la continuité de l’activité. Les services d’EcoStruxure Asset Advisor permettent d’anticiper et de traiter les problèmes avant qu’ils ne se transforment en incidents critiques, réduisant ainsi les risques et évitant les arrêts non planifiés, les pertes opérationnelles et les interventions de maintenance coûteuses ».
On assiste donc à une digitalisation des services de maintenance, plus faciles à contacter, avec de nouveaux modes de communication et de décision : face à un problème générant 100 alarmes, le tri sera fait par un système expert pour aider le décideur.

D’autres matériels font aussi l’objet d’une maintenance régulière, c’est en particulier le cas des groupes électrogènes, qui sont indispensables en cas de coupure longue pour prendre le relais des onduleurs. Un entretien préventif est essentiel, car moins le matériel est utilisé et plus il a de chances de ne pas être performant au moment de la demande.
Dans un tout autre domaine, mais aussi crucial pour le datacenter et ses kilomètres de câbles et de fibres optiques, Fluke Networks propose des équipements de test, de nettoyage et de dépannage des câbles à fibres optiques.

Jean-Paul Beaudet

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *