Salle de bain

Fiabilité de l’équipement de la courbe de la baignoire et du centre de données


Lorsqu’il s’agit de dépenser des dizaines de milliers de dollars pour un rafraîchissement, vous devez évaluer vos besoins et accéder aux faits pour prendre la bonne décision pour votre environnement. (Photo: Service Express)


Jake Blough, directeur de la technologie pour Service Express, explore la théorie de la courbe de baignoire, ses limites et la fiabilité et la maintenance de l’équipement du centre de données.

Jake Blough, directeur de la technologie, Service Express

Lorsque vous explorez les théories de l’ingénierie de la fiabilité, vous trouverez rapidement la courbe de baignoire largement utilisée. Selon cette théorie, lorsqu’un produit est nouveau sur le marché, il existe des taux importants de défaillances précoces – qui résultent généralement d’une erreur de manipulation ou d’installation. À l’approche de la fin de vie du produit, le taux augmente en raison d’une deuxième et dernière vague de défaillances d’usure. Bien que la courbe de la baignoire, illustrée ci-dessous, reflète avec précision le comportement de défaillance de nombreux produits, nous avons constaté qu’elle ne s’applique pas universellement à l’équipement du centre de données.

Examen des données de fiabilité

Chez Service Express, nous avons collecté plus de 15 ans de données d’équipement sur plus d’un demi-million d’appareils. Les données suivent quand l’équipement casse, comment il casse et à quelle fréquence il casse. L’hypothèse courante est que ces appareils devraient avoir un taux de défaillance plus élevé à leurs débuts, puis à nouveau vers la fin de leur vie. Cependant, en examinant les pannes de serveur et de stockage non critiques et critiques, nos données montrent que les taux de défaillance des équipements ne suivent pas la courbe de la baignoire comme prévu.

équipement de centre de données

Défaillances critiques du serveur

Un échec critique se produit lorsque quelque chose comme un CPU ou une carte système tombe en panne. Les pannes critiques de serveurs entraînent une perte d’accès aux applications ou aux données, ce qui affecte la productivité de l’entreprise. Dans le graphique ci-dessous, vous verrez que la plupart des machines présentent un taux de défaillance entre 0% et 0,2%, une valeur aberrante ayant un problème de production précoce de 0,3%. Ces taux restent presque identiques sur une durée de vie de 10 à 15 ans.

équipement de centre de données

Défaillances de serveur non critiques

Une défaillance non critique se produit lorsqu’un composant tel qu’une unité de disque ou un bloc d’alimentation tombe en panne. L’équipement de centre de données moderne a une redondance intégrée pour ces composants, donc aucune perte de données ou d’accès ne se produit dans ces cas. Dans le graphique ci-dessous, vous verrez un ensemble de données de suivi des pannes de serveur non critiques de plusieurs modèles sur 13 ans.

équipement de centre de données

Vous pouvez voir que les défaillances non critiques augmentent à peine avec le temps avec un taux de défaillance inférieur à 0,5%; cela correspond au nombre de composants installés dans le système. Plus il y a de composants dans un système, plus il y a de chances de vulnérabilité d’une pièce. L’augmentation des défaillances vers la fin de vie observée ici est attribuée au nombre de composants du système par rapport au facteur d’usure associé à la courbe de la baignoire. Les systèmes dans un facteur de forme de lame affichent des instances non critiques beaucoup plus faibles que les grands systèmes de facteur de forme 4U à 4 CPU.

Échecs de stockage critiques et non critiques

Les périphériques de stockage sont constitués de trois types de composants, y compris les unités de disque critiques, non critiques et de disque. Les parties critiques incluent généralement des processeurs de stockage, tandis que les parties non critiques incluent les batteries de cache, les blocs d’alimentation et les ventilateurs.

Les systèmes de stockage sont conçus pour être incroyablement résistants et tolérants à de multiples défaillances avant que les données ne soient impactées. Nous considérons les processeurs de stockage comme les composants les plus critiques, car la perte d’un processeur de service affectera les performances globales. Dans le graphique ci-dessus, vous pouvez voir les pannes critiques, non critiques et de lecteur pour un système de stockage OEM populaire. Notez que sur cinq ans, les pannes de stockage critiques se produisent entre 0,1% et 0,2%, entraînant environ une panne sur 1 000 systèmes par mois. Les pannes non critiques sont généralement causées par des batteries de cache qui doivent être remplacées tous les 3 à 5 ans.

équipement de centre de données

Échecs de lecteur de disque

Le graphique ci-dessus représente les données de toutes les pannes d’unité de disque sur six ans. Vous pouvez voir que les lecteurs de disque connaissent un taux de défaillance compris entre 0,2% et 0,3%. Cela signifie qu’au fil du temps, les lecteurs de disque sont beaucoup plus résistants que ce que l’on pourrait croire.

La fiabilité à long terme des équipements illustrée par les données est une bonne nouvelle pour les services informatiques. Ces données sur les défaillances vont à l’encontre de la recommandation traditionnelle pour une actualisation matérielle basée sur l’attente d’une augmentation des défaillances avec le vieillissement de l’équipement. Vous pouvez prendre en compte une fiabilité de l’équipement plus longue et des économies de coûts lorsque vous envisagez le moment de votre rafraîchissement.

Votre prochain Data Center Refresh

Bien sûr, il existe des raisons valables de prendre en charge le coût et le temps d’une actualisation matérielle. Les principaux facteurs qui doivent déterminer quand une mise à niveau matérielle est nécessaire sont les suivants:

  • Compatibilité logicielle
  • Compatibilité matérielle entre les appareils
  • La capacité de performance a été dépassée

Si votre équipement répond à vos besoins immédiats, pensez plutôt à retarder votre rafraîchissement. Retarder une actualisation inutile peut vous aider à réduire vos dépenses en CapEx et à améliorer la valeur de votre investissement d’origine.

Lorsqu’il s’agit de dépenser des dizaines de milliers de dollars pour un rafraîchissement, vous devez évaluer vos besoins et accéder aux faits pour prendre la bonne décision pour votre environnement. Sur la base de nos données de fiabilité qui montrent des taux de défaillance stables dans le temps pour les serveurs et les équipements de stockage, nous recommandons une actualisation tous les 7 à 10 ans. Votre cycle de rafraîchissement doit toujours être guidé par la compatibilité, la capacité et la fiabilité.

Jake Blough est le directeur technologique de Service Express.