Le rêve d'un système disponible à 100%; comment éviter un arrêt cauchemardesque sur le système i

Rédigé par Francois Desjardins | 30 sept. 2015 16:15:00

Souvent les chefs d'entreprise perçoivent les solutions de haute disponibilité comme rien d'autre qu'une police d'assurance. Dans les faits, c'est beaucoup plus que cela. Oui, cela sécurise de savoir qu'on a un système déjà prêt advenant un bris, une catastrophe ou tout autre imprévu, mais en plus, on peut se servir de cet environnement pour permettre la continuité des affaires 24/7, en faisant les sauvegardes sur le second serveur. On peut envoyer des requêtes qui mobilisent des ressources considérables sur le second serveur, sans avoir d'impact sur la production. On peut faire des tests sans impact sur la production avant la mise en production. De plus, les mises à jour ou remplacements de serveur peuvent désormais se faire de jour plutôt que les fins de semaine et devoir payer du surtemps.

Ci-dessous, vous trouverez des extraits d’un article de blogue rédigé par notre partenaire Traders, qui offre des solutions de haute disponibilité et continuité pour le Système i d’IBM. Le contenu de cet article est un focus sur les pannes, des plus fréquentes aux plus improbables, et les moyens d’y remédier sans arrêt « cauchemardesque » de la production.

Le serveur Power d’IBM. Pensée et conçue selon le concept RAS (Reliability, Availability, Serviceability), la machine de production Power i dispose, de base, d’une intelligence « matérielle » (Hyperviseur, composant de PowerVM) et « logicielle » (Microcode IBM i) qui lui permet en temps réel d’adopter la conduite à tenir et de prendre les décisions les plus pertinentes pour atténuer des dysfonctionnements éventuels. Cependant, elle n’est pas à l’abri de pannes plus importantes d’origine matérielle ou logicielle voire liée à son environnement.

Les pannes matérielles, les plus fréquentes et les mieux maîtrisées

Sujets à l’usure de par leur fonctionnement, les sous-systèmes de disques sont la première cause de panne suite au dysfonctionnement d’une unité physique (HDD). Plusieurs options de sécurité permettent, directement dans le système d’exploitation, d’éviter la perte de données et d’assurer le fonctionnement, même dégradé – protection Raid et disque « Hot Spare », voir protection en miroir. Ces niveaux de protection matérielle sont aujourd’hui obligatoires lors de la configuration initiale de la partition IBM i. Les pannes des modules d’alimentation électrique peuvent également survenir. Elles sont prévues dès la conception du serveur via des blocs d’alimentation redondants remplaçables à chaud, donc sans arrêt de production. Il en va de même pour les unités de refroidissement (ou ventilateurs) qui, en nombre, disposent chacun d’un capteur de panne potentiel et de sondes thermiques en vue d’éviter tout risque de surchauffe. Extrêmement rares, les pannes électroniques des serveurs Power sont rapidement circonscrites, la plupart des circuits étant en doublon, ou du moins capable d’être isolés par l’intelligence de la machine qui s’auto-surveille et déclenche des alertes vers le centre de support d’IBM. La plupart des pannes peuvent être facilement détectées de manière préventive ou proactive et solutionnées par une maintenance adéquate et quasi incontournable !

Les pannes logicielles IBM i, rares et synonymes de ralentissement et non d’arrêt

Nul ne peut contester que le système d’exploitation IBM i s’illustre par sa fiabilité et sa robustesse. Chaque nouvelle version ou mise à jour, via les « technology refresh » à partir de la version 7.1 … est éprouvée par le constructeur, qui effectue une maintenance au fil du temps par la mise à disposition de correctifs, voire de nouveaux modules (Cumulatives et Service Packs)… En cas de problème du code IBM, se manifestant souvent par une utilisation hors normes du système (CPU, Mémoire), le système a été pensé pour isoler la « défaillance » sans provoquer un crash de la partition. A cela s’ajoute que l’administrateur dispose de tous les outils intégrés pour réagir de manière efficiente. Ces pannes peuvent entraîner une perturbation du système ou de la partition mais très rarement son arrêt. Une nouvelle fois, une maintenance proactive des niveaux de logiciels IBM préserve « l’état de santé » du serveur et s’avère être un prérequis.

Les pannes liées à l’environnement, souvent sous estimées et pourtant les plus dévastatrices

Les pannes qui impactent le plus le serveur jusqu’à son arrêt sont très souvent liées à des causes externes comme une panne de climatisation, un onduleur ou un disjoncteur défaillant. La plus courante : la panne de climatisation qui entraîne une surchauffe des équipements et donc des dilatations exagérées des matériaux, mettant en péril la stabilité et la fiabilité des disques internes ou externes. Dans ce cas, un refroidissement brutal par abaissement très rapide de la température n’est pas la solution ; la machine Power, comme tout matériel informatique, honnit les variations brutales de températures. L’intelligence de la machine, en cas de surchauffe ou de défaillance d’alimentation électrique, arrête la production dans 100% des cas ! Il ne faut pas également sous-estimer les risques liés à l’environnement dans une vision plus large – intempéries, catastrophes naturelles, qui malheureusement se multiplient et n’épargnent aucune région. Si un contrôle régulier des équipements d’infrastructure s’impose sous la responsabilité des moyens généraux de l’entreprise, seule une solution de haute disponibilité globale, gage de réplication en temps réel des données, peut éviter un arrêt de production, ou du moins en limiter l’impact !

Conclusion

Les pannes matérielles et logicielles peuvent être vite résolues dans le cadre de contrats de maintenance, étudiés et mis en œuvre selon des besoins précis de disponibilité du système. Elles impactent le système mais sont rarement à l’origine de son arrêt définitif. Il n’en va pas de même des pannes liées à l’environnement qui entrainent en cascade incontrôlable des problèmes de production, à court, moyen et long terme jusqu’à la paralysie du système d’information et de l’entreprise. La seule parade efficace et éprouvée pour le système Power i est la haute disponibilité qui repose sur un site distant associée à un produit de réplication logicielle en temps réel, comme QuickEDD de Trader's. Autant que faire se peut, cette solution trouve également toute sa légitimité dans les pannes matérielles et logicielles.

Le proverbe ne pas mettre tous ses œufs dans le même panier n’a jamais été aussi pertinent, avec ce que l’on sait de la haute disponibilité, de la continuité des affaires et de la dépendance critique de la compagnie à ses serveurs.

Voir l'article complet