Pour définir une stratégie de continuité d'activité adaptée et équilibrée, les entreprises doivent tenir compte d'un large éventail de paramètres. En particulier, elles doivent s’interroger sur leurs objectifs de point de récupération (RPO) et objectifs de temps de récupération (RTO) qui sont les indicateurs clés pour répondre aux deux questions fondamentales :
• Quelle quantité de données est-il acceptable de perdre (RPO) par service ou chaine de service?
• En combien de temps le service ou la chaine de service (RTO) doivent-ils être restaurés?
Les applications les plus critiques ayant les valeurs de RPO et RTO proches de zéro, sont celles qui posent les défis les plus exigeants tels que :
• Éliminer les points de défaillance uniques;
• Minimiser les coûts d'infrastructure;
• Gérer de manière simplifiée la haute disponibilité;
• Gérer automatiquement les pannes et l’équilibrage de la charge;
• Fournir un service continu même en cas de panne de site.
Les spécificités de VMware Metro Storage Cluster permettent-elles d’atteindre ces niveaux de disponibilité et de performance ? Voici nos réponses et recommandations.
La technologie ainsi utilisée se nomme VMware Metro Storage Cluster (vMSC), également appelée Stretched Cluster ou grappe étendue.
VMware vMSC fournit aux entreprises les avantages d’un cluster de haute disponibilité local tels que :
• vMotion et DRS (migration de VM et répartition dynamique des VMs entre hôtes sans interruption de service);
• HA (redémarrage automatique de VM en cas de panne d’un hôte);
• FT (disponibilité permanente des applications en cas de panne d’un hôte).
Le cluster est reparti ou étendu sur deux sites géographiquement distants. Il est à noter que cette configuration, contrairement à VMware SRM, n’utilise qu’un vCenter.
VMware vMSC utilise la réplication synchrone pour écrire les données sur les deux unités de stockage distantes simultanément. Cependant le type de réplication synchrone utilisée diffère de la réplication synchrone traditionnelle qui crée une relation primaire/secondaire entre les deux unités de stockage.
Dans le cas de VMware Metro Storage Cluster, seul le niveau de relation primaire existe, ce qui permet d’avoir accès aux données indifféremment sur une partie ou l’autre du cluster, en temps réel.
Avec une telle exigence de flux de données, les liens de télécommunication entre les deux sites doivent être dimensionnés spécifiquement et répondre à des critères stricts.
Les prérequis les plus importants à définir sont :
• Une architecture de stockage étendu, actif/actif, en miroir synchrone;
• Une connectivité de réseau étendu de niveau 2;
• Le temps de latence (RTT ou round-trip time) et la distance maximale entre les sites;
• La bande passante;
• Le témoin du quorum sur un troisième site ou dans l’infonuage;
• Un seul vCenter.
Voici quelques uns des bénéfices associés à une telle approche.
• Des valeurs de RTO et RPO proches de zéro;
• La possibilité de migrer des VMs entre sites, sans interruption de service;
• Pas de problématique de changement d’adresses IP;
• Traitement automatique et immédiat des défaillances de stockage;
• Transparence pour les usagers en cas de basculement de site.
Avez-vous besoin d’une solution de recouvrement ou d’une solution de haute disponibilité étendue ? Quelle approche est compatible avec les exigences de vos niveaux de service (SLA) ?
Nous recommandons d’établir deux scénarios, l’un basé sur vMSC et l’autre sur VMware Site Recovery Manager (SRM).
• Option 1 : deux centres de données de production en mode actif-actif avec stockage et réseau étendus.
• Option 2 : deux centres de données en mode actif/passif, l’un de production, l’autre servant aux tests et au développement. En cas de défaillance du site de production, le SRM exécute un recouvrement planifié des VMs sur le site secondaire. Il existe bien des outils alternatifs, mais avec une orchestration moindre, tels Veeam Backup & Replication ou Zerto Virtual Replication.
Nos spécialistes peuvent vous assister dans l’établissement des scénarios les plus adaptés et de leurs ROI respectifs.
En plus des prérequis mentionnés ci-dessus, il faut tenir des points suivants :
• Tout comme pour un cluster local, la solution ne dispose que d’un seul vCenter. Mais en cas de défaillance les deux sites sont perturbés;
• DRS et HA n’ont pas la notion de site;
• vMSC est une solution de haute disponibilité étendue et à ce titre, ne dispose pas de procédures pour traiter les pannes non planifiées et n’est pas non plus en mesure de remédier à une corruption.
La phase de tests lors de la mise en place de votre environnement de haute disponibilité avec VMware vMSC est une étape critique. Les différents scénarios de panne doivent être pensés et testés avant la mise en production. Le tout doit être documenté et exécuté selon le plan de tests.
L’expérience montre que cette phase est souvent négligée ou oubliée par manque de temps et de ressources.
Faites appel à nos experts pour vous aider à améliorer votre projet infrastructure, tout en développant les compétences et l’autonomie de votre équipe.
Image : © Yabresse - Fotolia.com