Quelles différences de protection entre la Sauvegarde externalisée et le Plan de Reprise d’Activité Managé ?

Le 31 août 2021

Sommaire

Les solutions informatiques évoluent depuis une dizaine d’années vers le modèle « as a Service ». Les solutions de sauvegarde et de Plan de Reprise d’Activité Informatique ne font pas exception.

La sauvegarde en tant que service est appelée aussi Backup as a Service (BaaS) et le Plan de Reprise d’Activité après sinistre en tant que service est aussi connu comme Disaster Recovery as a Service (DRaaS). Ces services font référence aux solutions fournies par des prestataires aux entreprises.

Cela signifie que les équipes informatiques de l’entreprise n’ont pas besoin d’installer et de maintenir localement les solutions au sein de leurs propres datacenters. La gestion des tests (redémarrage, PRA, réseau) et du maintien opérationnel du service peut également faire partie des offres des prestataires.

Les DSI sont au centre des choix de ces solutions. Ils doivent alors comprendre les différentes options qui leur sont proposées et ce que cela implique au niveau de la protection de leurs données avant de prendre leur décision. Ces deux modes de protection, souvent perçus comme similaires, ne couvrent pas les mêmes scénarios de risque.

Définition du Backup as a Service (BaaS)

On voit de plus en plus de prestataires proposant des solutions de Backup as a Service. Celles-ci correspondent à l’achat d’une prestation de services de sauvegarde en ligne, généralement vers un Cloud (public, privé, privatif).

Le BaaS peut couvrir plusieurs domaines différents :

la sauvegarde de fichiers, dossiers,
la sauvegarde d’un disque complet,
la sauvegarde d’une application (Contrôleur Domaine, Exchange) ou d’une base de données (SQL server, PostgreSQL, Oracle, etc.).

Les évolutions récentes apportées au BaaS permettent d’automatiser des tests de restauration ou redémarrage de serveurs (complets/partiels). Ces tests peuvent alors être faits soit manuellement, soit via des API ou des automates.

Définition du Plan de Reprise d’Activité as a Service (DRaaS)

La notion de Plan de Reprise d’Activité as a Service est plus récente, mais connaît une forte expansion, car elle répond à de nouvelles problématiques, comme les cybermenaces.

C’est une offre de service complète fournie et administrée par un fournisseur, s’appuyant sur le modèle cloud et qui offre une garantie de reprise (RTO).

Ces solutions exploitent les principaux avantages du Cloud (élasticité, paiement à l’usage) et entraînent donc des diminutions des coûts liés aux tailles des infrastructures.

Les périmètres adressés par ces solutions de DRaaS sont potentiellement très différents :

En termes d’OS couverts : si les architectures x86 sont toujours couvertes, les OS plus rares (OS400, Unix propriétaires, etc.) ne sont que peu pris en charge.
Les délais de RTO (redémarrage en cas d’activation du PRA) : les technologies utilisées peuvent être très différentes et permettre des RTO de quelques dizaines de minutes (on parle alors plutôt de Plan de Continuité que de Plan de Reprise) à quelques heures.
Les services fournis : il peut s’agir soit d’un PRA partiellement managé (le client est responsable du Maintien en Conditions Opérationnelles et de réaliser les tests de PRA en autonomie) soit d’un PRA totalement managé par le fournisseur (tests réguliers de redémarrage des serveurs, surveillance des sauvegardes cloud, etc.).

Ces différents éléments sont importants à prendre en compte lors du choix de votre solution. C’est pour cette raison qu’une analyse préalable est nécessaire, pour connaître vos besoins au niveau des serveurs à protéger, des délais de redémarrage et de fraîcheur des données (RTO et RPO) et pour finir le besoin de management, en fonction des disponibilités et compétences de vos équipes techniques.

Les risques couverts et non couverts par ces deux solutions

Pour bien comprendre la différence entre ces deux services, il faut d’abord se poser la question des différents risques que traite chacune des deux solutions.

Nous allons analyser plusieurs types de risques à couvrir par les sauvegardes (BaaS) et PRA (DRaaS) décomposée en famille.

Famille de risque	Risques	Origines potentielles	Mécanisme de récupération principal
Perte ou corruption de données	Perte ou corruption de fichiers Corruption données, OS ou BDD	Erreur utilisateur ou erreur de procédure	Backup
Indisponibilité infrastructure serveur	Un serveur HS Un ensemble de serveurs HS Toute l'infrastructure HS	Problème hardware ou software	Backup ou PRA
Indisponibilité du Datacenter	Indisponibilité longue liée à un sinistre Indisponibilité liée aux fluides (électricité, etc.) Indisponibilité liée aux télécoms	Incendie, tempête, attentat, travaux, etc.	PRA
Ransomware	Ransomware sur un serveur de fichiers Ransomware au niveau des OS du SI	Logiciels malveillants propagés par mail, faille, etc.	Backup ou PRA
Cyber attaque	Attaque sophistiquée Déni de service (Ddos) Advanced Persistent Threat	Attaque coordonnée sur l’infrastructure IT	PRA

Scénarios de risque : perte ou corruption de données

Perte de corruption de fichiers : il peut s’agir soit d’une erreur utilisateur/informatique ou d’un problème hardware ou d’une erreur de procédure.

Couverture du risque avec la
Sauvegarde externalisée (BaaS)

Couverture du risque avec un
Plan de Reprise d’Activité Managé (DRaaS)

Ce risque est le principal risque couvert par toutes les solutions de sauvegarde externalisée.

Les points spécifiques à creuser sont :

La durée et politique de rétention des sauvegardes (la profondeur en jours/semaines/mois, etc.).
L’autonomie du client pour exécuter la restauration.

Dépend des mécanismes de sauvegarde ou de réplication utilisés par la solution de PRA :

Certaines solutions font de la réplication de disques synchrones ou presque synchrones (sans prise de clichés historisés) et donc cela ne couvre pas ce risque.
D’autres solutions se basent sur des mécanismes de sauvegarde et donc sont comparables aux solutions de sauvegarde externalisée avec les mêmes points de surveillance (durée de rétention minimale, etc.).

Questions à se poser vis-à-vis du scénario de risque :

Stockage des sauvegardes cloud :
- Combien de réplications des données sauvegardées sont opérées dans le Cloud (1, 2 ou 3 réplications ?) ?
- Les réplications des sauvegardes cloud sont-elles réalisées sur plusieurs DC distants ?
Capacité ou non d’avoir des périodes de rétention des sauvegardes différentes :

Par type de fichier,
En conservant N versions de chaque fichier.

Scénarios de risque : perte ou corruption système d’exploitation (OS) ou de base de données

Couverture du risque avec la
Sauvegarde externalisée (BaaS)

Couverture du risque avec un
Plan de Reprise d’Activité Managé (DRaaS)

La couverture de ce risque dépend de la couverture fonctionnelle de la sauvegarde externalisée :

Permet-elle de faire de la sauvegarde des OS et de restaurer un OS complet ?
- via un des hyperviseurs du marché (VMware, Hyper-V, HAV, Xen, etc.),
- mais également via un agent dans le cas de plus en plus fréquent où le client n’a plus accès en direct à l’hyperviseur (hosting tiers, cloud, VPS, etc.).
Quelle autonomie du client pour exécuter la restauration de l’OS ou du SGBD ?

La couverture de ce risque dépend des mécanismes de sauvegarde ou de réplication utilisée par la solution de PRA :

Certaines solutions font de la réplication de disque (sans prise de clichés) et donc cela ne couvre pas ce risque.
D’autres solutions se basent sur des mécanismes de sauvegarde et donc sont comparables aux solutions de sauvegarde externalisée avec les mêmes points de surveillance (durée de rétention minimale, etc.).

Questions à se poser vis-à-vis du scénario de risque :

Existe-t-il des mécanismes de sauvegarde des OS Linux dans des contextes d’infrastructure où on ne peut pas utiliser les mécanismes des hyperviseurs (typiquement dans des clouds publics ou privatifs) ?
La solution a-t-elle la capacité de sauvegarder seulement certains disques/partitions de la machine pour limiter la quantité de données à sauvegarder et accélérer la vitesse de restauration ?

Scénarios de risque : indisponibilité complète d’un ou plusieurs serveurs

Couverture du risque avec la
Sauvegarde externalisée (BaaS)

Couverture du risque avec un
Plan de Reprise d’Activité Managé (DRaaS)

Suivant la couverture de la solution de sauvegarde, ce risque est couvert.

Mais il faut analyser :

La capacité de restauration du serveur vers :
- un serveur physique,
- un autre hyperviseur que celui d’origine.
L’autonomie du client pour exécuter le redémarrage.
Le délai pour ramener l’ensemble des sauvegardes cloud en local via le réseau.

En général ce risque n’est pas bien couvert par une solution de PRA :

Il est généralement facile de redémarrer un seul ou quelques serveurs.
En revanche, la gestion du réseau et du plan d’adressage peut être complexe si une partie du SI reste sur le datacenter d’origine et une partie bascule en mode secours.
Certaines solutions de PRA ont intégré des modèles MPLS ou SD-WAN pour contourner ce problème.

Questions à se poser vis-à-vis du scénario de risque :

Sans test, point de salut : la solution a-t-elle pris en compte la réalisation de tests réguliers de redémarrage des serveurs (soit complètement automatique, soit manuels) ? Une fréquence de test de redémarrage au minimum annuelle est préconisée.
Quels sont les délais d’approvisionnement d’infrastructure IT sur site : en effet ils ne sont souvent pas compatibles avec les besoins métiers (surtout actuellement avec les pénuries de composants) et donc ne permettent pas de recréer une infrastructure sur site dans des délais acceptables.

Scénarios de risque : indisponibilité du datacenter

Datacenter entièrement indisponible soit à la suite d’un sinistre (incendie, tempête, inondation, attentat, etc.), soit lié à une indisponibilité longue du réseau ou des fluides (électricité, climatisation, etc.).

Couverture du risque avec la

Sauvegarde externalisée (BaaS)

Couverture du risque avec un

Plan de Reprise d’Activité Managé (DRaaS)

Non couvert

Ce risque est totalement couvert par une solution de PRA, car c’est son objectif principal.

Les notions de RTO et RPO sont prépondérantes. Il faut alors se poser les questions :

Comment sont-ils garantis ?
Comment sont-ils testés ?

Questions à se poser vis-à-vis du scénario de risque :

Sans test de PRA, point de salut, il faut donc vérifier la réalisation de tests réguliers de PRA : une fréquence semestrielle de test ou moins est préconisée.

Les tests de votre PRA doivent porter sur la remontée de l’infrastructure, les tests réseau, la reconnexion utilisateur avec tests fonctionnels de l’espace de secours par l’utilisateur final.

Scénario de risque : ransomware sur un serveur de fichiers ou sur les OS serveurs

Infection par un ransomware via un logiciel malveillant propagé par un mail, exploitant une vulnérabilité.

Couverture du risque avec la
Sauvegarde externalisée (BaaS)

Couverture du risque avec un
Plan de Reprise d’Activité Managé (DRaaS)

La couverture du risque dépend de l’étanchéité de la sauvegarde au ransomware :

Si une étanchéité est construite by design, via des mécanismes de sécurité (immutabilité des sauvegardes, changement de technologie entre source et cible backup, etc.) empêchant le virus de se propager sur l’environnement de sauvegarde, le risque est couvert. Sinon, risque peu ou pas couvert.
Le délai pour ramener l’ensemble des sauvegardes cloud en local via le réseau est en général, incompatible avec les besoins des métiers.

Ce risque est totalement couvert par une solution de PRA, car c’est son objectif principal.

Les notions de RTO et RPO sont prépondérantes. Il faut alors se poser les questions :

Comment sont-ils garantis ?
Comment sont-ils testés ?

Questions à se poser vis-à-vis du scénario de risque :

La solution choisie prend-elle en compte l’étanchéité vis-à-vis d’une attaque ransomware ? L’espace de sauvegarde ne doit pas être facilement accessible par un ransomware (ex : point de montage Windows, etc.).
Le délai pour ramener l’ensemble des sauvegardes cloud en local via le réseau doit correspondre à vos besoins métier. La question à se poser est alors : la solution permet-elle de ramener les données en local via des boîtiers spécialisés (type NAS, disque SSD, etc.) depuis le prestataire ?

Scénarios de risque : cyberattaque sophistiquée mélangeant plusieurs mécanismes d’attaque

Attaque construite qui permet à l’attaquant de prendre le contrôle de l’infrastructure du client avec des droits privilégiés.

Couverture du risque avec la Sauvegarde externalisée (BaaS)	Couverture du risque avec un Plan de Reprise d’Activité Managé (DRaaS)
Dépend de l’étanchéité de la sauvegarde à l’attaque : L’attaquant a-t-il un moyen de détruire ou chiffrer les sauvegardes cloud : S’il prend contrôle de l’AD ? S’il prend les privilèges d’administrateur système ? En revanche si le client n’a pas les accès aux espaces de sauvegarde cloud, le risque est couvert	Même couverture du risque que pour la partie sauvegarde.

Points de vigilance : l’étanchéité des sauvegardes cloud est devenue un sujet majeur en cas de cyberattaque sophistiquée.

Scénarios de risque : Advanced Persistent Threat ou attaque dormante

Infection par un APT ou un malware dormant qui peut être activé plusieurs mois après l’infection nécessitant une rétention longue des données des OS (plus de 6 mois).

Couverture du risque avec la Sauvegarde externalisée (BaaS)	Couverture du risque avec un Plan de Reprise d’Activité Managé (DRaaS)
Dépend de la profondeur de la sauvegarde des OS. Cela nécessite que le prestataire offre des possibilités d’archivage longue durée sur du stockage froid.	Généralement non couvert par les solutions de PRA. Sauf si la solution PRA offre des possibilités d’archivage longue durée sur du stockage froid.

Questions à se poser vis-à-vis du scénario de risque :

On parle dans ce cas plutôt d’archivage des VM sur des périodes longues (1 mensuelle pendant 24 mois par exemple).
La solution de reconstruction complète de l’OS est certaines fois indisponible.

En synthèse, les 3 bons conseils

1 — Comprendre les enjeux métier

Le premier conseil est, comme dans beaucoup de projets IT, de bien comprendre les enjeux des métiers de l’entreprise :

leurs besoins en termes de sauvegarde (profondeurs des sauvegardes, mécanismes d’archivage de données, etc.),
leurs besoins en termes d’applications critiques à redémarrer en cas de sinistre ou cyberattaque :
- les classer par priorité (RTO),
- définir la fraicheur de données nécessaires (essentiellement sur les bases de données).

2 — Identifier les scénarios de risques à couvrir

Ensuite, il faut identifier les scénarios de risque à couvrir dans le cas des métiers de l’entreprise et de l’infrastructure (perte de données, ransomware, perte datacenter) :

De cette cartographie des risques, il en sortira forcément une tendance : soit une solution de BaaS suffit, soit il existe un besoin de DRaaS ;
Faire valider cette couverture des risques par la Direction. Malgré leur incompréhension sur les sujets de Sauvegarde et PRA, la couverture des risques IT est en revanche un sujet majeur dont les directions ont bien conscience. En effet, si elles ne comprennent rien à ces sujets de Backup et PRA, en revanche elles sont de plus en plus conscientes des risques IT à couvrir.

3 — Identifier et exprimer ses exigences

À partir de l’identification des risques à couvrir, il faut alors identifier les exigences vis-à-vis de la solution :

Tout d’abord les attentes vis-à-vis du prestataire : souhaite-t-on une solution partiellement managée ou une solution complètement managée avec des engagements contractuels ?
En cas de besoin de Backup :
- Quel est le périmètre à couvrir : les OS, les types de SGBD, etc.
- Comment procéder au chargement initial des données (disponibilité appliance dédiée) ?
En cas de besoin de PRA :
- Quels sont les serveurs à protéger en PRA et ceux pour lesquels une solution de backup suffira ?
- Quelles sont les spécificités en termes de réseau : comment reconnecter les sites (MPLS, SD-Wan), les utilisateurs nomades (VPN SSL, etc.) ?
- Quelles sont les spécificités en termes de sécurité : Les solutions de sécurité nécessaires en cas de secours ?

Eric a créé Nuabee en 2014 suite au constat que les PME et ETI avaient besoin de solutions de protection de SI comme le PRA et la Sauvegarde externalisée, mais n’en avaient pas forcément les moyens.

Après plus de 15 ans d’expérience de conseil, d’audit et de gestion de projet dans la sécurité et le risk management des SI et de la continuité d’activité, il développe une solution de PRA Cloud automatisée, accessible pour les PME et ETI, s’appuyant sur le modèle du Cloud public.