Un signal d'alarme pour la gestion des risques liés aux tiers ?

Nous abordons le caractère inévitable des pannes informatiques et leur impact sur la résilience des organisations. En commençant par une étude de cas sur l'incident récent de CrowdStrike, nous explorerons diverses perturbations - des erreurs humaines aux cyberattaques - et proposerons des stratégies pour renforcer la préparation de votre organisation.

Rédigé par
Andy Fernandez
Publié le
25 juillet 2024
Partager sur les réseaux sociaux

Naviguer dans les tempêtes de l'informatique : Une série sur les pannes et la résilience organisationnelle

Dans le paysage numérique actuel, la question n'est pas de savoir si une panne informatique va se produire, mais quand. Comme nous l'avons vu avec le récent incident CrowdStrike, même les plateformes mondiales peuvent être victimes de perturbations imprévues. Que ce soit en raison d'une erreur humaine, d'une corruption ou même d'une cyberattaque, cela continuera à se produire.  

Ce billet de blog est le premier d'une série essentielle consacrée à l'exploration des risques liés aux tiers dans les différentes technologies sur lesquelles chacun d'entre nous s'appuie. Plus important encore, nous nous concentrerons sur la façon dont les organisations peuvent se préparer et se protéger contre les défis qui vont de la simple erreur humaine aux acteurs malveillants.

Tout au long de cette série, nous nous pencherons sur différents types d'incidents, des brèches dans le cloud aux attaques de ransomware dans la chaîne d'approvisionnement. Notre objectif est de vous doter des connaissances et des outils nécessaires non seulement pour faire face à ces perturbations, mais aussi pour en sortir plus fort et plus résilient.

Le premier billet se penche sur la récente panne de CrowdStrike en tant qu'étude de cas, et l'utilise comme tremplin pour discuter de thèmes plus larges tels que l'erreur humaine, la gestion des risques liés aux tiers, et les étapes critiques que les organisations doivent prendre pour se préparer et répondre aux perturbations informatiques. Nous explorons les tactiques de remédiation immédiate, l'importance de la résilience des systèmes sur site et les stratégies d'évaluation et d'amélioration de votre préparation dans les environnements cloud et SaaS.

Alors que nous nous embarquons ensemble dans ce voyage, voici quelques bons rappels. Dans le domaine de l'informatique, la préparation ne consiste pas seulement à prévenir les catastrophes, mais aussià se doter de la capacité de rebondir plus fort lorsqu'elles se produisent inévitablement. Commençons par analyser l'incident CrowdStrike et les leçons précieuses qu'il offre aux organisations de toutes tailles.

Explication de l'incident CrowdStrike

Les clients de CrowdStrike qui utilisaient un capteur Falcon pour Windows (version 7.11 et supérieure) ont connu un crash système. Cela s'est produit après que CrowdStrike a publié une mise à jour de la configuration du capteur pour les systèmes Windows et a déclenché un crash du système et un écran bleu de la mort (BSOD) sur les systèmes concernés. L'impact sur les systèmes a été considérable à l'échelle mondiale et a touché les principales compagnies aériennes, les agences de voyage, l'hôtellerie, les hôpitaux, le commerce électronique et bien d'autres secteurs encore. Il ne s'agissait pas d'une cyberattaque criminelle, mais d'une simple erreur humaine. Pour une lecture rapide, Chris Evans, du site Architecting IT, a partagé lecommentaire suivant sur la récente panne :Critical Infrastructure and Collective Responsibility".  

Image de la citation du PDG et fondateur de HYCU Simon Taylor

Microsoft a également publié un guide de remédiation pour les clients concernés, intitulé "Helping Our Customers Through the CrowdStrike Outage" (aider nos clients àsurmonterla panne de CrowdStrike).  

La plus grande panne informatique de l'histoire causée par une erreur humaine  

L'erreur humaine est inévitable et touche toutes les organisations. Il se trouve que cet incident s'est produit dans un service tiers critique qui couvre des millions d'ordinateurs et de systèmes dans le monde entier. Cependant, ce n'est ni la première ni la dernière panne ou incident de tiers qui aura un impact sur les organisations à travers le monde. La leçon à en tirer est qu'il faut être résilient face à toute défaillance d'un tiers. Voici trois mesures que chaque organisation devrait prendre :  

Étape 1 : Assurer une remédiation immédiate

CrowdStrike a déjà publié un guide de remédiation et une vidéo pour les utilisateurs distants affectés par la BSOD. Microsoft a également publié un nouvel outil de récupération avec deux options de réparation pour accélérer le processus de réparation. Cependant, veillez à ne suivre que les conseils et les instructions de remédiation de CrowdStrike et de Microsoft directement, car nous voyons déjà des cybercriminels capitaliser sur cet incident et cibler directement les clients de CrowdStrike.  

Étape 2 : Assurer la résilience de vos systèmes de production sur site

La plupart de nos efforts en matière de gestion des risques liés aux tiers se sont tellement concentrés sur les applications en nuage public et SaaS que nous considérons souvent nos services de centre de données comme acquis. Qu'il s'agisse d'une panne d'un système tiers ou d'une cyberattaque, toute organisation qui exploite des applications critiques sur site devrait mettre en œuvre les mesures suivantes :

  • Sauvegardes complètes avec restauration ponctuelle ou en bloc qui tient compte des applications. Cela signifie qu'il est possible de procéder à une restauration ponctuelle et à une reprise rapide.  
  • Des sauvegardes immuables qui sont logiquement séparées pour garantir une copie hors site sûre et accessible en cas de corruption massive ou de cyberattaque.  
  • Tests réguliers de résilience des basculements et des restaurations à partir de solutions de secours et de sauvegarde, avec des protocoles documentés et des manuels d'exécution accessibles à plusieurs membres de l'équipe informatique.

Étape 3 : Évaluer votre résilience et votre préparation en cas de perturbation par un tiers dans les domaines du SaaS et du Cloud  

Votre infrastructure en nuage et vos applications SaaS dépendent entièrement de fournisseurs tiers pour fournir ces services, maintenir la disponibilité et protéger vos données au niveau du système. Cependant, ces services sont également exposés à des risques de pannes, de corruptions et de pertes de données. Ces entreprises fournissent une disponibilité et une sécurité solides, mais en raison d'une erreur humaine, il y aura toujours un risque de tierce partie conduisant à un temps d'arrêt, à une perte de données ou à une corruption.  

Que les clients de l'informatique en nuage subissent une perte de données (par exemple, un fonds de pension dont le compte a été accidentellement supprimé par un fournisseur) ou qu'une entreprise de cybersécurité et ses locataires soient victimes d'une attaque de la chaîne d'approvisionnement, cela continuera à se produire, même avec les meilleures solutions du marché.  

Pour vous préparer en conséquence, vous devez assurer une bonne gestion des risques liés aux tiers. L'Union européenne a publié la loi sur la résilience des opérations numériques (DORA) qui demande explicitement aux organisations de disposer d'un cadre de gestion des risques liés aux tiers pour les TIC (par exemple, les applications SaaS et Cloud). Ce cadre exhaustif souligne la nécessité de protéger vos applications contre les risques liés aux tiers. Voici quelques-unes des exigences :  

  • Découverte continue des actifs
  • Politiques de sauvegarde  
  • Conservation des données hors site  
  • Test de résilience  
  • Des guides et des protocoles documentés pour la continuité des activités et la réponse aux incidents.  

Regardez ce webinaire à la demande sur la conformité DORA en utilisant Atlassian Cloud comme exemple. Cela met en évidence les responsabilités du client par rapport à celles du fournisseur. Les principes abordés dans cette vidéo s'appliquent à toutes vos applications cloud et SaaS.  

Conclusion : Soyez prêts, soyez résilients.  

Les équipes de CrowdStrike et de Microsoft font tout ce qu'elles peuvent pour remédier à la situation et s'assurer que toutes les organisations disposent des outils dont elles ont besoin pour retrouver un service ininterrompu et atteindre un temps de fonctionnement maximal. Cependant, ce scénario peut se produire et se produira pour de nombreux fournisseurs, qu'il s'agisse de sécurité, d'informatique dématérialisée ou d'applications d'entreprise.  

L'essentiel est de comprendre que cela VA se produire et que votre organisation a pris les mesures nécessaires pour protéger et récupérer vos données le moment venu.  

Plus d'informations:  

Photo de Shive Raja

Directeur de la gestion des produits

Andy Fernandez est directeur de la gestion des produits chez HYCU, une société du groupe Atlassian Ventures. Toute la carrière d'Andy s'est concentrée sur la protection des données et la reprise après sinistre pour les applications critiques. Après avoir occupé des postes de chef de produit et de GTM chez Zerto et Veeam, Andy se concentre aujourd'hui sur la protection des applications SaaS et Cloud critiques dans le cadre de l'ITSM et du DevOps. Lorsqu'il ne travaille pas sur la protection des données, Andy aime assister à des concerts, trouver des endroits où manger et aller à la plage.

Découvrez la première plateforme SaaS de protection des données

Essayez HYCU par vous-même et devenez un adepte.