¿Una llamada de atención para la gestión de riesgos de terceros?

Abordamos la inevitabilidad de las interrupciones de TI y su impacto en la resistencia de las organizaciones. A partir de un estudio de caso sobre el reciente incidente CrowdStrike, exploraremos diversas interrupciones -desde errores humanos hasta ciberataques- y ofreceremos estrategias para reforzar la preparación de su organización.

Escrito por
Andy Fernández
Publicado el
25 de julio de 2024
Compartir en redes sociales

Navegar por las tormentas de TI: Serie sobre interrupciones y resistencia organizativa

En el panorama digital actual, la cuestión no es si se producirá una interrupción de TI, sino cuándo. Como hemos visto con el reciente incidente de CrowdStrike, incluso las plataformas globales pueden ser víctimas de interrupciones imprevistas. Ya sea por errores humanos, corrupciones o incluso ciberataques, esto seguirá ocurriendo.  

Esta entrada del blog es la primera de una serie esencial dedicada a explorar los riesgos de terceros en las diferentes tecnologías de las que dependemos. Y lo que es más importante, nos centraremos en cómo las organizaciones pueden prepararse y protegerse frente a retos que van desde el simple error humano hasta los actores maliciosos.

A lo largo de esta serie, nos sumergiremos en varios tipos de incidentes, desde brechas en la nube hasta ataques de ransomware a la cadena de suministro. Nuestro objetivo es dotarle de los conocimientos y las herramientas necesarias no solo para capear estas interrupciones, sino para salir fortalecido y más resistente.

El primer artículo analiza la reciente interrupción de CrowdStrike como un caso de estudio, utilizándolo como trampolín para discutir temas más amplios sobre el error humano, la gestión de riesgos de terceros, y los pasos críticos que las organizaciones deben tomar para prepararse y responder a las interrupciones de TI. Exploramos las tácticas de reparación inmediata, la importancia de los sistemas locales resistentes y las estrategias para evaluar y mejorar su preparación en entornos de nube y SaaS.

A medida que nos embarcamos juntos en este viaje, algunos buenos recordatorios. En el ámbito de las TI, la preparación no consiste sólo en prevenir desastres, sinotambién en desarrollar la capacidad de recuperarse con más fuerza cuando se produzcan inevitablemente. Empecemos por analizar el incidente de CrowdStrike y las valiosas lecciones que ofrece a organizaciones de todos los tamaños.

Explicación del incidente CrowdStrike

Los clientes de CrowdStrike que utilizaban un sensor Falcon para Windows (versión 7.11 y superiores) experimentaron un fallo del sistema. Esto ocurrió después de que CrowdStrike publicara una actualización de la configuración del sensor para los sistemas Windows y provocara un bloqueo del sistema y una pantalla azul de la muerte (BSOD) en los sistemas afectados. Esto tuvo un impacto significativo en los sistemas a nivel mundial afectando a las principales compañías aéreas, viajes, hostelería, hospitales, comercio electrónico, y mucho más. No se trató de un ciberataque criminal, sino de un simple error humano. Para una lectura rápida, uno de los muchos sobre la reciente interrupción, Chris Evans en Architecting IT, compartió lo siguiente, "Comentario: Infraestructuras críticas y responsabilidad colectiva".  

Imagen de una cita del Director General y Fundador de HYCU, Simon Taylor

Microsoft también ha publicado una guía de reparación para los clientes afectados, "Helping Our Customers Through the CrowdStrike Outage".  

La "mayor interrupción informática de la historia" se debe a un error humano  

El error humano es inevitable y afecta a todas las organizaciones. Lo que ocurre es que esto le ha ocurrido a un servicio crítico de terceros con cobertura global para millones de ordenadores y sistemas. Sin embargo, este no es el primero ni el último fallo o incidente de terceros que afectará a organizaciones de todo el mundo. La lección aprendida aquí es que hay que ser resistente ante cualquier fallo de terceros. He aquí tres pasos que toda organización debería dar:  

Paso 1: Garantizar la reparación inmediata

CrowdStrike ya ha publicado una guía de reparación y un vídeo para los usuarios remotos afectados por la BSOD. Microsoft también ha publicado una nueva herramienta de recuperación con dos opciones de reparación para acelerar el proceso de reparación. Sin embargo, asegúrese de seguir únicamente las instrucciones de CrowdStrike y Microsoft, ya que estamos viendo cómo los ciberdelincuentes se aprovechan de este incidente y atacan directamente a los clientes de CrowdStrike.  

Paso 2: Garantizar la resistencia de los sistemas de producción locales

La mayor parte de nuestra energía en la gestión de riesgos de terceros se ha centrado tanto en la nube pública y las aplicaciones SaaS que a menudo damos por sentados los servicios de nuestro centro de datos. Ya sea por la caída de un sistema de terceros o por un ciberataque, toda organización que ejecute aplicaciones críticas in situ debería implementar lo siguiente:

  • Copias de seguridad completas con recuperación puntual o masiva que tiene en cuenta las aplicaciones. Esto significa la capacidad de restauración puntual y recuperación rápida.  
  • Copias de seguridad inmutables separadas lógicamente para garantizar una copia externa segura y accesible en caso de corrupción masiva o ciberataque.  
  • Pruebas periódicas de resiliencia de las conmutaciones por error y las restauraciones a partir de soluciones de RD y copia de seguridad con protocolos documentados y libros de ejecución accesibles a varios miembros del equipo de TI.

Paso 3: Evalúe su resistencia y preparación en caso de interrupción de terceros en SaaS y Cloud  

Su infraestructura en la nube y sus aplicaciones SaaS dependen por completo de proveedores externos para prestar estos servicios, mantener la disponibilidad y proteger sus datos a nivel de sistema. Sin embargo, estos servicios también corren el riesgo de sufrir interrupciones, corrupciones y pérdidas de datos. Estas empresas proporcionan una disponibilidad y seguridad sólidas, pero debido a errores humanos siempre habrá un riesgo de terceros que provoque tiempos de inactividad, pérdida de datos o corrupción.  

Tanto si los clientes de la nube sufren una pérdida de datos (por ejemplo, un fondo de pensiones sufre un borrado accidental de su cuenta por parte de un proveedor) como si una empresa de ciberseguridad y sus inquilinos sufren un ataque a la cadena de suministro, seguirá ocurriendo, incluso con las mejores soluciones.  

Para prepararse en consecuencia, es necesario garantizar una correcta gestión de riesgos de terceros. La Unión Europea ha publicado la Ley de Resiliencia de las Operaciones Digitales (DORA), que pide explícitamente a las organizaciones que dispongan de un marco de gestión de riesgos de terceros para las TIC (por ejemplo, aplicaciones SaaS y en la nube). Este amplio marco destaca la necesidad de proteger sus aplicaciones de los riesgos de terceros. Algunos de los requisitos son  

  • Descubrimiento continuo de activos
  • Políticas de copia de seguridad  
  • Conservación externa de datos  
  • Pruebas de resistencia  
  • Manuales y protocolos documentados para la continuidad de la actividad y la respuesta a incidentes  

Vea este seminario web a la carta sobre el cumplimiento de la DORA utilizando Atlassian Cloud como ejemplo. Esto pone de relieve las responsabilidades del cliente frente a las del proveedor. Los principios tratados en este vídeo se aplican a todas sus aplicaciones en la nube y SaaS.  

Conclusión: Prepárate, resiste.  

Los equipos de CrowdStrike y Microsoft están haciendo todo lo posible para remediar y garantizar que todas las organizaciones tengan las herramientas que necesitan para volver a tener un servicio ininterrumpido y lograr el máximo tiempo de actividad. Sin embargo, este escenario puede suceder y sucederá a muchos proveedores, desde la seguridad y la nube hasta sus aplicaciones empresariales.  

La clave es comprender que esto SUCEDERÁ y que su organización ha tomado las medidas necesarias para proteger y recuperar sus datos cuando llegue el momento.  

Más información:  

Shive Raja Headshot

Director de Gestión de Productos

Andy Fernandez es el Director de Gestión de Productos de HYCU, una empresa de Atlassian Ventures. Toda la carrera de Andy se ha centrado en la protección de datos y la recuperación ante desastres para aplicaciones críticas. Anteriormente ocupó puestos de producto y GTM en Zerto y Veeam, el enfoque de Andy ahora es asegurar que las organizaciones protejan las aplicaciones críticas SaaS y Cloud a través de ITSM y DevOps. Cuando no está trabajando en la protección de datos, a Andy le encanta asistir a conciertos en directo, encontrar los lugares locales para comer e ir a la playa.

Experimente la plataforma de protección de datos SaaS número 1

Pruebe HYCU usted mismo y conviértase en un creyente.