Cuatro historias de terror en el centro de datos

Ciudad de México, Enero 2018.- Hoy en día los datos y aplicaciones son el pilar de toda organización. Ellos, a través de los sistemas de TI que los resguardan y administran en el centro de datos, sustentan en parte importante el éxito de los negocios en su camino hacia la Transformación Digital. Por tal motivo, su disponibilidad es vital para las organizaciones que buscan convertirse en empresas permanentemente activas.

Sin embargo, el 67% de los directores de Sistemas en México padecen de uno a 10 eventos de inactividad no planeada de sus aplicaciones a causa de fallas de TI, fuerzas externas u otros factores, de acuerdo con el Reporte de Disponibilidad 2017 de Veeam Software.

Este tiempo de indisponibilidad o insuficiente disponibilidad no planificada de las aplicaciones es la causa de que dos terceras partes de las empresas encuestadas por Veeam a nivel global hayan visto inhibidas sus iniciativas de Transformación Digital, ya sea significativamente o de alguna forma, además de que para las empresas las caídas de sus sistemas representan un costo anual promedio de $21.8 millones de dólares, 36% más que la cifra de hace un año.

Las disrupciones inesperadas se presentan en cuatro formas principales, convirtiéndose en historias de terror que ponen en peligro la continuidad de los negocios. He aquí cada una de ellas:

Errores humanos

Por mucho que las compañías implicadas traten de esconderlo, hay múltiples ejemplos de hechos en los que algún error humano (el llamado “humanware”) ocasiona verdaderos momentos terroríficos.

Uno de los más recientes es el caso de una de las aerolíneas más importantes en Reino Unido: a fines de mayo pasado un contratista realizaba trabajos de mantenimiento en su centro de datos cuando, sin querer, desconectó una fuente de poder y, al reconectarla, causó mayor daño a los sistemas al provocar una sobrecarga, afectando también su infraestructura de failover. Los 15 minutos que el data center estuvo caído significaron la cancelación de más de 400 vuelos y pérdidas que se calculan en €100 millones (euros).

Cibercrimen

Es innegable la evolución que han mostrado las amenazas de seguridad en el entorno actual de las TI empresariales, siendo un claro ejemplo las llamadas amenazas persistentes avanzadas (APTs, por sus siglas en inglés). Éstas, abanderadas por el letal Ransomware, han afectado a docenas de compañías tan sólo en lo que va de este año.

El impacto –y el miedo– en las organizaciones no se ha hecho esperar: el informe Tomando la ofensiva: trabajando juntos para interrumpir el crimen digital, de BT y KPMG, da prueba de ello al señalar que el 91% de los tomadores de decisión en compañías multinacionales admiten que enfrentan obstáculos al intentar defenderse de los ataques digitales de la actualidad.

Desastres naturales

Los recientes sismos de septiembre pasado en México, que en conjunto afectaron más de un millar de inmuebles (entre residenciales y empresariales) en varios estados el país son muestra de que los desastres naturales pueden tener lugar en cualquier momento, dejando a su paso inundaciones, fallas eléctricas, derrumbes y otro tipo de daños que pueden conducir a la indisponibilidad temporal o permanente de datos y aplicaciones.

Equipos de TI que fallan

La tecnología no es infalible: el Reporte de Disponibilidad de Veeam indica que cada año al menos uno de cada cuatro servidores a nivel mundial sufre una desconexión no planeada, con una media de 23 minutos de tiempo de inactividad por evento. Para las empresas, son fallas que representan desafíos importantes para la meta de alcanzar el cero en sus objetivos de tiempo y punto de recuperación (RTPO, por sus siglas en inglés); es decir, en su intento por lograr una recuperación sin pérdida de datos y sin disrupción de las aplicaciones.

Estas historias de terror no son aisladas en la dinámica empresarial actual. De acuerdo con el informe Costos por interrupciones en los centros de datos, de Ponemon Institute –el mismo que se basó en encuestas a organizaciones de diferentes industrias que experimentaron al menos una interrupción no planeada en su data center–, el año pasado entre las principales causas de tales interrupciones están justamente las fallas en los equipos UPS (con 25% de las respuestas), los errores humanos y el cibercrimen (con 22% cada uno), los problemas relacionados con aspectos climáticos (10%) y las fallas en los equipos de TI (4%).

El tiempo de inactividad y la pérdida de datos que provocan no son ficción. Es prioritario que la estrategia de seguridad y continuidad del negocio contemple el contar con políticas bien definidas basadas en mejores prácticas y considerar el tener más de un site alterno, así como que el centro de datos opere con una infraestructura de respaldo y recuperación que brinde mecanismos de disponibilidad ágiles y confiables, de forma que habiliten las iniciativas de Transformación Digital de los negocios.