Glosario de términos de disponibilidad de acuerdo con Veeam

Ciudad de México, Marzo 2018.- La Disponibilidad es un tema prioritario para los negocios, dado que de su desempeño depende directamente el éxito de la estrategia de Transformación Digital. Es por ello que consideramos necesario dar a conocer la terminología que gira alrededor de ella.

Always-on Enterprise.- La empresa permanentemente activa es aquella que está siempre conectada y que cuenta con una infraestructura de TI tal que satisface, e incluso excede, las exigencias de las áreas de negocio en relación a disponibilidad y el cumplimiento de los acuerdos de niveles de servicio.

Alta disponibilidad.- Habilidad de mantener funcionando de manera continua los servicios y operaciones de la empresa. Este término no sólo se relaciona con la disponibilidad de los servicios, sino también con una alta capacidad de recuperación.

BIA (Business Impact Analysis).- El análisis de impacto de negocios es una actividad de la gestión de continuidad de negocios que identifica las funciones vitales del negocio y sus dependencias, las cuales pueden incluir gente, proveedores, procesos de negocio, etcétera. El BIA define los requerimientos de recuperación, tales como RTO, RPO y los objetivos de niveles de servicio, para cada servicio de TI.

Brecha de disponibilidad.- Diferencia entre los niveles de servicio que esperan las unidades de negocio, y la capacidad real del área de TI para entregar las aplicaciones e información que los usuarios requieren. Una disponibilidad insuficiente puede redundar en retrasos en las iniciativas de transformación digital.

Brecha de protección.- Nivel de tolerancia que tiene una organización a datos perdidos de forma excesiva, por la falta de habilidad de los departamentos de TI para protegerlos con la frecuencia suficiente. Este tipo de brechas, junto con las brechas de disponibilidad, genera a las empresas un costo financiero directo de 21.8 millones de dólares (promedio).

Caída.- Eventualidad en la que uno o varios elementos de configuración (sean servidores, aplicaciones o demás, de la infraestructura en servicios de TI) se encuentra no-disponible. Su impacto varía en función de la criticidad de los servicios asociados y el tiempo de indisponibilidad.

CFIA (Component Failure Impact Analysis).- El análisis de impacto por falla de componentes es una metodología que ayuda a identificar el impacto de fallas en elementos de configuración (servidores, aplicaciones y todo lo que componga la infraestructura) en servicios de TI.

Confiabilidad.- Medida del tiempo en que un elemento de configuración se desempeña sin interrupciones. La confiabilidad determina qué tan factible es que un proceso, función y demás, entregue los resultados exigidos. Su nivel se define mediante el tiempo medido entre errores.

Continuidad del negocio.- Conjunto de procesos y procedimientos que una organización pone en marcha para garantizar que las funciones esenciales puedan continuar, aun durante y después de un desastre.

De-duplicación de datos.- Técnica especializada de compresión de datos para eliminar copias duplicadas de datos repetidos. Es ideal en términos de respaldo, pues elimina los datos redundantes almacenados guardando una única copia idéntica de los datos y reemplazando las copias redundantes por indicadores que apuntan a esa única copia.

Disponibilidad.- Nivel en el que los elementos de configuración y servicios de TI desempeñan la función acordada cuando es requerido. La disponibilidad es determinada por la confiabilidad, mantenimiento, funcionalidad, desempeño y seguridad, y usualmente se calcula en porcentaje, utilizando los nueves, con base en el tiempo de servicio/tiempo de inactividad acordado. Mientras más nueves haya (ej. 99.999%), mayor disponibilidad se tiene garantizada.

DRP (Disaster Recovery Plan).- El plan de recuperación ante desastres es un proceso o conjunto de procesos documentado para recuperar y proteger la infraestructura de TI de una empresa en caso de desastre, sea natural o provocado de forma voluntaria o involuntaria, que impida la normal continuidad del negocio.

Métrica de disponibilidad.- Porcentaje de tiempo que los elementos de configuración o servicios de TI son capaces de realizar las funciones para las que fueron diseñados. La fórmula que calcula estos niveles es: (Tiempo transcurrido total – suma de tiempo de inactividad)/tiempo transcurrido total = porcentaje de disponibilidad.

MTBF (Media Time Between Failures).- El tiempo medio entre errores es el intervalo de tiempo promedio, normalmente expresado en miles o decenas de miles de horas, que transcurre hasta que se produce un error en un elemento de configuración. Su cálculo se hace mediante la siguiente ecuación: (Tiempo transcurrido total – suma de tiempo de inactividad)/número de errores = MTBF.

Plan de disponibilidad.- Plan que asegura que requerimientos de disponibilidad para servicios de TI existentes y futuros pueden proveerse de una forma costo-efectiva.

Recuperación.- Actividad de devolver un servicio de TI o elemento de configuración a su estado de trabajo. La recuperación de un servicio de TI usualmente incluye llevar los datos a un estado conocido consistente. Después de la recuperación, aún se requiere dar determinados pasos antes de que el servicio pueda estar disponible para los usuarios (restauración).

Redundancia.- Duplicación de componentes de hardware y sus configuraciones con la intención de solucionar problemas de protección y confiabilidad, a través de la realización de copias de seguridad a prueba de fallas. Los conceptos de redundancia y alta disponibilidad comprenden, juntos, la capacidad de detectar errores en la infraestructura de la manera más rápida posible y la habilidad de recuperarse del problema de forma eficiente y efectiva, afectando lo menos posible el servicio.

Regla 3-2-1.- Precepto que muestra de manera concisa la mejor forma de respaldar de manera segura y efectiva. La regla recomienda mantener tres copias (una primaria y dos respaldos adicionales) de todos los archivos importantes, guardar la información en dos diferentes tipos de medios (como un disco duro y un medio óptico) para protegerse contra cualquier eventualidad y tener una copia almacenada en un medio externo (o al menos offline).

Replicación.- Actividad (en línea o programada) de mantener varias copias de los datos de un sistema sin necesidad de que estén sincronizados instantáneamente e implicando, por lo común, distancia (sea física o lógica) de los datos replicados entre sí.

Respaldo.- Actividad de copiar datos periódicamente, según las necesidades de la empresa, para protegerlos contra la pérdida de la integridad o disponibilidad de los originales. No suele implicar una distancia física.

Respaldo automatizado.- Función que, sin intervención humana, permite proteger la información mediante la automatización del proceso de respaldo. Para activarla, es importante tener configurados los repositorios y contar con la configuración de red correcta, de manera que se permita la comunicación entre los clientes y el servidor de respaldo.

RPO (Recovery Point Objective).- El objetivo de punto de recuperación es la cantidad máxima de datos que puede perderse cuando el servicio se restaura después de una interrupción. Éste se expresa como la duración de tiempo antes de una falla. El RPO debe negociarse, acordarse y documentarse, para emplearse en requerimientos de diseño de servicios y planes de recuperación de TI.

RTO (Recovery Time Objective).- El objetivo de tiempo de recuperación se refiere al máximo tiempo permitido para que un servicio de TI se recupere después de una interrupción. Al igual que en el caso del RPO, el RTO debe ser negociado, acordado y documentado. (Véase también BIA.)

RTPO (Recovery Time/Point Objective).- Se le llama así a la conjunción de las métricas RPO y RTO.

SLA (Service-level Agreements).- El acuerdo de niveles de servicio es un acuerdo escrito entre un proveedor y su cliente donde se definen y fijan los compromisos de calidad con que se entregarán estos, de forma que ambas partes estén conscientes de lo que puede esperarse en aspectos como personal asignado, tiempos de respuesta, niveles de disponibilidad, etc.

SPOF (Single Point of Failure).- El punto único de falla es un elemento de la configuración que puede causar un incidente si falla, y para el cual no se ha implementado una contramedida. Además de infraestructura de TI, puede tratarse de una persona o un paso dentro de algún proceso o actividad.

Tiempo de inactividad.- Tiempo que transcurre desde que, debido a una interrupción, un elemento de configuración o servicio de TI deja de estar disponible, hasta que pueda levantarse nuevamente.

Tolerancia a errores.- Capacidad de un elemento de configuración o servicio de TI de continuar operando correctamente después de fallas en parte de los sistemas. Para lograr esta tolerancia, la cual incrementa la confiabilidad del entorno de TI, es preciso contar con un alto grado de redundancia.

disponibilidad