Introducción
¿Qué se siente cuando no hay
correo electrónico? ¿Qué pasa cuando vas a un banco y te dicen que el sistema
ha fallado o no hay línea? ¿Qué sientes cuando no hay internet? Son situaciones
donde inmediatamente viene a nuestra mente la pregunta ¿qué pasa con el área de
tecnología?, ¿no tienen todo controlado? Pues bien, es importante anotar, que
no existe riesgo cero y por tanto la materialización de un evento que genere no
disponibilidad será tan relevante como la forma en que mantenemos monitoreo,
aseguramiento y verificación de las variables mínimas que nos permitan conocer
el umbral de falla que se puede materializar.
En este sentido, cuando
experimentamos las “caídas” de un servicio, entendemos que son máquinas las que
están detrás de la magia, así como un conjunto de personas y sistemas de
monitoreo que son capaces de verificar su funcionamiento y en algunas
ocasiones, dependiendo de la formalidad de su operación, establecer pronósticos
que permitan anticiparse a posibles fallas que puedan afectar la percepción del
tercero frente al consumo de los servicios.
En este sentido, las palabras
disponibilidad y continuidad se convierten en parte natural de la planeación de
la operación y supervivencia de una empresa, particularmente de aquella que es
consciente de que se encuentra en un escenario inestable y que debe estar
preparada para brindar el máximo de operación continua con el mínimo de
interrupciones, así como parar analizar las condiciones límites de trabajo para
aplicar los procedimientos necesarios cuando un desastre o falla total ocurre.
Así las cosas, las empresas
en la actualidad, asistiendo al escenario de una operación compartida e
integrada con terceros, deben considerar tanto la disponibilidad como la
continuidad como elementos naturales de su contratación y responsabilidad con
sus clientes, de tal forma que se vaya fortaleciendo la capacidad de
recuperación de la infraestructura tecnológica, como base para proteger el
valor de la empresa.
En consecuencia, al estar
expuestos a fallas de múltiples tipos y condiciones, las organizaciones deben
desarrollar no sólo buenas prácticas asociadas con la disponibilidad y la
continuidad, sino iniciar el camino de la resiliencia estratégica, como aquella
capacidad de convertir las amenazas tanto internas como externas en
oportunidades, antes que éstas se conviertan en condiciones insuperables para
las organizaciones. (VALIKANGAS, L. 2010, pág.20)
Disponibilidad
De acuerdo con JAYASWAL (2006,
pág.6) la disponibilidad es la porción de tiempo en que una aplicación o
servicio está en operación para los clientes internos o externos, soportando su
trabajo productivo. Mientras más resistente sea el servicio o aplicación frente
a las fallas parciales o totales, mayor será su disponibilidad.
Es natural que los usuarios o
clientes, quieran que los servicios que utilizan estén disponibles en cada
momento, lo que se denomina operación ininterrumpida, sin embargo existen
riesgos inherentes a la infraestructura que la soporta que, por más esfuerzos que
se adelanten, siempre serán susceptibles de fallas que limiten el uso del
servicio o aplicación, generando lo que en la literatura se conoce como downtime o tiempo de inactividad.
En este contexto, se ha
acuñado una serie de consideraciones técnicas que ilustran con claridad lo que
significa la disponibilidad en términos porcentuales, donde se establecen los
porcentajes de tiempos de inactividad, sus valores en términos de días, horas,
minutos o segundos, que permiten observar las exigencias que establecen estas
métricas para dar cumplimiento con los umbrales de inactividad previstos en
cada uno de ellos, bien sean planeados o no.
Porcentaje
tiempo de actividad
|
Tipo
disponibilidad
|
Porcentaje
tiempo de inactividad
|
Inactividad
por año
|
Inactividad
por mes
|
98%
|
Disponibilidad base
|
2%
|
7,3 días
|
14 horas 36 minutos
|
99%
|
Disponibilidad normal
|
1%
|
3,65 días
|
7 horas 18 minutos
|
99.9%
|
Alta disponibilidad
|
0,1%
|
8 horas 45 minutos
|
43 minutos 45 segundos
|
99.99%
|
Resiliente a fallas
|
0,01%
|
52,5 minutos
|
4 minutos 22 segundos
|
99.999%
|
Tolerante a fallas
|
0,001%
|
5,25 minutos
|
26 segundos
|
100%
|
Procesamiento continuo
|
0
|
0
|
0
|
(Adaptado de: JAYASWAL, K. 2006, pág.6 y MARQUIS 2006)
La tabla anterior nos
manifiesta que si queremos una operación ininterrumpida o procesamiento continuo
se requiere una operación altamente formal, basada en un monitoreo y
verificación permanente que más allá de una falla, la infraestructura definida
sea lo suficientemente redundante, activa y autoprotegida, de tal forma que no
se presente la percepción de inactividad por parte del cliente.
Llegar a una condición como
la anterior, es un ejercicio de cero tolerancia al error bien sea humano, de
hardware, software o ambiente, que demanda una “perfección” en la gestión de
las variables de operación, que raya en una preparación permanente para la
falla y la forma como en el mismo instante se toma control y acción para
mitigar los efectos de la misma.
Un sistema como el comentado
exige mayor inversión en infraestructura, software y aseguramiento de sus
componentes, que necesariamente genera mayor exposición a las fallas, dado que igualmente
es tecnología y está expuesta a que existan condiciones de operación límite,
que impacte el desempeño de la misma. Así las cosas, estamos ante una contradicción
de la disponibilidad: queremos una operación perfecta, que está soportada en
infraestructura diseñada y construida por seres imperfectos.
Continuidad
En razón con lo anterior y
sabiendo que estamos expuestos a riesgos, las organizaciones deben considerar
su supervivencia, aún en condiciones extremas, de tal forma que puedan ser
viables en el mediano y largo plazo. De acuerdo con SHOEMAKER y COKLIN (2012) la
administración de la continuidad de una organización consiste en desarrollar y
asegurar un proceso que permita que los elementos críticos de ésta,
representados en sus activos de información y capacidades de procesamiento, se
mantengan aún cuando exista un desastre o condición adversa.
Lo anterior necesariamente
implica, asegurar los roles y responsabilidades de las personas que participan
en este proceso, su adecuado entrenamiento y capacitación, de tal forma que
puedan actuar conforme lo que está previsto en los procedimientos y así
recuperar las funciones operacionales de la empresa, tanto desde la perspectiva
informática como de las actividades de negocio. Generalmente los ambientes de
continuidad están asociados con operación en sitios alternos, los cuales deben
ser conocidos y mantenidos en óptimas condiciones para albergar la operación de
la empresa cuando sea necesario.
Los análisis del nivel de
madurez de la continuidad de una empresa están asociados con las capacidades de
recuperación que ésta debe desarrollar, cuando se materializa un escenario de
falla total que exija a la función de negocio dejar de operar en un contexto y
reiniciar sus actividades en otro, sin perjuicio de los impactos que se puedan
presentar sobre las infraestructura que lo soporta, los cuales deberán estar
considerados dentro de los escenarios de falla que se hayan previsto.
Es claro que el factor
crítico de éxito de la continuidad es la preparación, razón por la cual las estrategias
y la planeación son elementos fundamentales para asegurar dicho proceso. Si
bien no podemos predecir los eventos de falla total que nos puedan ocurrir, si
podemos anticipar nuestras acciones y pruebas que nos faciliten actuar de
manera natural ante eventos inesperados y devastadores. Muchos de los
accidentes o condiciones inseguras durante momentos de crisis, se presentan por
la falta de preparación y práctica sistemática de procedimientos, que no
habilitan a las personas para actuar conforme lo que se requiere, sino que se
dejan llevar por lo que la situación les demanda.
El 11 de septiembre de 2001,
quedó claro que la disponibilidad de los servicios basada en ambientes
altamente automatizados y asegurados, no fue suficiente para soportar las
condiciones inesperadas de un ataque totalmente atípico hasta el momento. Así
mismo, se probó de manera extrema que la continuidad frente a circunstancias
extremas, con coordinaciones con otros entes de apoyo, aún requiere práctica
sistemática aplicada, que permita una recuperación más efectiva y con menos
improvisación.
Resiliencia
Define JAYASWAL (2006, pág
17) que la resiliencia o resiliency
(en inglés) es una propiedad de un componente que le permite a éste continuar
funcionando total o parcialmente luego de una o muchas fallas. Es decir,
tendremos mayor resiliencia en la medida que los componentes estén habilitados
para detectar y compensar rápidamente las fallas identificadas.
Desde el punto de vista de
negocio, VALIKANGAS (2010) entiende la resiliencia como la capacidad que tiene
una organización de beneficiarse de eventos inesperados, los cuales pueden
contener riesgos, y convertirlos en oportunidades. Esta capacidad, requiere
como anota el académico, tomar ventaja de la serendipia o serendipity, es decir, de la sagacidad para ver e interpretar lo
que se ha encontrado, lo cual posiblemente dista de lo que originalmente se estaba
buscando.
Cuando comparamos las dos
definiciones encontramos que la resiliencia es una capacidad de recuperación,
aún frente a fallas, pero igualmente el momento concreto para ver “fuera de la
caja” y ver más allá de lo que ocurre. En este sentido, desarrollar la
resiliencia en las organizaciones, más que prepararse o adaptarse frente a
escenario de falla parcial o total, busca desarrollar una capacidad inherente
para reinventarse y mantenerse vigente en el entorno y permanecer en el largo
plazo.
Podríamos decir que la
viabilidad de la organización, podría estar comprometida si ésta no es capaz de
desarrollar resiliencia estratégica. Es decir, alcanzar sabiduría en los
negocios, el arte de aventurarse hacia
mares profundos y explorar nuevas posibilidades, o como anota DeBONO (1997, pág.46)
acerca de la sabiduría, “es la capacidad de imaginar posibilidades y de
considerarlas, es la renuncia a dejarse encerrar en juicios fáciles y falsas
certezas”
La resiliencia por tanto,
vista de manera holística, confronta nuestros modelos de operación personal,
empresarial y tecnológica, para buscar nuevas formas de mantenernos despiertos
a las realidades inesperadas de la dinámica de las organizaciones y los
mercados, para advertir que podemos “eliminar nuestras propias auto-restricciones”
y ser capaces de inventar nuevos escenarios de operación que aún esperan por
nosotros para ser implementados.
Los conceptos de
disponibilidad y continuidad, si bien establecen formas de mantenernos activos
y en condiciones de operación confiables, la resiliencia trasciende los mismos
para encontrar en las crisis, cambios anticipados; en los efectos de borde,
nuevas formas de desaprender y en las condiciones inesperadas, nueva forma de
ver la realidad. Así las cosas y como quiera, que estas habilidades no son
inherentes a nuestra forma de razonar, habrá que habituarnos a ejercitar
nuestra mente y visión estratégica para incorporar la práctica de la
resiliencia como factor fundamental para poder planear, es decir, volar y dejar
que los vientos nos enseñen y revelen el camino del águila hacia las alturas.
Reflexiones finales
Hemos visto que la
disponibilidad, o las estrategias y condiciones requeridas para mantenernos en
operación (99,9%), es un factor clave para asegurar que tenemos actividad
continua y una forma para responder frente a eventos que puedan generar tiempos
de inactividad. Sin embargo, no es suficiente implementar esta característica
para mantener la viabilidad de la operación, pues ella está condicionada por la
infraestructura que la soporta, que nuevamente se convierte en su propio punto
de falla.
La continuidad por su parte
es la forma como una organización o individuo debe actuar cuando, se
materializa el 0,1% de tiempo de inactividad, es decir los procedimientos que
debemos seguir para continuar la operación del negocio y desarrollar las
capacidades de recuperación de la infraestructura, ahora en otro contexto y
realidad, para lograr una reincorporación adecuada y aseguramiento de la
viabilidad de la empresa y más valiosos
activos: las personas, la información y sus locaciones.
La resiliencia, como esa
capacidad de continuar operando y recuperarse aún ante la presencia fallas o de
aprovechamiento positivo de las situaciones de crisis, es otra condición
particular que juega un papel fundamental en el entendimiento de la permanencia
de las empresas y sus operaciones. Si bien, los dos conceptos anteriores nos informan
sobre formas de prevención y reacción, la resiliencia nos permite desarrollar
la capacidad de anticipación e innovación para revelar aquello que se esconde
dentro de cada situación límite o inesperada.
No podemos entender la
inseguridad de la información en el contexto organizacional, sólo desde las
condiciones de inactividad operacional, las fallas parciales o totales de la
infraestructura, o los eventos inesperados que alteren la realidad de una
empresa, sino como una forma de preparar a las organizaciones para desarrollar
y fortalecer su estrategia de cambio, es decir, encontrar en la inevitabilidad
de la falla, la forma de entrenar nuestro entendimiento para descubrir las
oportunidades y crear la plataforma para hacer que las cosas pasen.
Referencias
JAYASWAL, K. (2006) Administering
data centers. John Wiley & Sons. Indianápolis.
MARQUIS, H. (2006) The paradox of 9s. Disponible en: http://www.itsmsolutions.com/newsletters/DITYvol2iss47.htm
(Consultado: 31-03-2012)
UPTIME INSTITUTE (2010) Data
Center Site Infrastructure Tier Standard: Topology. Disponible en: http://www.uptimeinstitute.com/
(Consultado: 31-03-2012)
VALIKANGAS, L. (2010) The resilient
organization. How adaptive cultures thrive even when strategy fails. McGraw
Hill.
SHOEMAKER, D. y CONKLIN, A. (2012) Cybersecurity.
The essencial body of Knowledge. Cengage Training.
DeBONO, E. (1997) El texto de la sabiduría de Edward DeBono.
Editorial Norma
No hay comentarios:
Publicar un comentario