Management

En el 'capítulo' de hoy hablaremos de la gestión de la disponibilidad y como se puede implantar de forma eficaz en nuestra organización.
La primer pensamiento que podemos tener es: que es la gestión de la disponibilidad? Podríamos definirla como el proceso que se encarga de garantizar que los servicios que prestamos se encuentran funcionando como mínimo tal y como es exigido por nuestros clientes.
 
  1. Requisitos de cliente
A partir de la definición de gestión de disponibilidad nos encontramos con el primer punto que tiene que realizar la gestión de disponibilidad: preguntar a nuestros clientes que mínimo de funcionamiento es aceptable. Esto lo podríamos hacer de forma sencilla con 5 parámetros básicos:
  • Tiempo máximo de no funcionamiento anual
  • Tiempo máximo por caída
  • Tiempo máximo de mantenimiento anual
  • Horario de servicio ( 24x7, 8x5, …)
  • Número de usuarios
Quizá os preguntareis a que vienen los ítems 4 y 5: Nos ayudaran a medir la disponibilidad y a calcular los diferentes indicadores de disponibilidad (hablaremos de ello en otro artículo).
 
A partir de estas preguntas, enfocadas a cada uno de los servicios que estamos dando, obtendremos tres primeras tablas con nuestros clientes en las columnas y nuestros servicios en las filas. Con esto obtendremos 3 valores por servicio claves: El máximo tiempo de funcionamiento x servicio (en base a horario y tiempo máximo de no funcionamiento), el máximo tiempo de caída permitido por servicio y el máximo tiempo de parada por mantenimiento anual; quedará definido en las reuniones con cliente si el tiempo de no funcionamiento anual incluye o no el mantenimiento (algunas organizaciones lo aceptaran y otras no).
 
Con esto ya tenemos una idea clara de que es lo que se quiere respecto a disponibilidad. Pero aquí solo acabamos de empezar. Ahora ya tenemos nuestro SLA (Acuerdo de nivel de servicio) y a partir de el podemos sacar otros indicadores que nos ayudaran.
 
A partir de aqui que nos queda? Pues medir los indicadores, que no es tarea fácil. Quizá la primera aproximación que uno puede pensar puede venir dada por la implantación de herramientas como Nagios o cualquier otra herramienta de monitorización… Craso error!! 
 
  1. Disponibilidad técnica y disponibilidad de servicio
Podría citar numerosos ejemplos en los que la disponibilidad de servicio no se ve afectada por caídas técnicas (si, de verdad), y viceversa: caídas de servicio no detectadas por la monitorización (lentitud extrema de servicio, errores funcionales que hacen inservible un servicio, …). Es por eso que hay que crear 2 subprocesos independientes, uno que se encargue de registrar las caídas de servicio y otro que se encargue de mantener la monitorización técnica de equipos. De forma periódica necesitaremos analizar los datos de los 2 subprocesos con el fin de detectar caídas no detectadas por los dos.
 
  1. Registro de no disponibilidades
Entrando en detalle en lo que llamamos anteriormente registro de disponibilidades, mi recomendación es que se integre con la gestión de incidencias.
 
Campos de incidencia gravePuede integrarse fácilmente usando un atributo de incidencia que clasifique las mismas entre 'graves' y 'normales' por ejemplo, y modificando el flujo en el primer caso para que en este caso se registre en la incidencia, una vez resuelta, el tiempo de no disponibilidad, usuarios afectados, tipo de incidencia grave (luego hablaremos del tema) y finalmente afectación al servicio (en mi caso valoro una ponderación de 100% de afectación para servicios completamente caídos, 10% para faltas en la funcionalidad no críticos  y 1% para afectaciones menores).
 
Detalle de MIRUna vez informado, y en casos en los que sea necesario por el impacto de la incidencia grave, también podemos realizar un documento que llamo MIR (Major Impact Report) en el que se detalla el origen de la incidencia, su cronología y resolución y acciones que se tomaran para que no vuelva a repetirse.
 
 
  1. Otros usos de las incidencias graves
La implementación de las incidencias 'graves' también puede usarse como registro de otro tipo de incidencias de especial interés, como pueden ser las incidencias relacionadas con la LOPD o incidencias de seguridad generales que tengan que tratarse de una forma especial. De esta forma, y con el campo de clasificación de la incidencia, podemos añadir un segundo campo que puede llamarse 'tipo de incidencia grave' para discernir entre estos tipos de incidencia 'especiales'.
 
  1. CCD?
Dentro de la gestión de la disponibilidad es habitual realizar también la gestión de la continuidad de los servicios, tema que no trataremos hoy. Dado que hay que realizar el seguimiento del estado de los diferentes servicios y sus capacidades de continuidad de forma periódica, se puede aprovechar estas reuniones para analizar las incidencias graves de disponibilidad, ver los MIRs realizados o encargar MIRs si no se han realizado y es necesario y evaluar también las acciones que se han recogido en los MIR con objeto de que no queden en el pozo de 'las buenas intenciones' y no se lleguen a realizar. Estas reuniones yo las llamo de CCD (Comisión de Continuidad y Disponibilidad) o CAC en inglés.

 

Add comment


Security code
Refresh