Administración de problemas para servicios en línea confiables

Publicado por David Bills, estratega jefe de confiabilidad de Informática de confianza

Creo que la mayoría de los proveedores de nubes reconocen la importancia que tiene para ellos el hecho de ser capaces de detectar, diagnosticar y resolver problemas que amenacen con reducir la disponibilidad y confiabilidad de los servicios que ofrecen. Sin embargo, debido a una plétora de componentes y actividades relacionadas que están involucrados en un servicio de nube típico, la rápida detección, el diagnóstico y la resolución de problemas pueden ser bastante difíciles de lograr. Distintas causas primordiales pueden manifestarse como síntomas similares; esto significa que puede resultar difícil saber con certeza si ha resuelto o no un problema de manera permanente.

Por ejemplo, los tiempos de respuesta lentos podrían relacionarse con preguntas que no se han optimizado o con vínculos de red completamente utilizados que demoran la transferencia de datos o con máquinas que cambian de memoria a disco y viceversa. Lo que hace para resolver cada una de estas causas primordiales es radicalmente distinto, a pesar de que se trata del mismo síntoma: ¡una respuesta débil!

Muchas organizaciones centran su atención en la administración de incidentes, pero, según mi experiencia, son las organizaciones que utilizan un proceso de administración de problemas sólido las que consiguen mayor confiabilidad, agilidad y eficacia cuando administran sus servicios de nube.

Hoy, Microsoft publicó un nuevo documento llamado, "Administración de problemas para servicios en línea confiables". En el documento se describe la administración de problemas y los beneficios que las organizaciones obtienen de la implementación de una estrategia de administración de problemas sólida. Se compara la administración de incidentes con la administración de problemas y se describen los conceptos fundamentales de una administración eficaz de problemas y se resumen los procesos de administración de problemas que las organizaciones pueden utilizar para mejorar la confiabilidad de sus servicios en línea. El documento además incluye dos ejemplos reales de enfoques hacia la administración de problemas utilizados por las TI de Bing y Microsoft.

Según mi experiencia, a menudo es difícil que las organizaciones dediquen los recursos que se requieren para implementar una metodología de administración de problemas sólida, pero el retorno de inversión conseguido por las organizaciones que sí se comprometen con la administración de problemas puede ser muy favorable. Los equipos de administración de problemas investigan la causa de cada incidente, correlacionan dicha información con los datos obtenidos a partir de incidentes anteriores y buscan similitudes. Al analizar toda la información, a menudo pueden identificar patrones que, de otra manera, se podrían pasar por alto; patrones que pueden conducir a soluciones permanentes.

Si está implementando servicios de nube a escala, ya sea como proveedor de nube que proporciona infraestructura, plataforma o soluciones de software, o bien como proveedor de software independiente o incluso si es un cliente que administra su propia nube privada a escala, lo animo a que descargue este documento y lea más sobre cómo implementar exitosamente una metodología de administración de problemas diseñada para mejorar la confiabilidad de sus servicios en línea.