Share via


A melhor forma de ganhar dinheiro é parar de perdê-lo – Uma visão do SLA/OLA

O título deste post é uma frase de autoria do Comandante Rolim Amaro, mais atual como nunca nesses tempos de crise e totalmente pertinente aos processos de governança de TI.

É muito comum no início de um projeto de arquitetura perguntar para o cliente sobre os SLAs/OLAs, e descobrir que eles nunca existiram ou que especificam apenas parâmetros de performance.

Tenho percebido que a área de TI de várias empresas “assumem” a responsabilidade de definir, por exemplo, qual o período máximo de disponibilidade de um serviço, o que pode acarretar em gastos não coerentes.  O modelo mais indicado para se definir corretamente a disponibilidade, integridade, capacidade e continuidade dos serviços é envolvendo os principais interessados, como os usuários finais, gerentes e diretores, de forma que coloquem sua visão em relação a esses itens.

Em paralelo, uma avaliação de perdas decorrentes da indisponibilidade dos serviços deve ser conduzida. De posse destas informações, realiza-se um workshop para apresentar e discutir o modelo mais indicado.

Você deve estar se perguntando onde é que isso tudo tem a ver com redução de custos. Ocorre que muitas empresas gastam verdadeiras fortunas em ambientes com alta disponibilidade sem avaliar corretamente o SLA dos serviços.

Tolerância a falhas é a propriedade que permite que sistemas continuem a operar adequadamente mesmo após falhas em alguns de seus componentes. A tolerância a falhas é processo inerente em sistemas de alta disponibilidade ou aplicações críticas. Os serviços/produtos descritos para implantar alta-disponibilidade devem seguir as práticas de utilizar redundância de hardware e componentes de rede, mecanismos de prevenção/controle de queda de energia elétrica, instalação rotineira de atualizações de segurança e antivírus, monitoramento e ambiente físico adequado para as os equipamentos servidores.

Um ambiente com alta-disponibilidade requer uma maturidade operacional da organização com documentos de SLA/OLA dos serviços, para que o nível adequado de tolerância a falha possa ser adotado. Em algumas situações, o processo de backup/restore em um servidor pré-preparado com sistema operacional é uma alternativa de tolerância a falha adequada.

Alguns itens que acho importante destacar:
- Defina janelas periódicas para manutenção programada.
- Não pulverize a informação critica em vários serviços, forçando que eles requeiram alta-disponibilidade.
- Métodos de continuidade de negócio criativos e eficientes permitem números menos agressivos para índices de disponibilidade.
- Serviços com índices de disponibilidade, integridade e capacidade altos, além de requererem gastos significativos em recursos físico-lógicos, aumentam a complexidade do gerenciamento do ambiente e custo de mão de obra especializada.
- Um ambiente com 99.9% de disponibilidade ao mês quer dizer que você só pode ter 43.2 minutos de indisponibilidade não programada.

Para calcular o tempo máximo de indisponibilidade de um índice utilize a fórmula:
Número total de minutos no mês x (100-índice%)/100

Para 99.9%:
= 30dias x 24horas x 60min x (100-99.9)/100
= 43200 x (0.1)/100
= 43.2 minutos ao mês.