O que é o gerenciamento de incidentes?
O gerenciamento de incidentes (GI) é o processo que as equipes de TI usam para responder a uma interrupção não planejada do serviço. Interrupções inesperadas ocorrem devido a incidentes como perda ou degradação da conectividade de rede, uma tarefa agendada (como uma tarefa de backup) não sendo executada ou uma API que não responde. O processo de gerenciamento de incidentes tenta restaurar rapidamente a operação regular do serviço de TI e minimizar o impacto nos negócios. No processo, a equipe detecta e investiga incidentes, resolve problemas e documenta as etapas tomadas para restaurar o serviço.
Quais são os eventos que exigem gerenciamento de incidentes?
O termo gerenciamento de incidentes não é usado exclusivamente na área de TI. Fora da TI, você ouvirá falar de GI em áreas como serviços de emergência, gerenciamento de eventos em grande escala e operações de fábricas.
Para o propósito deste artigo, nos referimos ao GI no contexto do gerenciamento de serviços de TI (ITSM). Nesse contexto, o gerenciamento de incidentes se concentra nas atividades de gerenciamento relacionadas à qualidade do serviço e ao próprio atendimento ao cliente.
Em seguida, discutimos diferentes eventos de TI dentro do escopo do gerenciamento de incidentes no ITSM.
Incidente
No gerenciamento de incidentes, os incidentes podem ser definidos como eventos inesperados que causam uma queda na qualidade esperada ou combinada do serviço de TI. A escala do incidente pode ser pequena ou grande e você pode indicar a criticidade. Por exemplo, a queda na qualidade do serviço pode ser mínima e confinada a uma localização geográfica específica. Ou o serviço pode sofrer uma interrupção completa em várias regiões.
Problema
Um problema se refere à causa subjacente do incidente, que é descoberta após uma investigação mais aprofundada e é necessária para a resolução completa do incidente. Por exemplo, se um servidor Web estiver funcionando lentamente, o problema pode ser uma configuração incorreta do roteador no datacenter ou em um cabo de rede danificado no perímetro.
Mudança
No GI, uma mudança se refere a quando um serviço em si estiver mudando para melhorar a qualidade ou adicionar novos recursos, por exemplo. Durante o período de mudança, a prorrogação deve ser tratada com cuidado para evitar ou minimizar a interrupção das operações comerciais normais. Isso inclui avisar os clientes sobre interrupções de serviço previstas ou potenciais.
Solicitação de serviço
Uma solicitação de serviço é uma solicitação iniciada pelo cliente dentro dos limites dos termos do contrato entre fornecedor e cliente. A solicitação deve ser executada sem interromper as operações normais.
Como funciona o gerenciamento de incidentes?
O gerenciamento de incidentes usa um conjunto de processos documentados que descrevem claramente o que precisa ser feito para minimizar o impacto negativo e a duração da interrupção da TI. Além do gerenciamento técnico do que deu errado, ele também inclui o gerenciamento das expectativas do cliente, do usuário e das partes interessadas durante um incidente.
Para os clientes, os acordos de serviço (SLAs) definem claramente as garantias de disponibilidade esperadas, os tempos de resolução e os canais de comunicação para incidentes. Isso exige um gerenciamento abrangente de incidentes por parte do provedor de serviços para atender aos termos e condições do SLA.
Estruturas de gerenciamento de incidentes de TI
Existem várias estruturas que as organizações usam para modelar o gerenciamento de incidentes (GI). Dois exemplos são o Gerenciamento de Incidentes da Biblioteca de Infraestrutura de TI (ITIL) 4 e a Estrutura de Segurança Cibernética do Instituto Nacional de Padrões e Tecnologia (NIST). Essas estruturas podem ser usadas no estado em que se encontram ou estendidas para se adaptar a ambientes comerciais, serviços e padrões de comunicação exclusivos com os clientes e as outras partes interessadas.
O software de gerenciamento de incidentes é frequentemente usado para implantar uma estrutura dentro de uma organização. A estrutura exata usada depende dos serviços oferecidos.
Quais são as etapas do processo de gerenciamento de incidentes?
As etapas envolvidas nos processos de gerenciamento de incidentes dependem da estrutura usada na organização. A seguir, discutiremos as principais etapas em muitas estruturas comuns do ciclo de vida do gerenciamento de incidentes.
Identifique o risco
A identificação de ativos, sistemas, dados e outros recursos essenciais determina onde estão os maiores riscos para a empresa. No contexto da prestação de serviços aos clientes, ela envolve a identificação de seus sistemas e ativos mais valiosos.
Proteja os ativos
Depois que os ativos são identificados, as organizações fortalecem os controles de segurança e performance. Por exemplo, um aplicativo pode ser implantado em várias regiões para disponibilidade contínua no caso de interrupções regionais.
Detecte incidentes
Os sistemas devem estar prontos para monitorar o estado dos ativos críticos para que todos os incidentes possam ser identificados em tempo real. As organizações devem ser proativas no monitoramento de anomalias. Não queremos saber pelo cliente que uma interrupção está ocorrendo. A ênfase está na remediação proativa.
Responder a incidentes
Depois que um incidente é detectado, você deverá interceptar qualquer interrupção imediatamente. Se isso não for possível, siga um processo para conter ou limitar o impacto. Talvez você também precise ativar sistemas secundários para que as operações possam ser retomadas mesmo que não haja uma solução rápida. Muito disso pode ser automatizado, dependendo da natureza do incidente e das ferramentas atuais de gerenciamento de incidentes.
Recupere-se dos incidentes
Na fase de recuperação, a análise do incidente começa. Você capturará as lições aprendidas, formulará planos de resposta aprimorados e corrigirá os problemas e os processos. Incidentes graves podem exigir esforços significativos de recuperação. A imagem a seguir mostra um dos processos de gerenciamento de incidentes que a Amazon Web Services (AWS) usa.
Quais são as melhores práticas de gerenciamento de incidentes?
As melhores práticas ajudam as organizações a operar em um nível mais maduro dentro de uma determinada unidade de negócios ou área estratégica. Ao adotar as melhores práticas em sistemas de gerenciamento de incidentes, você pode fornecer o melhor serviço possível aos seus clientes.
Desenvolva políticas de escala
Você poderá categorizar os incidentes de acordo com sua prioridade e gravidade para orientar cronogramas, remediações e investigações. Você deverá adotar políticas de escala quando a resposta a incidentes não estiver ocorrendo conforme o esperado ou se ocorrer um grande incidente de alta prioridade ou gravidade. Sem essas políticas, sua equipe pode perder tempo decidindo com quem entrar em contato e o que fazer.
Planeje as comunicações em detalhes
As partes interessadas, da equipe de TI aos usuários finais, devem ser mantidas informadas sobre o status dos incidentes. Também é importante ter canais de comunicação claros para que as pessoas afetadas saibam onde buscar atualizações ou relatar novos incidentes. Com planos de comunicação claros, você pode estabelecer a confiança e evitar culpas equivocadas. Incidentes críticos são sempre tratados com diplomacia.
Execute a análise de causa-raiz
Depois de resolver um incidente, você deverá realizar uma análise da causa raiz para entender por que o incidente ocorreu em primeiro lugar. Isso ajuda a identificar as lacunas ou vulnerabilidades no sistema, que você pode resolver para evitar incidentes semelhantes no futuro. As lições aprendidas em cada incidente são úteis para melhorar continuamente a infraestrutura e os processos de TI.
Adote práticas de engenharia do caos
A engenharia do caos é uma disciplina da engenharia de software na qual os sistemas são intencionalmente sujeitos a condições disruptivas, como falhas no servidor, latências de rede ou limitações de recursos. A incorporação do caos nos sistemas testa sua resiliência e também fortalece os processos de gerenciamento e resposta a incidentes de uma organização. Essa é uma técnica semelhante à implantação de hackers éticos no gerenciamento de incidentes de segurança cibernética.
Como a AWS pode oferecer suporte aos seus requisitos de gerenciamento de incidentes?
A AWS tem uma variedade de serviços que ajudam as organizações a oferecer um gerenciamento eficaz de incidentes na AWS e em ambientes híbridos.
A Detecção e resposta a incidentes da AWS oferece aos clientes do AWS Enterprise Support monitoramento proativo e gerenciamento de incidentes para workloads selecionadas. Trabalhando com especialistas, você define métricas críticas, alarmes e cronogramas de priorização para um sistema de gerenciamento de incidentes de TI que visa acelerar a recuperação no caso de um incidente.
O AWS Managed Services (AMS) ajuda a proteger as informações da sua organização, bem como sua infraestrutura, com os recursos de resposta e resolução de incidentes da AWS. O AMS pode ser usado como uma forma de terceirizar o gerenciamento de incidentes de TI da AWS, para que sua organização possa se concentrar nos negócios principais. Veja o que você pode fazer com o AMS:
- Solicitar ajuda com problemas operacionais e solicitações a qualquer momento por meio do Centro de Suporte da AWS no console da AWS
- Acessar suporte 24 horas por dia, 7 dias por semana, com tempo de resposta dependente do nível de serviço da sua conta selecionada (Plus, Premium)
- Receber notificações proativas de alertas e perguntas importantes usando os mesmos mecanismos
Como parte do AWS Well-Architected Framework, também fornecemos orientações para o gerenciamento de incidentes na nuvem. Esse é um bom recurso para ajudar a planejar o gerenciamento de incidentes para organizações que oferecem seus próprios serviços de TI que usam os serviços de nuvem da AWS. O Guia de Resposta a Incidentes de Segurança da AWS é outro material útil para incidentes relacionados à segurança.
Comece a usar o gerenciamento de incidentes na AWS criando uma conta hoje mesmo.
Próximas etapas com a AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.