Gerenciamento de Incidentes: o que é e como fazer

Gerenciamento-de-Incidentes-o-que-é-e-como-fazer

Última atualização em 02/04/2024


Quando os usuários e clientes não têm seus sistemas e computadores disponíveis eles perdem a confiança no trabalho da área de TI. Uma forma de evitar a perda de credibilidade do departamento é estabelecer um bom processo de Gerenciamento de Incidentes. Neste post nós vamos te contar:


 Vamos começar?

O que é um Incidente?

Um incidente é a interrupção não planejada de um serviço de TI ou a redução da qualidade do serviço prestado. Essa definição é dada pelo ITIL, uma biblioteca de boas práticas em gerenciamento de serviços de TI (ITSM).

São exemplos de incidentes: falta de acesso à internet, servidor fora do ar, mau funcionamento de computadores etc. Eles podem ser identificados pela equipe de TI, por sistemas de monitoramento ou, então, relatados pelos usuários e clientes.

Também é importante ter em mente que incidentes, problemas e eventos são conceitos diferentes. Eles podem se sobrepor, mas não são iguais. Segundo o ITIL, um evento é uma mudança de estado significativa para a gestão de um serviço de TI ou outro item de configuração. Já um problema é a causa raiz de um ou mais incidentes.

Leia também o post sobre Gerenciamento de identidade e acessos

Para que essa diferença fique clara, vamos a um exemplo.

Imagine que você trabalha em uma grande empresa de metais. No meio da tarde, em pleno funcionamento da empresa, você começa a observar uma lentidão moderada na sua internet. Essa lentidão recebe o nome de evento, pois avisa que alguma coisa aconteceu.

Um pouco mais para o fim da tarde, a internet cai e fica fora do ar por duas horas. Esse acontecimento caracteriza um incidente, pois quebra o fornecimento do serviço e a qualidade da entrega. Além disso, rompe o compromisso firmado no Acordo de Nível de Serviço, que estipula em 30 minutos o limite máximo para a falta de internet. Então, é aberto um chamado para a área de TI, que utiliza o gerenciamento de incidentes para priorizar e solucionar o chamado.

Importante:

Mesmo se você tivesse ficado sem internet por apenas 20 minutos, tempo que está dentro dos limites do SLA, a situação ainda assim caracterizaria um incidente, porque interrompeu um serviço. O Acordo de Nível de Serviço vai ser útil depois, na hora de medir a qualidade do serviço prestado e o atendimento a este SLA.

Agora, vamos complicar um pouquinho: imagine que a internet cai todas as semanas. Nesse caso, é necessário investigar o porquê dessa queda e entender o problema que está por trás dos incidentes.

O problema pode ser causado pela qualidade do provedor de internet, por pessoas usando a banda da internet para atividades que não deveriam (ouvir música, ver vídeos etc.) ou por um ataque de hackers.

Por trás de uma simples queda de internet pode haver um grande problema. No nosso exemplo, a causa para a interrupção do serviço de internet foi uma tentativa de hackear dados de clientes para chantagear a organização. É claro que este é um exemplo fictício e exagerado, mas deu para entender, né?

Resumindo:

  • Um evento é um alerta que alguma coisa aconteceu ou pode acontecer;
  • Um incidente é o efeito, isto é, aquilo que impacta o serviço;
  • Um problema é a causa raiz ou o porquê de o incidente ter acontecido;
  • Todo incidente é um evento, mas nem todo evento é um incidente;
  • Todo problema parte de um incidente e, consequentemente, de um evento. Mas o contrário não é verdadeiro.


Agora que já estamos alinhados quanto ao conceito de incidente, vamos entender o que é gerenciamento de incidentes:

O que é Gerenciamento de Incidentes?

Gerenciamento de Incidentes é um processo que tem o objetivo de retomar um serviço o mais breve possível, causando o mínimo de danos ao negócio. Dessa forma, são mantidos os Acordos de Nível de Serviço firmados com as áreas de negócio. Isso pode ser feito através de um reparo rápido ou do fornecimento de uma solução alternativa ao cliente.

Conforme as boas práticas para gestão de ti do ITIL, o processo de gerenciamento de incidentes precisa ser composto de algumas etapas. Vamos conhecer mais detalhes sobre cada uma delas?

Leia também o post sobre Governança de dados

Como fazer Gerenciamento de Incidentes segundo o ITIL

1. Identificação de Incidentes

O primeiro passo para gerenciar incidentes é reconhece-los. Os incidentes podem ser identificados pela Central de Serviços, por sistemas de monitoramento e pelos próprios usuários e clientes. Dessa forma, os chamados chegam por diversos canais, como chat, e-mail e telefone.

2. Registro de Incidentes

Todos os incidentes devem ser registrados conforme a ferramenta de controle adotada pela organização, que pode ser uma planilha ou um sistema de chamados, por exemplo. O registro é muito importante porque cria um histórico que possibilita a consolidação de uma base de conhecimento. Dessa forma, sempre que os analistas de suporte receberem um chamado eles poderão consultar a base e verificar se esse incidente já foi resolvido e qual foi a solução encontrada. O registro também facilita a comunicação na hora da “passagem de bastão”.

3. Categorização de Incidentes

Nessa etapa do processo, a Central de Serviços irá classificar o chamado recebido. Qual é o tipo do chamado? É um incidente ou uma requisição? É um chamado de hardware ou software? Se não for um incidente, a Central de Serviços irá delegar o chamado para o processo adequado. Outra tarefa importante nesta etapa de categorização é definir a qual serviço do catálogo o incidente está relacionado.

CTA-A-TI-Fechando-Acordos-com-o-Catálogo-de-Serviços

4. Priorização de Incidentes

É a etapa de definir se o incidente deve ser atendido agora ou pode esperar um pouco. Para isso, é preciso usar critérios relacionados à urgência e ao impacto. Um incidente urgente é aquele que precisa ser atendido imediatamente. Já um incidente impactante é aquele que pode gerar grandes riscos ao negócio. Os incidentes podem ser classificados de acordo com um dos seguintes graus de priorização: “Muito Baixo”, “Baixo”, “Normal”, “Alto” e “Muito Alto”.

Também é muito comum a classificação através de uma matriz GUT, ferramenta que ajuda a priorizar os incidentes conforme sua Gravidade (intensidade dos impactos), Urgência (o quão emergencial é a resolução do incidente) e Tendência (os rumos que a situação poderá tomar se não for imediatamente resolvida).

5. Diagnóstico Inicial de Incidentes

É a fase de entender, de fato, o incidente que foi reportado. Essa atividade compreende todo o processo de busca da Central de Serviços por uma solução que realmente resolva o chamado do usuário ou cliente. Normalmente, os atendentes do primeiro nível de suporte buscam respostas na Base de Conhecimento, em procedimentos técnicos da empresa, junto com os fornecedores ou com os próprios colegas. Também é importante ressaltar que, caso o atendente perceba que faltam informações para a resolução do chamado, ele deve solicitá-las ao usuário ou ao responsável.

6. Escalada de Incidentes

Caso o atendente de primeiro nível de suporte não tenha o conhecimento técnico necessário para resolver o incidente, ele delegará a tarefa ao segundo nível de suporte. Essa situação é chamada de escalada. É muito interessante ter essa divisão dos atendimentos em níveis porque gera uma melhor distribuição de tarefas de acordo com as competências da equipe. Afinal, você não vai querer que o seu programador mais caro perca tempo lidando com pequenos incidentes que poderiam ter sido resolvidos por outras pessoas, não é mesmo?

7. Resolução de Incidentes

É a fase em que os chamados são realmente solucionados, seja pelo primeiro nível de suporte ou posterior. Além de resolver o pedido do usuário ou cliente, o atendente também deve registrar todas as informações relevantes sobre o incidente e sua resolução. Outro ponto bem importante é garantir de verdade que o incidente foi resolvido, comunicando o cliente.

A resolução de um incidente pode apagar rastros e evidências que poderiam ser utilizados para resolver um problema (causa raiz). Por isso, é preciso cuidado nesse momento.

Por exemplo: para resolver um incidente, como a queda de um servidor, o técnico aperta o botão de “Reset” da máquina. Isto vai apagar registros que poderiam ser utilizados para tentar investigar uma causa raiz para a queda do servidor.

8. Fechamento de Incidentes

É o encerramento do chamado, que deve ser documentado para eventuais consultas. Também é preciso exportar as informações para a base de conhecimento, tornando-as acessíveis para outros atendentes. Caso essa base não seja constantemente reabastecida, corre-se o risco de perder tempo tentando encontrar a solução para um incidente que já foi resolvido anteriormente.

Agora que você já conhece o gerenciamento de incidentes, que tal conhecer um pouco mais sobre ITIL, gerenciamento de problemas, e muito mais? Para isso você pode fazer download do nosso e-book sobre Gestão de TI clicando na imagem abaixo. Boa leitura!

E-book Gestão de TI

 

Gestão de riscos da Euax

A Euax oferece um serviço completo de gestão de riscos para auxiliar empresas na identificação, avaliação e mitigação de ameaças à segurança da informação e à continuidade dos negócios.

Através da metodologia Euax Acelera, aliada à expertise dos nossos profissionais, atuamos no gerenciamento de riscos financeiros, operacionais, tecnológicos, dentre outros. Fale agora mesmo com um consultor e conheça a nossa consultoria em segurança da informação!

2 thoughts on “Gerenciamento de Incidentes: o que é e como fazer

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Consultoria Conduzimos gestores e suas equipes à conquista de resultados! Outsourcing Alocação de profissionais especializados e de alta maturidade Capacitação Treinamentos In Company
@mrjackson