Continuidade e Resolução de Problemas
Política de continuidade
Objetivo
O objetivo dessa política é garantir a entrega ininterrupta dos serviços essenciais da organização, mesmo diante de interrupções ou desastres. Essa política visa proteger os interesses das partes interessadas, assegurando que os serviços sejam retomados o mais rápido possível e com o mínimo de impacto negativo.
Áreas e Processos críticos para a organização
Nesta seção definiremos quais são os processos considerados como críticos para organização bem como os papeis dos responsáveis pelo re-estabelecimento.
Definição das áreas e Processos críticos
Em consonância com o plano de continuidade, os processos críticos, definidos como aqueles cuja interrupção exige tratamento prioritário e cujo tempo de inatividade deve ser minimizado, foram cuidadosamente identificados.
Após análise minuciosa, os seguintes processos foram classificados como críticos para a organização:
- Recursos Humanos
-
Responsável pela gestão do capital humano, essencial para a manutenção das operações e para o cumprimento de obrigações legais e contratuais.
- Comercial
-
Responsável pela geração de receita e manutenção do relacionamento com clientes, crucial para a sustentabilidade financeira da organização.
- Infraestrutura
-
Responsável pela manutenção dos recursos físicos e lógicos, incluindo instalações, equipamentos e sistemas, indispensáveis para o funcionamento dos demais processos.
Em caso de interrupção, a ordem de prioridade para a retomada das atividades será a seguinte:
-
Tecnologia e infraestrutura: A restauração da infraestrutura é fundamental para possibilitar a retomada dos demais processos.
-
Recursos Humanos: A equipe de Recursos Humanos é essencial para garantir a gestão do pessoal e o apoio aos demais processos durante a recuperação.
-
Comercial: A retomada das atividades comerciais é crucial para não perder oportunidades, como por exemplo a participação de maneira satisfatória a um pregão, ou a renovação de um contrato.
A presente priorização visa assegurar a retomada célere dos serviços essenciais da organização, minimizando os impactos negativos de eventuais interrupções e garantindo a continuidade do negócio.
Papeis e recursos envolvidos
Papeis
- Diretor de Tecnologia (Líder de Continuidade)
-
Tem por responsabilidade:
-
Garantir a continuidade da infraestrutura tecnológica e dos serviços essenciais para a organização. Realizar o Backup das informações críticas conforme a Estratégia de Backup.
-
Liderar e coordenar as ações de resposta e recuperação em caso de interrupções, mobilizando as equipes necessárias e acionando os planos de contingência.
-
Comunicar as interrupções de serviços aos stakeholders internos e externos, fornecendo informações claras e precisas sobre o impacto e o tempo estimado de recuperação.
-
Monitorar continuamente a situação e tomar decisões estratégicas para mitigar os impactos e acelerar a retomada das operações.
-
- Gerente de Recursos Humanos
-
Tem por responsabilidade:
-
Comunicar aos stakeholders internos (funcionários, colaboradores, etc.) sobre problemas relacionados à ausência ou indisponibilidade de recursos humanos, como em casos de desastres naturais ou pandemias.
-
Acionar planos de contingência para garantir o bem-estar e a segurança dos funcionários, bem como a continuidade das atividades essenciais, como trabalho remoto ou alocação de equipes alternativas.
-
Coordenar a comunicação com os prepostos e gerentes de contratos.
-
- Diretor Comercial
-
Tem por responsabilidade:
-
Comunicar aos clientes sobre problemas de infraestrutura ou de recursos humanos que possam afetar a continuidade dos contratos ou a prestação de serviços.
-
Negociar soluções alternativas com os clientes, como prazos de entrega estendidos ou serviços substitutos, buscando minimizar o impacto nos negócios e preservar o relacionamento.
-
Manter os clientes informados sobre o progresso da recuperação e as ações que estão sendo tomadas para restabelecer a normalidade.
-
Recursos
A infraestrutura de TI da organização foi projetada com redundância e resiliência para garantir a continuidade dos serviços em caso de interrupções. Os seguintes recursos estão disponíveis para o plano de continuidade:
- Infraestrutura
-
-
Servidores: Todos os servidores são equipados com fontes de energia redundantes para evitar interrupções em caso de falha de energia. Os discos rígidos estão configurados em RAID 5 para proteger os dados contra falhas de disco. Todos os servidores são gerenciáveis de maneira centralizada por um cliente Web, facilitando o monitoramento e a gestão remota.
-
Backup: Conforme a Estratégia de Backup, todos os dados dos sistemas críticos são incluídos no ciclo diário de backup. Os principais arquivos são armazenados em uma nuvem externa para garantir a segurança dos dados em caso de destruição das máquinas onde o backup é efetuado.
-
Internet: O acesso à Internet é fornecido por dois links de provedores distintos, garantindo a disponibilidade da conexão em caso de falha de um dos provedores. Todos os acessos, entradas e saídas são monitorados e filtrados por um firewall para proteger a rede contra ameaças externas.
-
Energia: Todos os equipamentos, servidores, pontos de acesso sem fio, switches e dispositivos de acesso à Internet e VPN estão conectados a um sistema de alimentação ininterrupta (no-break). Esse sistema de alimentação está ligado a um ponto de entrada de eletricidade separado do resto dos pontos, garantindo o fornecimento de energia mesmo em caso de falha na rede elétrica principal.
-
- Equipe
-
Uma equipe dedicada é responsável pelas manutenções, pelo monitoramento e pela validação dos ambientes. Essa equipe está disponível para responder a incidentes e garantir a continuidade dos serviços.
Riscos identificados e Plano de contingência
Riscos potenciais
Os riscos organizacionais identificados e as medidas para tentar prevení-los são, por área:
- Tecnologia e infraestrutura
| Id | Risco | Processos impactados | Medidas de prevenção |
|---|---|---|---|
T1 |
|
Monitoramento da rede e Backup |
|
T2 |
Perda ou corrupção de dados |
Backups |
|
T3 |
Queda de Eletricidade |
Sistema de alimentação ininterrupta (no-break) |
|
T4 |
GMail |
E-mail alternativo auto-hospedado (Mailcow) |
|
T5 |
Interrupção do SGO |
|
Monitoramento do SGO e serviços relacionados |
T6 |
Interrupção do ECM (Alfresco) |
|
Monitoramento do ECM e serviços relacionados |
- RH
-
.Riscos de RH
| Id | Risco | Processos impactados | Medidas de prevenção |
|---|---|---|---|
RH1 |
Ausência por conta de catástrofe natural, epidemia (falta em massa) |
|
N/A |
RH2 |
Ausência de pessoal qualificado para recrutamento. |
|
Banco de currículos no SGO |
Planos de Contingência
- Recuperação de dados
-
Em caso da ocorrência dos seguintes riscos: T1, T2 (ver Riscos de tecnologia e infraestrutura) será efetuada a restauração de backups conforme a Estratégia de Backup.
- Uso de alternativas
-
Em caso de ocorrência dos riscos T3, T4, T5, T6 podem ser utilizadas ferramentas nos computadores locais ou em serviços em nuvem, por exemplo Word, Excel ou Google Docs, Google Sheets.Após o reestabelecimento a equipe encarregada dos sistemas apoiará na inserção nos serviços dos dados registrados fora deles.
Alguns documentos de uso comum como registros da empresa, diretores e sócios podem ser armazenadas em um serviço externo como o Google Drive.
Plano de comunicação
Neste plano, definiremos as diretrizes e os procedimentos para a comunicação durante a ativação do plano de continuidade, garantindo que todas as partes interessadas sejam informadas sobre a situação, as ações tomadas e o progresso da recuperação.
Os canais de comunicação utilizados serão os definidos no item Regras de Comunicação do processo Orientação das Equipes de Trabalho.
Imediatamente após a interrupção dos serviços os responsáveis citados no item Papeis devem ser informados das possíveis causas e as ações iniciais que serão tomadas.
Após a identificação da causa, ou depois de uma hora após o ocorrido (o que acontecer primeiro) os Stakeholders internos devem ser atualizados sobre o progresso da recuperação e o tempo estimado de retorno à normalidade se a causa foi encontrada.Neste momento os Stakeholders podem ser comunicados do acontecimento.Se depois de uma hora a causa não foi encontrada, esse processo será repetido até encontrar ela, os Stakeholders internos receberão notícias de hora em hora.
|
É desaconselhado entrar diretamente em contato com o Líder de Continuidade para saber do progresso para não atrasar a recuperação. |
Após a restauração dos sistemas os Stakeholders internos devem ser avisados, os mesmos após validar que os serviços voltaram ao normal devem notificar os Stakeholders externos.
Todas as comunicações visando a informar os Stakeholders internos terão por origem o Líder de Continuidade.
Treinamento e Conscientização
Durante os treinamentos organizacionais previstos no Plano tático do Plano estratégico e tático de treinamento o plano de continuidade é explicado a todos os participantes, para todos saberem quais responsabilidades eles têm, por exemplo sobre o uso do e-mail de contrato no GMail para os prepostos e gerentes de contratos.
De tempo em tempo, conforme definido no Estratégia de Backup Testes de backups no plano de backup[] o procedimento de restauração dos backups deve ser testado.
Monitoramento e Melhoria Contínua
Depois de cada incidente uma ocorrência de análise post-mortem é registrada no SGO explicando a causa do problema e o que foi feito para encontrar ela e restaurar o serviço.
Usamos ferramentas de monitoramento de redes e servidores com alertas para tentar detectar os problemas antes que eles acontecem. Essas ferramentas são usadas também para verificar o comportamento de um servidor ou da rede antes do problema acontecer para poder criar novas regras e evitar que o mesmo incidente aconteça de novo. As ferramentas de monitoramento enviam as alertas em tempo real na ferramenta de comunicação interna.
Diariamente o SGO cria uma tarefa para o núcleo de Configuração e Infraestrutura para validar no início do dia que os sistemas críticos e os de monitoramento estão rodando corretamente.
Política de Identificação, Resolução e Prevenção de Problemas
Rev. 1.0 - 28/04/2025
Propósito
-
Descrever o processo para identificar, analisar, resolver e prevenir problemas que possam impactar a qualidade dos produtos, serviços e processos da Basis.
-
Garantir uma abordagem sistemática e eficaz para minimizar a ocorrência e o impacto de problemas.
-
Promover a melhoria contínua através da análise das causas raízes e da implementação de ações preventivas.
Escopo
-
Esta política se aplica a todos os participantes de processos de serviço da Basis.
-
Abrange todos os problemas identificados, independentemente de sua origem ou impacto inicial.
Identificação de Problemas
-
Fontes de Identificação:
-
Relatos de incidentes, oriundos do processo de continuidade.
-
Resultados de testes e inspeções.
-
Feedback de clientes e usuários.
-
Monitoramento de sistemas e processos, auditorias internas e externas.
-
Análise de tendências e dados históricos.
-
Identificação proativa de potenciais problemas (linkar com análise de riscos).
-
Registro de Problemas:
-
Todos os problemas identificados devem ser formalmente registrados no SGO.
-
O registro deve conter informações detalhadas sobre o problema, incluindo data, hora, origem, impacto potencial e quem o reportou.
-
Priorização Inicial: uma avaliação inicial da severidade e urgência do problema deve ser realizada para direcionar os esforços de análise e resolução.
-
Análise e Diagnóstico
- Formação de Equipes
-
-
Envolver as áreas relacionadas na abertura do problema no SGO. Ver Papéis da política de continuidade.
-
O líder de continuidade será o responsável pela centralização e coordenação das atividades, ver Líder de continuidade.
-
- Coleta de Dados
-
-
Dados relevantes devem ser coletados para entender a causa raiz do problema. Isso pode incluir logs de sistemas, histórico de eventos, entrevistas com as partes envolvidas e deverão ser juntadas na ocorrência SGO de Problema.
-
Técnicas de Análise: Utilizar o processo de análise de causas.
-
- Documentação do Diagnóstico
-
Os resultados da análise e o diagnóstico da causa raiz devem ser documentados concisamente e registradas no SGO.
Resolução
-
Desenvolvimento de Soluções:
-
Com base na análise da causa raiz, soluções eficazes devem ser desenvolvidas e avaliadas.
-
Considerar soluções de curto prazo (workarounds) e de longo prazo (correções permanentes).
-
-
Implementação da Solução:
-
A implementação da solução deve ser planejada, testada (quando aplicável) e comunicada às partes interessadas.
-
As mudanças devem ser gerenciadas de acordo com o processo de gestão de mudanças da organização.
-
-
Verificação da Solução: após a implementação, a eficácia da solução deve ser verificada para garantir que o problema foi resolvido e não recorreu.
-
Documentação da Resolução: as ações de resolução implementadas e os resultados da verificação devem ser documentados.
Prevenção
-
Identificação de Ações Preventivas:
-
Com base na análise das causas raízes dos problemas, identificar ações preventivas para evitar sua recorrência ou a ocorrência de problemas semelhantes. A anaĺise de causas deverá seguir o definido na Estratégia de alta maduridade
-
As ações preventivas podem envolver mudanças em processos, atualizações de sistemas, treinamento, melhorias na documentação, etc. Exemplos das melhorias de processo e de novas validações no SGO.
-
-
Implementação e Monitoramento de Ações Preventivas:
-
As ações preventivas devem ser planejadas, implementadas e monitoradas para garantir sua eficácia.
-
Responsabilidades e prazos para a implementação das ações preventivas devem ser definidos.
-
Monitoramento e Melhoria Contínua
-
Monitoramento de Problemas Recorrentes: Monitorar o sistema de gestão de problemas para identificar tendências, problemas recorrentes e a eficácia das ações preventivas.
-
Análise Periódica Realizar análises periódicas dos dados de problemas para identificar áreas de melhoria no processo de IRP e nos processos da organização.
-
Lições Aprendidas Documentar as lições aprendidas durante a resolução e prevenção de problemas para disseminar o conhecimento e melhorar as práticas futuras.
-
Melhoria do Processo de IRP Revisar e atualizar periodicamente esta política e o processo de IRP com base nas lições aprendidas e nas necessidades da organização.
Comunicação e Integração
-
Os canais de comunicação serão os mesmos definidos no plano de comunicação da política de continuidade
-
Partes Interessadas Identificar as partes interessadas relevantes (internas e externas) e definir como elas serão comunicadas e envolvidas no processo de IRP.
-
Integração com Outros Processos Garantir a integração do processo de IRP com outros processos relevantes da organização, como gestão de incidentes (continuidade), gestão de mudanças, gestão de riscos e melhoria de processos.