Continuidade e Resolução de Problemas

Política de continuidade

Objetivo

O objetivo dessa política é garantir a entrega ininterrupta dos serviços essenciais da organização, mesmo diante de interrupções ou desastres. Essa política visa proteger os interesses das partes interessadas, assegurando que os serviços sejam retomados o mais rápido possível e com o mínimo de impacto negativo.

Áreas e Processos críticos para a organização

Nesta seção definiremos quais são os processos considerados como críticos para organização bem como os papeis dos responsáveis pelo re-estabelecimento.

Definição das áreas e Processos críticos

Em consonância com o plano de continuidade, os processos críticos, definidos como aqueles cuja interrupção exige tratamento prioritário e cujo tempo de inatividade deve ser minimizado, foram cuidadosamente identificados.

Após análise minuciosa, os seguintes processos foram classificados como críticos para a organização:

Recursos Humanos

Responsável pela gestão do capital humano, essencial para a manutenção das operações e para o cumprimento de obrigações legais e contratuais.

Comercial

Responsável pela geração de receita e manutenção do relacionamento com clientes, crucial para a sustentabilidade financeira da organização.

Infraestrutura

Responsável pela manutenção dos recursos físicos e lógicos, incluindo instalações, equipamentos e sistemas, indispensáveis para o funcionamento dos demais processos.

Em caso de interrupção, a ordem de prioridade para a retomada das atividades será a seguinte:

  • Tecnologia e infraestrutura: A restauração da infraestrutura é fundamental para possibilitar a retomada dos demais processos.

  • Recursos Humanos: A equipe de Recursos Humanos é essencial para garantir a gestão do pessoal e o apoio aos demais processos durante a recuperação.

  • Comercial: A retomada das atividades comerciais é crucial para não perder oportunidades, como por exemplo a participação de maneira satisfatória a um pregão, ou a renovação de um contrato.

A presente priorização visa assegurar a retomada célere dos serviços essenciais da organização, minimizando os impactos negativos de eventuais interrupções e garantindo a continuidade do negócio.

Papeis e recursos envolvidos

Papeis
Diretor de Tecnologia (Líder de Continuidade)

Tem por responsabilidade:

  • Garantir a continuidade da infraestrutura tecnológica e dos serviços essenciais para a organização. Realizar o Backup das informações críticas conforme a Estratégia de Backup.

  • Liderar e coordenar as ações de resposta e recuperação em caso de interrupções, mobilizando as equipes necessárias e acionando os planos de contingência.

  • Comunicar as interrupções de serviços aos stakeholders internos e externos, fornecendo informações claras e precisas sobre o impacto e o tempo estimado de recuperação.

  • Monitorar continuamente a situação e tomar decisões estratégicas para mitigar os impactos e acelerar a retomada das operações.

Gerente de Recursos Humanos

Tem por responsabilidade:

  • Comunicar aos stakeholders internos (funcionários, colaboradores, etc.) sobre problemas relacionados à ausência ou indisponibilidade de recursos humanos, como em casos de desastres naturais ou pandemias.

  • Acionar planos de contingência para garantir o bem-estar e a segurança dos funcionários, bem como a continuidade das atividades essenciais, como trabalho remoto ou alocação de equipes alternativas.

  • Coordenar a comunicação com os prepostos e gerentes de contratos.

Diretor Comercial

Tem por responsabilidade:

  • Comunicar aos clientes sobre problemas de infraestrutura ou de recursos humanos que possam afetar a continuidade dos contratos ou a prestação de serviços.

  • Negociar soluções alternativas com os clientes, como prazos de entrega estendidos ou serviços substitutos, buscando minimizar o impacto nos negócios e preservar o relacionamento.

  • Manter os clientes informados sobre o progresso da recuperação e as ações que estão sendo tomadas para restabelecer a normalidade.

Recursos

A infraestrutura de TI da organização foi projetada com redundância e resiliência para garantir a continuidade dos serviços em caso de interrupções. Os seguintes recursos estão disponíveis para o plano de continuidade:

Infraestrutura
  • Servidores: Todos os servidores são equipados com fontes de energia redundantes para evitar interrupções em caso de falha de energia. Os discos rígidos estão configurados em RAID 5 para proteger os dados contra falhas de disco. Todos os servidores são gerenciáveis de maneira centralizada por um cliente Web, facilitando o monitoramento e a gestão remota.

  • Backup: Conforme a Estratégia de Backup, todos os dados dos sistemas críticos são incluídos no ciclo diário de backup. Os principais arquivos são armazenados em uma nuvem externa para garantir a segurança dos dados em caso de destruição das máquinas onde o backup é efetuado.

  • Internet: O acesso à Internet é fornecido por dois links de provedores distintos, garantindo a disponibilidade da conexão em caso de falha de um dos provedores. Todos os acessos, entradas e saídas são monitorados e filtrados por um firewall para proteger a rede contra ameaças externas.

  • Energia: Todos os equipamentos, servidores, pontos de acesso sem fio, switches e dispositivos de acesso à Internet e VPN estão conectados a um sistema de alimentação ininterrupta (no-break). Esse sistema de alimentação está ligado a um ponto de entrada de eletricidade separado do resto dos pontos, garantindo o fornecimento de energia mesmo em caso de falha na rede elétrica principal.

Equipe

Uma equipe dedicada é responsável pelas manutenções, pelo monitoramento e pela validação dos ambientes. Essa equipe está disponível para responder a incidentes e garantir a continuidade dos serviços.

Riscos identificados e Plano de contingência

Riscos potenciais

Os riscos organizacionais identificados e as medidas para tentar prevení-los são, por área:

Tecnologia e infraestrutura
Tabela 1. Riscos de tecnologia e infraestrutura
Id Risco Processos impactados Medidas de prevenção

T1

Ataques externos como _DOS_[1] e _Ransomware_[2]

  • RH - Recrutamento e seleção

  • Comercial (Prospecção e Renovação de contratos)

  • Gestão de contratos

Monitoramento da rede e Backup

T2

Perda ou corrupção de dados

Backups

T3

Queda de Eletricidade

Sistema de alimentação ininterrupta (no-break)

T4

GMail

E-mail alternativo auto-hospedado (Mailcow)

T5

Interrupção do SGO

  • RH - Recrutamento e seleção

Monitoramento do SGO e serviços relacionados

T6

Interrupção do ECM (Alfresco)

  • Comercial, sem possibilidade de mandar documentação para assinatura e renovação de contratos

Monitoramento do ECM e serviços relacionados

RH

.Riscos de RH

Id Risco Processos impactados Medidas de prevenção

RH1

Ausência por conta de catástrofe natural, epidemia (falta em massa)

  • RH - Recrutamento e seleção

  • Gestão de contratos

  • Comercial (Renovação de contratos)

  • Gestão de Configuração e Infraestrutura

N/A

RH2

Ausência de pessoal qualificado para recrutamento.

  • cGestão de contratos

Banco de currículos no SGO

Planos de Contingência

Recuperação de dados

Em caso da ocorrência dos seguintes riscos: T1, T2 (ver Riscos de tecnologia e infraestrutura) será efetuada a restauração de backups conforme a Estratégia de Backup.

Uso de alternativas

Em caso de ocorrência dos riscos T3, T4, T5, T6 podem ser utilizadas ferramentas nos computadores locais ou em serviços em nuvem, por exemplo Word, Excel ou Google Docs, Google Sheets.Após o reestabelecimento a equipe encarregada dos sistemas apoiará na inserção nos serviços dos dados registrados fora deles.

Alguns documentos de uso comum como registros da empresa, diretores e sócios podem ser armazenadas em um serviço externo como o Google Drive.

Plano de comunicação

Neste plano, definiremos as diretrizes e os procedimentos para a comunicação durante a ativação do plano de continuidade, garantindo que todas as partes interessadas sejam informadas sobre a situação, as ações tomadas e o progresso da recuperação.

Os canais de comunicação utilizados serão os definidos no item Regras de Comunicação do processo Orientação das Equipes de Trabalho.

Imediatamente após a interrupção dos serviços os responsáveis citados no item Papeis devem ser informados das possíveis causas e as ações iniciais que serão tomadas.

Após a identificação da causa, ou depois de uma hora após o ocorrido (o que acontecer primeiro) os Stakeholders internos devem ser atualizados sobre o progresso da recuperação e o tempo estimado de retorno à normalidade se a causa foi encontrada.Neste momento os Stakeholders podem ser comunicados do acontecimento.Se depois de uma hora a causa não foi encontrada, esse processo será repetido até encontrar ela, os Stakeholders internos receberão notícias de hora em hora.

É desaconselhado entrar diretamente em contato com o Líder de Continuidade para saber do progresso para não atrasar a recuperação.

Após a restauração dos sistemas os Stakeholders internos devem ser avisados, os mesmos após validar que os serviços voltaram ao normal devem notificar os Stakeholders externos.

Todas as comunicações visando a informar os Stakeholders internos terão por origem o Líder de Continuidade.

Treinamento e Conscientização

Durante os treinamentos organizacionais previstos no Plano tático do Plano estratégico e tático de treinamento o plano de continuidade é explicado a todos os participantes, para todos saberem quais responsabilidades eles têm, por exemplo sobre o uso do e-mail de contrato no GMail para os prepostos e gerentes de contratos.

De tempo em tempo, conforme definido no Estratégia de Backup Testes de backups no plano de backup[] o procedimento de restauração dos backups deve ser testado.

Monitoramento e Melhoria Contínua

Depois de cada incidente uma ocorrência de análise post-mortem é registrada no SGO explicando a causa do problema e o que foi feito para encontrar ela e restaurar o serviço.

Usamos ferramentas de monitoramento de redes e servidores com alertas para tentar detectar os problemas antes que eles acontecem. Essas ferramentas são usadas também para verificar o comportamento de um servidor ou da rede antes do problema acontecer para poder criar novas regras e evitar que o mesmo incidente aconteça de novo. As ferramentas de monitoramento enviam as alertas em tempo real na ferramenta de comunicação interna.

Diariamente o SGO cria uma tarefa para o núcleo de Configuração e Infraestrutura para validar no início do dia que os sistemas críticos e os de monitoramento estão rodando corretamente.

Histórico de Revisão

Tabela 2. Histórico de Revisões
Data Versão Autor Revisor Observação

14/02/2025

1.0

Cédric Lamalle

Leonardo Lopes

Versão inicial

Política de Identificação, Resolução e Prevenção de Problemas

Rev. 1.0 - 28/04/2025

Propósito

  • Descrever o processo para identificar, analisar, resolver e prevenir problemas que possam impactar a qualidade dos produtos, serviços e processos da Basis.

  • Garantir uma abordagem sistemática e eficaz para minimizar a ocorrência e o impacto de problemas.

  • Promover a melhoria contínua através da análise das causas raízes e da implementação de ações preventivas.

Escopo

  • Esta política se aplica a todos os participantes de processos de serviço da Basis.

  • Abrange todos os problemas identificados, independentemente de sua origem ou impacto inicial.

Identificação de Problemas

  • Fontes de Identificação:

    • Relatos de incidentes, oriundos do processo de continuidade.

    • Resultados de testes e inspeções.

    • Feedback de clientes e usuários.

    • Monitoramento de sistemas e processos, auditorias internas e externas.

    • Análise de tendências e dados históricos.

    • Identificação proativa de potenciais problemas (linkar com análise de riscos).

Registro de Problemas:

  • Todos os problemas identificados devem ser formalmente registrados no SGO.

  • O registro deve conter informações detalhadas sobre o problema, incluindo data, hora, origem, impacto potencial e quem o reportou.

    • Priorização Inicial: uma avaliação inicial da severidade e urgência do problema deve ser realizada para direcionar os esforços de análise e resolução.

Análise e Diagnóstico

Formação de Equipes
  • Envolver as áreas relacionadas na abertura do problema no SGO. Ver Papéis da política de continuidade.

  • O líder de continuidade será o responsável pela centralização e coordenação das atividades, ver Líder de continuidade.

Coleta de Dados
  • Dados relevantes devem ser coletados para entender a causa raiz do problema. Isso pode incluir logs de sistemas, histórico de eventos, entrevistas com as partes envolvidas e deverão ser juntadas na ocorrência SGO de Problema.

  • Técnicas de Análise: Utilizar o processo de análise de causas.

Documentação do Diagnóstico

Os resultados da análise e o diagnóstico da causa raiz devem ser documentados concisamente e registradas no SGO.

Resolução

  • Desenvolvimento de Soluções:

    • Com base na análise da causa raiz, soluções eficazes devem ser desenvolvidas e avaliadas.

    • Considerar soluções de curto prazo (workarounds) e de longo prazo (correções permanentes).

  • Implementação da Solução:

    • A implementação da solução deve ser planejada, testada (quando aplicável) e comunicada às partes interessadas.

    • As mudanças devem ser gerenciadas de acordo com o processo de gestão de mudanças da organização.

  • Verificação da Solução: após a implementação, a eficácia da solução deve ser verificada para garantir que o problema foi resolvido e não recorreu.

  • Documentação da Resolução: as ações de resolução implementadas e os resultados da verificação devem ser documentados.

Prevenção

  • Identificação de Ações Preventivas:

    • Com base na análise das causas raízes dos problemas, identificar ações preventivas para evitar sua recorrência ou a ocorrência de problemas semelhantes. A anaĺise de causas deverá seguir o definido na Estratégia de alta maduridade

    • As ações preventivas podem envolver mudanças em processos, atualizações de sistemas, treinamento, melhorias na documentação, etc. Exemplos das melhorias de processo e de novas validações no SGO.

  • Implementação e Monitoramento de Ações Preventivas:

    • As ações preventivas devem ser planejadas, implementadas e monitoradas para garantir sua eficácia.

    • Responsabilidades e prazos para a implementação das ações preventivas devem ser definidos.

Monitoramento e Melhoria Contínua

  • Monitoramento de Problemas Recorrentes: Monitorar o sistema de gestão de problemas para identificar tendências, problemas recorrentes e a eficácia das ações preventivas.

  • Análise Periódica Realizar análises periódicas dos dados de problemas para identificar áreas de melhoria no processo de IRP e nos processos da organização.

  • Lições Aprendidas Documentar as lições aprendidas durante a resolução e prevenção de problemas para disseminar o conhecimento e melhorar as práticas futuras.

  • Melhoria do Processo de IRP Revisar e atualizar periodicamente esta política e o processo de IRP com base nas lições aprendidas e nas necessidades da organização.

Comunicação e Integração

  • Os canais de comunicação serão os mesmos definidos no plano de comunicação da política de continuidade

  • Partes Interessadas Identificar as partes interessadas relevantes (internas e externas) e definir como elas serão comunicadas e envolvidas no processo de IRP.

  • Integração com Outros Processos Garantir a integração do processo de IRP com outros processos relevantes da organização, como gestão de incidentes (continuidade), gestão de mudanças, gestão de riscos e melhoria de processos.

Histórico de Revisão

Tabela 3. Histórico de Revisões
Data Versão Autor Revisor Observação

28/04/2025

1.0

Cédric Lamalle

Leonardo Lopes

Versão inicial


1. Denial of Service Um ataque de Negação de Serviço é um ataque cibernético que visa tornar um serviço ou recurso indisponível para seus usuários legítimos sobrecarregando o serviço alvo com um grande volume de tráfego ou solicitações
2. Ataque que consiste em criptografar os dados em um servidor e solicitar um valor de resgate para recuperar os dados originais