Falhas, erros, bugs e servidores fora do ar — essa é apenas uma pequena lista dos possíveis pesadelos para administradores de sistemas, especialistas em segurança da informação e outros profissionais de TI. O objetivo é resolver o problema o mais rápido possível. Mas por onde começar? Onde procurar a causa e como corrigi-la?
Neste guia, vamos examinar as principais áreas onde surgem falhas: o sistema de arquivos, o kernel, os dispositivos e os drivers. Como existem muitas causas possíveis, também há diferentes métodos de solução. O processo de troubleshooting pode ser dividido em duas etapas: análise e resolução.
Primeira etapa: Análise
O primeiro passo é identificar o problema e a área do sistema afetada. A mensagem de erro pode vir de um programa, utilitário ou serviço.
Por exemplo, o sistema de controle de acesso e gerenciamento de contas pode exibir algo como:
Não temos permissão para acessar um arquivo criado pelo usuário root, pois ele possui o atributo 700 — ou seja, apenas o root tem permissões rwx, enquanto outros usuários e grupos não têm nenhuma.
Para corrigir o problema, é preciso alterar o atributo do arquivo ou diretório em questão.
O sistema pode não exibir mensagens sobre o que ocorre internamente, já que não interrompe o processo. O sistema operacional funciona como uma “caixa-preta” com milhões de processos — e é nossa tarefa monitorá-los. Para isso, existem os arquivos de log, que ajudam a entender o que está acontecendo.
Vamos observar o journal do sistema e ver como uma mensagem de evento aparece:
Esse comando combina três ações:
- journalctl consulta os logs do sistema;
- grep busca um padrão de texto específico;
- tail exibe o final do log.
O resultado mostra as tentativas de login:
No servidor de teste, não configuramos uma chave pública, e é possível ver o motivo de falhas de acesso: diversas máquinas com IPs diferentes tentam conectar-se ao servidor. Portanto, configure uma chave pública confiável.
Também podemos verificar o status de um serviço específico:
Com base nisso, é possível inspecionar o log detalhado do serviço:
No log, há uma linha com o campo Subject indicando “Unit failed” — e um erro FATAL logo abaixo. Nesse caso, o problema está em arquivos de configuração, o que impede a inicialização do serviço.
Segunda etapa: Resolução
Para verificar o status dos serviços, use:
Vamos corrigir o problema com o serviço PostgreSQL. Abra o arquivo de configuração, encontre a linha com erro:
Remova-a com Ctrl + K, salve e reinicie o serviço:
Em seguida, verifique novamente o status:
Em outros casos, pode ser necessário buscar a mensagem de erro na web ou usar serviços de IA generativa, como o GPT, para entender o problema.
Se o motivo ainda não for claro, mas o dispositivo estiver lento, instale o atop, um monitor de desempenho:
Depois, execute:
Na última coluna, o campo CPU mostra a porcentagem de uso por processo. Se algum estiver sobrecarregando o sistema, finalize-o:
ou encerre completamente:
Se o terminal não retornar erros, o comando foi executado com sucesso.
Conclusão
Diagnosticar e corrigir erros no sistema é parte essencial da administração de sistemas. Este guia abordou diferentes métodos e ferramentas para identificar e resolver problemas com eficiência no Debian.