O que é Failover? Infraestruturas de missão crítica

Escrito por Redação EVEO | May 27, 2025 3:00:00 AM

Imagine seu sistema principal caindo numa sexta à noite. Failover é literalmente a tecnologia que te salva dessa situação. O termo pode soar complicado, mas o conceito é simples: quando algo quebra, outro assume automaticamente.

Failover é a transferência automática para um sistema redundante quando o principal falha. É tolerância a falhas em ação — seu sistema de computação passa operações para um backup ativo sem interrupção de serviços.

Muitos confundem failover e switchover. Failover acontece automaticamente quando há falhas. Switchover é manual — você programa a troca durante manutenções.

Agora você já sabe o básico do que pode evitar dores de cabeça (e prejuízos) enormes. Mas como isso funciona na prática?

Como funciona o Failover?

Quando um servidor principal cai, o sistema secundário precisa saber disso rapidamente. Como? Através do sistema heartbeat - um "pulso constante" entre os dois servidores.

Tecnicamente, o servidor primário envia sinais regulares ao secundário. Se esses sinais param de chegar por determinado tempo, o secundário automaticamente assume as operações.

Para que o failover funcione, toda a infraestrutura precisa ser redundante. A redundância mantém componentes de hardware essenciais em standby. Placa de rede falhou? Tem outra esperando. Disco queimou? Existe um backup pronto. É esse processo que sustenta toda a operação de failover.

O segredo está na velocidade. O sistema detecta problemas em milissegundos e faz a troca automaticamente. O usuário final nem percebe que algo aconteceu.

Os tipos de Failover

Vamos começar pela diferença fundamental: como os servidores trabalham juntos.

No failover ativo-ativo significa que dois servidores trabalham simultaneamente. Ambos processam dados ao mesmo tempo, dividindo a carga entre eles. Quando um falha, o outro simplesmente absorve todo o trabalho - não há interrupção porque ele já estava operando.

Já o failover ativo-passivo funciona de forma diferente. Um servidor faz todo o trabalho enquanto o outro apenas observa. O servidor backup monitora constantemente o principal, esperando por sinais de problema. Quando detecta uma falha, ele precisa assumir o controle.

A velocidade dessa transição depende do tipo de backup configurado.

Hot standby: o servidor backup fica ligado e recebe uma cópia de todos os dados em tempo real. Quando o principal falha, o backup já tem tudo atualizado e pode assumir em segundos.
Warm standby: o servidor backup fica ligado, mas recebe atualizações de dados apenas periodicamente. Quando o principal falha, o backup precisa primeiro processar as últimas transações antes de assumir. Isso leva alguns minutos.
Cold standby: o servidor backup fica desligado para economizar energia. Quando o principal falha, o backup precisa primeiro inicializar, carregar o sistema operacional, restaurar o último backup dos dados e só então começar a operar. Pode levar meia hora ou mais.

Bancos normalmente usam hot standby porque não podem parar nem por um minuto. Lojas online podem usar warm standby para balancear custo e velocidade. Para sites institucionais, às vezes o cold standby é suficiente.

Camadas de Failover

Você também pode classificar failover por onde ele acontece:

Hardware failover acontece quando componentes físicos falham - processadores, memória, discos. O sistema muda para hardware redundante.
Software failover acontece quando aplicações ou sistemas operacionais falham. As aplicações são movidas para outros servidores.
Network failover acontece quando conexões de rede falham. O tráfego é redirecionado por rotas alternativas.

Failover vs Switchover: a diferença que Importa

Muita gente confunde esses dois conceitos, mas a diferença é crucial para entender quando usar cada um.

Failover: automático e reativo

Failover é uma resposta automática a falhas. Quando algo quebra, o sistema detecta sozinho e muda para o backup. Não precisa de intervenção humana. É como um reflexo - acontece sem você pensar.

O sistema monitora constantemente a saúde dos componentes. No momento que detecta algo errado (servidor travou, rede caiu, aplicação parou de responder), automaticamente ativa o backup. Tudo isso em segundos ou milissegundos.

Switchover: manual e planejado

Switchover é diferente. É uma operação manual que você inicia quando quer fazer manutenção programada. Por exemplo, você precisa aplicar patches no servidor principal, atualizar o sistema operacional ou fazer backup completo.

Com switchover, você escolhe o momento ideal para fazer a troca. Normalmente acontece durante janelas de manutenção - madrugada de domingo, por exemplo. Você tem controle total sobre quando e como acontece.

Quando usar cada um

Use failover quando:

O sistema quebrou sem aviso
Você precisa de recuperação automática 24/7
Não pode ficar monitorando sistemas o tempo todo
A indisponibilidade custa muito caro

Use switchover quando:

Precisa fazer manutenção no sistema principal
Quer testar se o backup está funcionando
Tem uma janela programada para mudanças
Pode planejar a interrupção

A regra é simples: failover para emergências, switchover para manutenção planejada.

Implementando sem Dor de Cabeça

Implementar failover não precisa ser um pesadelo. Com planejamento adequado, você constrói tolerância a falhas sem quebrar o orçamento ou perder noites de sono.

1. Mapeie seus pontos críticos

Identifique onde falhas podem resultar em grandes prejuízos. Bancos de dados? Servidores web? Conexões de rede? Liste tudo que não pode parar.

2. Defina RTO e RPO

RTO (Recovery Time Objective) é quanto tempo você aguenta ficar offline. RPO (Recovery Point Objective) é quanto de dados você pode perder. Essas métricas definem o tipo de solução que precisa.

3. Escolha sua arquitetura

Baseado nos passos anteriores, decida entre ativo-ativo, ativo-passivo, hot standby, etc. Não existe bala de prata - cada cenário tem sua solução ideal.

4. Configure o ambiente de teste

Monte um ambiente idêntico ao de produção. Teste falhas simuladas regularmente. Failover que não foi testado é failover que não vai funcionar quando precisar.

5. Implemente por fases

Comece pelos sistemas mais críticos. Depois expanda para outros componentes. Implementação gradual reduz riscos e permite ajustes.

Um failover bem implementado garante continuidade operacional. A matemática é simples: cada minuto online é receita garantida. Cada minuto offline é prejuízo direto.

Hora de parar de adiar

Quanto tempo sua empresa aguenta ficar offline? Qual o impacto financeiro de uma parada de 1 hora? E de 1 dia? Seus dados críticos têm backup atualizado? Sua equipe sabe o que fazer em caso de falha?

Se essas perguntas geraram desconforto, é sinal de que precisa investir em failover. Não espere o sistema quebrar para descobrir que não tinha plano B.

Failover não é paranoia, é planejamento inteligente. Empresas que implementam o failover não estão se preparando para o pior - estão se preparando para a realidade. Sistemas falham. A questão não é se, mas quando.

Comece pequeno: identifique seus sistemas mais críticos, documente os riscos, planeje uma solução de failover adequada e teste regularmente.

A EVEO pode te ajudar nesse processo. Nossa infraestrutura é pensada para garantir continuidade, com soluções sob medida para cada tipo de operação. Fale com nossos especialistas e implemente um plano de failover que protege sua empresa da próxima falha — antes que ela aconteça.

Visualizar publicação completa