Como funciona a clonagem de voz com IA: o golpe que imita sua família no WhatsApp

Uma ligação chega. A voz é familiar: pode ser de um filho, um pai, um amigo próximo. A pessoa diz estar em apuros, precisa de dinheiro urgente, pede que ninguém seja avisado por enquanto. Parece real porque soa real. Mas não é. É uma voz sintética, gerada por inteligência artificial a partir de amostras de áudio coletadas de redes sociais, stories, vídeos públicos ou mensagens de voz vazadas.

Esse golpe, chamado de clonagem de voz com IA, está em expansão no Brasil e no mundo. Ferramentas de síntese de voz, que antes exigiam horas de gravação e conhecimento técnico avançado, hoje conseguem replicar uma voz com menos de 30 segundos de áudio. O resultado é convincente o suficiente para enganar até pessoas alertas.

Como os criminosos obtêm a voz da vítima

O primeiro passo do golpe é a coleta de amostras de voz. As fontes mais comuns são:

Reels, stories e vídeos no Instagram, TikTok e YouTube: qualquer vídeo público com a pessoa falando serve como matéria-prima. Quanto mais longo e variado o conteúdo, melhor a qualidade do clone.
Mensagens de voz no WhatsApp: se a conta de um contato for comprometida, todos os áudios da conversa ficam acessíveis ao invasor.
Ligações gravadas: em alguns esquemas mais elaborados, os criminosos fazem ligações falsas prévias apenas para capturar a voz da futura vítima ou do familiar que será imitado.
Vazamentos de dados: áudios de entrevistas, podcasts ou eventos públicos são indexados e reutilizados.

Com a amostra coletada, o criminoso usa um software de clonagem de voz, alguns disponíveis gratuitamente online, para gerar novos áudios com qualquer texto. A voz sintética pode ser usada em uma ligação ao vivo, via redirecionamento de chamada, ou enviada como mensagem de áudio no WhatsApp.

Como o golpe é aplicado na prática

O roteiro mais comum no Brasil segue um padrão bem definido. Um familiar recebe uma ligação ou mensagem de áudio com a voz de alguém próximo dizendo que está em uma situação de emergência: um acidente, uma detenção, uma internação hospitalar. O pedido é sempre de transferência imediata via Pix, com justificativa para não confirmar por outros meios.

A pressão emocional criada pela voz familiar reduz drasticamente a capacidade crítica de quem recebe a mensagem. A urgência impede que a pessoa pare para verificar. O medo de que algo real esteja acontecendo com alguém querido é o combustível do golpe.

Em versões mais sofisticadas, o clone de voz é combinado com um deepfake de vídeo, enviado por chamada de WhatsApp ou por link. A imagem e a voz da pessoa conhecida aparecem juntas, tornando a fraude ainda mais difícil de identificar em tempo real.

A escala do problema

Segundo relatório da empresa de segurança digital McAfee divulgado em 2025, 1 em cada 4 pessoas no mundo já foi alvo de golpe de clonagem de voz ou conhece alguém que foi. No Brasil, pesquisas da Kaspersky apontam que golpes com uso de inteligência artificial cresceram mais de 200% entre 2023 e 2025, com projeção de avanço contínuo em 2026 à medida que as ferramentas se tornam mais acessíveis e baratas.

O custo de criação de um clone de voz funcional caiu de centenas de dólares para praticamente zero em menos de três anos. Isso significa que o golpe, antes restrito a grupos criminosos sofisticados, agora está ao alcance de qualquer pessoa com motivação e acesso à internet.

Por que é tão difícil perceber

O ouvido humano não foi treinado para identificar voz sintética. Diferente de um texto gerado por IA, que às vezes apresenta padrões artificiais de escrita, a voz clonada carrega marcadores emocionais, pausas, ritmo e entonação que o cérebro associa a uma pessoa real. Quando essa voz pertence a alguém com quem há vínculo afetivo, o filtro crítico é ainda mais facilmente desativado.

Além disso, ligações telefônicas e mensagens de áudio têm qualidade de som limitada. Pequenas imperfeições na clonagem passam despercebidas no contexto de uma ligação comum, especialmente se o interlocutor estiver emocionalmente abalado pela suposta emergência.

Como se proteger

A defesa contra esse tipo de golpe exige tanto medidas preventivas quanto protocolos de verificação em tempo real:

Crie uma palavra-código com familiares próximos: uma senha conhecida apenas pelo grupo que, se não for dita durante a ligação, indica que algo está errado. Essa é a medida mais eficaz disponível hoje.
Nunca transfira dinheiro com base em ligação ou áudio isolado: sempre ligue de volta para o número que você já tem salvo na agenda, por canal diferente do que foi usado no contato inicial.
Desconfie de urgência extrema combinada com pedido para não contar a ninguém: essa combinação é marca registrada de golpes de engenharia social, independente do canal.
Reduza a exposição pública de voz: configurar perfis de redes sociais como privados e limitar quem pode ver stories com áudio reduz a disponibilidade de amostras para clonagem.
Em caso de dúvida, interrompa a ligação: não há emergência legítima que não possa esperar os dois minutos necessários para confirmar a identidade por outro meio.

O papel das plataformas de mensagens

O WhatsApp é o vetor principal de distribuição desse golpe no Brasil porque oferece um canal direto para enviar áudios convincentes a qualquer número de telefone. Como já detalhamos em nosso post sobre engenharia social e manipulação via apps de mensagens, a ausência de verificação de identidade nessas plataformas é o principal vetor de exploração.

Um golpista precisa apenas de um número de telefone para iniciar contato e enviar um áudio clonado. Não há barreira. Não há verificação. Não há aviso de que aquela conta nunca interagiu com você antes.

PhizChat: comunicação com identidade verificada

O PhizChat foi desenvolvido com um princípio central que muda a equação desse golpe: cada conta é vinculada a uma identidade verificada. Isso significa que antes de qualquer mensagem ou áudio chegar até você, é possível confirmar quem está do outro lado.

No cenário do clone de voz, isso representa uma camada de proteção estrutural. Um criminoso com uma voz sintética convincente ainda precisaria passar pela verificação de identidade da plataforma para enviar qualquer mensagem. O canal usado no golpe, de número desconhecido fingindo ser um familiar, simplesmente não existe no modelo do PhizChat.

Além disso, como os dados do PhizChat ficam armazenados em servidores no Brasil sob a LGPD, o risco de vazamento de metadados de comunicação para uso em golpes futuros é estruturalmente menor do que em plataformas americanas sujeitas ao CLOUD Act.

Em um cenário onde a voz de quem você ama pode ser fabricada com menos de meio minuto de áudio, saber com certeza quem está do outro lado de uma conversa deixou de ser um detalhe e se tornou a diferença entre segurança e prejuízo.

Como funciona a clonagem de voz com IA: o golpe que imita sua família no WhatsApp

Como os criminosos obtêm a voz da vítima

Como o golpe é aplicado na prática

A escala do problema

Por que é tão difícil perceber

Como se proteger

O papel das plataformas de mensagens

PhizChat: comunicação com identidade verificada

Compartilhe isso:

Curtir isso:

Baixe o PhizChat. É gratuito.

Descubra mais sobre PhizChat