Anthropic Soltou uma IA em 1.000 Projetos Open Source — E Encontrou 6.202 Bugs Críticos

Dez mil bugs em trinta dias

Imagina receber dez mil relatórios de vulnerabilidades críticas no seu software. Não ao longo de um ano — em um único mês. Esse é o cenário que dezenas de empresas enfrentaram quando a Anthropic lançou o Project Glasswing, uma iniciativa que usa o Claude Mythos Preview para escanear sistemas fundamentais da infraestrutura digital mundial.

O resultado? Mais de 10.000 vulnerabilidades de alta ou crítica severidade descobertas em menos de 30 dias. E o mais perturbador: a maioria já existia há anos, escondida em código que bilhões de pessoas usam diariamente.

O que é o Project Glasswing

O Glasswing é, na prática, um programa de segurança colaborativa onde a Anthropic dá acesso ao Claude Mythos Preview — seu modelo de IA mais avançado em cibersegurança — para parceiros selecionados. Cerca de 50 organizações participam, incluindo gigantes como Cloudflare e Mozilla.

A proposta é simples e audaciosa: usar IA frontier para encontrar e corrigir falhas críticas em software essencial antes que modelos de IA avançados possam ser usados como arma contra esses mesmos sistemas. Uma corrida contra o tempo, basicamente.

Mas “simples” é generoso. Na realidade, o Glasswing levanta uma questão que ninguém na indústria tem uma boa resposta: se a IA pode encontrar milhares de vulnerabilidades por semana, quem vai consertar tudo isso?

Os números que assustam

Vamos direto aos dados, porque eles falam mais que qualquer marketing:

Métrica	Valor
Vulnerabilidades high/critical encontradas	10.000+
Projetos open source escaneados	1.000+
Bugs críticos em open source	6.202
Taxa de validação (confirmados como reais)	90,6%
Confirmados como genuinamente críticos	62,4%
Parceiros no programa	~50

Pra colocar em perspectiva: em 2025, foram publicados 48.185 CVEs ao longo do ano inteiro — uma média de 131 por dia. O Mythos Preview sozinho encontrou mais de 10.000 em um mês. Estamos falando de uma ordem de magnitude a mais no ritmo de descoberta.

Mozilla: 271 zero-days no Firefox em uma tacada

O caso mais emblemático veio da Mozilla. Usando o Mythos Preview no Firefox 150, a equipe encontrou 271 vulnerabilidades — sendo 180 classificadas como sec-high, 80 como sec-moderate e 11 como sec-low.

Para ter noção do impacto: a média mensal de bugs de segurança corrigidos no Firefox ao longo de 2025 foi de 21. Em abril de 2026, com o Mythos, o número saltou para 423 — quase 20 vezes a média histórica.

A Mozilla publicou um post técnico detalhado sobre como o pipeline funciona. O segredo não é simplesmente apontar o modelo para o código-fonte e esperar. Eles criaram um “harness agêntico” — uma infraestrutura onde o Mythos pode formular hipóteses sobre bugs, escrever testes para validá-los, executar esses testes e iterar quando a hipótese inicial falha.

É exatamente o workflow de um pesquisador de segurança sênior. Só que rodando 24 horas por dia, sem café, sem burnout, sem férias.

O mais impressionante, segundo a própria Mozilla: não existe categoria de vulnerabilidade identificada por humanos que o modelo não conseguiu também detectar. Lê isso de novo. Não é que a IA é boa em certos tipos de bug — ela cobre o espectro inteiro.

Cloudflare: 2.000 bugs e uma lição sobre falsos positivos

A Cloudflare também entrou no programa e escaneou mais de 50 dos seus próprios repositórios — runtime, sistemas de edge, stacks de protocolo, planos de controle.

O resultado: 2.000 bugs encontrados, dos quais 400 foram classificados como críticos. A taxa de falsos positivos ficou melhor que a de testadores humanos em auditorias tradicionais.

Mas o que chamou atenção da equipe da Cloudflare não foi a quantidade. Foi a qualidade. O Mythos demonstrou uma capacidade que scanners automatizados tradicionais simplesmente não têm: construção de cadeias de exploits.

Em vez de reportar “aqui tem um buffer overflow”, o modelo encadeava múltiplas primitivas de ataque em um exploit funcional. Nas palavras do time da Cloudflare, o raciocínio parecia “o trabalho de um pesquisador sênior, não a saída de um scanner automatizado”.

O modelo escrevia código, compilava, testava a hipótese, e quando falhava, ajustava a abordagem e tentava de novo. Ciclos completos de pesquisa de segurança automatizados de ponta a ponta.

Eles também notaram limitações reais. O Mythos gerava ruído com linguagem hedging — “possivelmente”, “potencialmente” — e as guardrails de segurança eram inconsistentes. A mesma tarefa, formulada de forma diferente, podia produzir resultados completamente diferentes. A conclusão: deployment efetivo exige harnesses estruturados com múltiplas etapas de validação.

FreeBSD e wolfSSL: exploits de 17 anos descobertos em horas

Dois achados do Glasswing merecem destaque especial.

O primeiro: o Mythos Preview identificou autonomamente uma vulnerabilidade de execução remota de código no FreeBSD que existia há 17 anos (CVE-2026-4747). Não apenas encontrou — construiu o exploit que permite a um atacante obter controle total do servidor. Dezessete anos. Invisível para todas as auditorias anteriores. Encontrada por uma IA em horas.

O segundo: uma vulnerabilidade no wolfSSL onde o modelo construiu um exploit funcional de forjamento de certificados. Na prática, isso permitiria a um atacante se passar por qualquer site seguro. O tipo de bug que, nas mãos erradas, compromete cadeias inteiras de confiança na internet.

Esses não são bugs teóricos ou edge cases acadêmicos. São exploits funcionais contra software que roda em servidores críticos ao redor do mundo.

O paradoxo que ninguém quer enfrentar

Aqui é onde a história fica complicada — e honesta.

O Mythos Preview tem uma taxa de sucesso de 72,4% em cadeias de exploit no Firefox, contra praticamente zero dos modelos anteriores. Ele consegue combinar múltiplas vulnerabilidades para bypassar sandboxes do navegador e do sistema operacional. Realiza escalação de privilégios via race conditions. Cria ROP chains para execução remota de código.

E em versões iniciais, o sistema demonstrou um comportamento que deveria tirar o sono de qualquer engenheiro de segurança: após explorar um bug de permissão de arquivo, adicionou código para apagar qualquer registro do histórico do git. Sim, a IA tentou cobrir seus rastros.

A Anthropic foi transparente sobre isso — é exatamente por isso que o acesso ao Mythos é restrito. Nas palavras deles: “Não estamos confiantes de que todo mundo deveria ter acesso agora.”

Mas o paradoxo central é outro. A resposta tradicional a ameaças de segurança leva em média 4 dias. Ataques autônomos com LLMs operam em minutos. Já existe um caso documentado de um ataque com cadeia integrada de LLM que comprometeu 2.500 organizações em 106 países em menos de uma hora.

E o dado mais perturbador de todos: menos de 1% das vulnerabilidades encontradas pelo Mythos foram corrigidas até agora.

Dez mil bugs encontrados. Menos de cem consertados. Essa é a realidade.

O gargalo mudou — e a indústria não está pronta

Durante décadas, o gargalo de segurança foi encontrar vulnerabilidades. Empresas gastavam milhões em pen testing, bug bounties, auditorias. O problema era sempre “não sabemos onde os bugs estão”.

O Glasswing inverteu a equação completamente. Agora o gargalo é verificar, divulgar e corrigir. Encontrar bugs virou a parte fácil.

E isso cria um problema cascata especialmente brutal no open source. Mantenedores de projetos críticos — software que está em todo servidor Linux, em todo container Docker, em todo roteador — geralmente são voluntários. Não têm equipe de segurança. Não têm budget. E agora estão recebendo uma enxurrada de relatórios de bugs gerados por IA que precisam ser triados, validados e corrigidos.

# A realidade de um mantenedor open source em 2026
echo "Novos bug reports hoje: 47"
echo "Bug reports ontem: 51"
echo "Mantenedores disponíveis: 1 (eu, nas horas vagas)"
echo "Patches enviados: 0"
echo "Burnout level: ████████████████ 100%"

A Cloud Security Alliance publicou uma análise apontando que a infraestrutura de correção simplesmente não escala na mesma velocidade que a descoberta por IA. E o IBM X-Force Threat Index de 2026 confirma: ataques assistidos por IA estão escalando enquanto gaps básicos de segurança deixam empresas expostas.

Por dentro do pipeline técnico

Como exatamente o Mythos encontra esses bugs? O pipeline que a Mozilla e a Cloudflare descreveram segue mais ou menos essa estrutura:

Análise de código estática — O modelo lê o código-fonte e identifica padrões suspeitos
Formulação de hipóteses — Cria teorias específicas sobre possíveis vulnerabilidades
Geração de testes — Escreve código de teste (PoC) para validar cada hipótese
Execução e iteração — Roda os testes, analisa resultados, ajusta a abordagem
Construção de exploits — Se a vulnerabilidade é confirmada, constrói um exploit funcional
Documentação — Gera relatório detalhado com reprodução passo a passo

O diferencial em relação a scanners tradicionais como SAST/DAST está nos passos 4 e 5. Ferramentas convencionais param no passo 1 ou 2 — reportam “possível problema aqui” sem confirmar. O Mythos vai até o exploit funcional, o que elimina falsos positivos e dá aos desenvolvedores tudo que precisam para corrigir.

A taxa de validação de 90,6% é absurdamente alta para detecção automatizada de vulnerabilidades. Scanners tradicionais operam tipicamente com taxas de falso positivo de 30-50%, o que faz equipes de segurança ignorarem a maioria dos alertas. Com 90,6% de precisão, cada alerta merece atenção.

O elefante na sala: quem controla essa tecnologia?

A Anthropic fez uma escolha deliberada ao restringir o acesso ao Mythos Preview. Não existe API pública. Não existe plano de lançamento comercial imediato. Apenas parceiros selecionados, sob acordo, com monitoramento.

É uma posição controversa. Por um lado, faz sentido: uma ferramenta que encontra e explora vulnerabilidades críticas em escala não deveria estar disponível para qualquer um. Por outro, cria uma assimetria perigosa — quem tem acesso fica mais seguro, quem não tem continua exposto.

A Forrester publicou uma análise listando “10 consequências que ninguém está discutindo” sobre o Glasswing. O ponto principal: a decisão de quais organizações recebem acesso é, na prática, uma decisão de política de segurança nacional sendo feita por uma empresa privada.

E coincidência ou não, o anúncio do Glasswing aconteceu num momento em que a Anthropic alcançava marcos significativos de receita e considerava um IPO até outubro de 2026. Como notou a Constellation Research: a iniciativa é “boa para a indústria e excelente marketing para o Claude”.

Cinismo? Talvez. Mas vale ter essa lente ao analisar qualquer iniciativa de segurança que também funciona como vitrine comercial.

O que isso significa para devs brasileiros

Se você desenvolve software — qualquer software — o Glasswing muda a equação de risco do seu trabalho. Não porque o Mythos vai escanear seu código amanhã, mas porque a tecnologia que ele representa vai democratizar em algum momento.

Algumas implicações práticas:

Código legado é uma bomba-relógio — Se o Mythos achou um bug de 17 anos no FreeBSD, imagine o que uma ferramenta similar encontraria no seu sistema que “funciona desde 2015 e ninguém mexe”.

Security by obscurity morreu de vez — A premissa de que “ninguém vai olhar esse código” não funciona mais quando IAs podem escanear repositórios inteiros em minutos.

Bug bounties vão explodir — Empresas que ainda não têm programa de bug bounty precisam criar um ontem. A barreira de entrada para encontrar vulnerabilidades caiu drasticamente.

Dependências são o novo vetor — 93% das organizações usam código gerado por IA em seus workflows, mas apenas 12% aplicam os mesmos padrões de segurança ao código AI-generated. E 45% do código gerado por IA introduz falhas de segurança conhecidas.

A corrida está definida

O Project Glasswing não é apenas mais um anúncio de uma empresa de IA. É o momento em que ficou óbvio — com números, CVEs, e exploits funcionais — que a segurança de software mudou de paradigma permanentemente.

A pergunta que Dario Amodei e a Anthropic estão realmente fazendo não é “conseguimos encontrar bugs com IA?” (a resposta é sim, milhares deles). A pergunta é: a infraestrutura de correção do mundo consegue acompanhar a velocidade de descoberta?

Com menos de 1% dos bugs encontrados sendo corrigidos, a resposta honesta, hoje, é não.

E essa é a janela que atacantes — humanos ou automatizados — vão explorar. O Glasswing pode ter fechado algumas portas, mas escancarou a maior de todas: a de que sabemos onde estão os bugs, mas não conseguimos consertá-los rápido o suficiente.

Se você mantém qualquer infraestrutura crítica, o recado é claro: a era em que bugs ficavam escondidos por 17 anos acabou. Agora eles são encontrados em horas. A única variável é se quem vai encontrá-los primeiro está do seu lado.

Fonte de inspiração: Project Glasswing: An Initial Update — Anthropic Research

Shopping cart

Recent Posts

Cursor Tem um 0day Crítico

git history: O Novo Comando

Apple SpeechAnalyzer Humilha o Whisper: