Mythos Analisou 178 Mil Linhas do curl — Só 1 Bug Era Real

O Criador do curl Analisou o Relatório do Mythos — e Teve uma Surpresa

Daniel Stenberg já viu de tudo. São mais de 26 anos mantendo o curl — aquela ferramenta de linha de comando que vive em praticamente todo dispositivo conectado à internet, de servidores Linux a geladeiras inteligentes. E ao longo dessas quase três décadas, mais de 150 CVEs foram reportadas contra o projeto. Fuzzing, análise estática, revisão manual, bug bounties — o curl já passou por tudo isso.

Então quando a Anthropic liberou o Claude Mythos para analisar projetos open source críticos através do Project Glasswing, o curl estava obviamente na lista. 178 mil linhas de código. Uma das bibliotecas mais auditadas do planeta. O palco perfeito para testar se a IA mais temida do mundo realmente faz jus ao hype.

O resultado? Cinco vulnerabilidades suspeitas. Mas quando Stenberg e sua equipe de segurança foram verificar uma a uma, a história mudou bastante.

Cinco Suspeitas, Uma Confirmação

O Mythos vasculhou os diretórios src/ e lib/ do curl — o coração do projeto. O relatório chegou estruturado, com cinco potenciais falhas de segurança identificadas por um processo que Stenberg descreveu como “análise hand-driven usando sub-agentes LLM para leituras paralelas de arquivos”. Cada achado vinha com contexto, referência ao código-fonte e classificação de risco.

Parece impressionante, certo? Cinco zero-days numa das bases de código mais revisadas do mundo?

Só que não. Após a verificação manual pela equipe do curl — inspeção direta do código-fonte, linha por linha — apenas uma vulnerabilidade era real. E não era nenhum exploit devastador capaz de derrubar a internet. Era uma falha de severidade baixa, programada para ser divulgada junto com o curl 8.21.0 no final de junho de 2026.

Os outros quatro? Falsos positivos. O tipo de coisa que qualquer scanner de segurança moderno também reporta — e que consome horas de trabalho dos mantenedores para triagem e descarte. Pra quem já trabalhou com SAST (Static Application Security Testing), isso soa familiar. A diferença é que desta vez o scanner era a IA mais cara e restrita do planeta.

Stenberg foi direto no seu blog:

“Eu não vejo evidência de que esse setup encontre problemas em um grau particularmente superior ou mais avançado do que outras ferramentas fizeram antes do Mythos.”

Ouch.

O Hype é “Primariamente Marketing”

Pra quem acompanhou o lançamento do Mythos em abril, a frase de Stenberg bate forte. A Anthropic apresentou o modelo como uma revolução na segurança cibernética — uma IA capaz de encontrar e encadear vulnerabilidades zero-day em sistemas operacionais, navegadores e software crítico de forma completamente autônoma.

Os números do anúncio eram impressionantes: milhares de vulnerabilidades descobertas, muitas com décadas de idade. Um bug de 27 anos no OpenBSD. Quase 300 falhas no Firefox (contra aproximadamente 20 encontradas por modelos anteriores da Anthropic). Um exploit que encadeava quatro vulnerabilidades distintas para escapar de sandboxes de navegador — incluindo um JIT heap spray complexo que furava tanto o renderer quanto o sandbox do sistema operacional.

O Dario Amodei, CEO da Anthropic, chegou a falar em uma “janela de 6 a 12 meses” para corrigir dezenas de milhares de falhas antes que IAs chinesas alcançassem capacidades equivalentes. O modelo foi considerado perigoso demais para ser liberado ao público, então a Anthropic criou o Project Glasswing — uma coalizão que inclui AWS, Apple, Microsoft, Google, CrowdStrike e Palo Alto Networks. A ideia era dar aos defensores uma vantagem temporal antes que modelos ofensivos similares se tornassem amplamente disponíveis.

A CNBC noticiou. A AISI do governo britânico fez avaliação. Artigos acadêmicos foram escritos. O hype estava em escala máxima.

E aí o criador do curl — um cara que literalmente mantém uma das dependências mais críticas da internet — olha o relatório e diz que é “primariamente marketing”.

Mas calma — Stenberg não jogou o Mythos no lixo completamente.

A Parte que Ninguém Leu

Tem um detalhe no post de Stenberg que a maioria vai ignorar porque não é tão chamativo quanto “5 bugs, 1 real”. Ele escreveu:

“Analisadores de código alimentados por IA são significativamente melhores em encontrar falhas de segurança do que ferramentas tradicionais.”

E completou com uma recomendação que deveria estar pendurada na parede de todo time de segurança:

“Não usar analisadores de código com IA no seu projeto significa que você está dando tempo e oportunidade para adversários encontrarem falhas que você não encontra.”

Leu de novo? Stenberg está dizendo: mesmo que o Mythos tenha entregado 80% de falso positivo no curl, não usar IA para segurança é pior. A alternativa não é “ferramentas tradicionais são suficientes” — é “seus adversários vão usar IA mesmo que você não use”.

Sim, o Mythos exagerou nas promessas. Sim, 4 de 5 achados eram furada. Mas aquele 1 bug real? Ele existia. Em 178 mil linhas de código que já passaram por décadas de auditoria profissional. Fuzzing do Google. Bug bounties internacionais. Análises de consultorias de segurança de elite. E nenhuma dessas camadas tinha encontrado esse bug específico.

Isso não é irrelevante. É um sinal.

O Elefante na Sala: Modelos Baratos Acham os Mesmos Bugs

A história fica ainda mais interessante quando você traz a AISLE para a conversa. A empresa de segurança tem operado um sistema de análise com IA desde meados de 2025 — bem antes do anúncio do Mythos — e publicou resultados que colocam toda a narrativa em perspectiva:

Projeto	CVEs encontradas pela AISLE
———	—————————-
OpenSSL	15 (12 em uma única release de segurança)
curl	5
30+ projetos	180+ validadas externamente

Bugs com até 25 anos de idade. Falhas classificadas com CVSS 9.8 — o nível mais crítico possível. E o mais devastador para a narrativa da Anthropic: quando a AISLE testou oito modelos diferentes — algo que já cobrimos aqui no CodeInsider — na vulnerabilidade-bandeira do Mythos — aquele RCE de 17 anos no FreeBSD NFS que foi o carro-chefe da apresentação — todos os oito modelos encontraram o bug.

Todos. Sem exceção. Incluindo o GPT-OSS-20b, um modelo de meros 3.6 bilhões de parâmetros que custa US$ 0,11 por milhão de tokens. Pra colocar em perspectiva: isso é aproximadamente 1/1000 do custo do Mythos. Alguns modelos menores até propuseram estratégias de exploit alternativas que o Mythos não tinha considerado.

A AISLE chamou isso de “fronteira irregular” (jagged frontier): nenhum modelo é consistentemente o melhor para segurança. O GPT-OSS-120b manda bem na análise de SACK do OpenBSD mas falha em data-flow tracing básico. O Qwen3 32B avalia perfeitamente a severidade de uma falha no FreeBSD e no parágrafo seguinte declara código similar como “robusto”.

A conclusão da AISLE resume tudo: “O fosso é o sistema, não o modelo.” Não importa se você tem o Mythos ou um modelo open source de 7 bilhões de parâmetros. O que importa é a orquestração — como você direciona a análise, como filtra os resultados, como alimenta contexto para o modelo. E isso qualquer equipe competente pode construir com modelos acessíveis.

O Que o Mythos Fez Bem (e Mal) no curl

Stenberg notou algo revelador no relatório: o Mythos não encontrou problemas nas áreas mais pesadamente auditadas do curl — HTTP/1, TLS, parsing de URLs. Essas são exatamente as partes onde fuzzing e análise estática já fizeram um trabalho exaustivo ao longo de duas décadas. O OSS-Fuzz do Google, por exemplo, roda continuamente contra o curl e já encontrou dezenas de bugs nessas áreas.

O único bug real estava em uma área menos óbvia, fora do caminho usual dos scanners tradicionais. Isso sugere algo importante: a IA brilha não como substituta das ferramentas existentes, mas como complemento — varrendo os cantos escuros do código onde scanners tradicionais não olham com tanta atenção, onde o fuzzing não chega, onde a lógica de negócio encontra edge cases que ninguém mapeou.

Zero vulnerabilidades de memory safety foram encontradas — o que faz total sentido. O curl é escrito em C, e memory safety sempre foi a preocupação número um. Ferramentas como AddressSanitizer, MemorySanitizer e o próprio OSS-Fuzz já varreram esse território à exaustão.

Aspecto	Resultado
———	———–
Linhas analisadas	178.000
Vulnerabilidades suspeitas	5
Vulnerabilidades confirmadas	1
Severidade	Baixa
Memory safety bugs	0
Taxa de falso positivo	80%

80% de falso positivo. Pra um modelo que custou meses de desenvolvimento, roda em infraestrutura de escala massiva e está disponível apenas para um punhado de empresas selecionadas no planeta, é um número que faz pensar. Scanners SAST tradicionais como o Coverity historicamente operam com taxas de falso positivo entre 20% e 50% em projetos maduros — e são gratuitos para open source.

curl: O Alvo Mais Difícil do Mundo

Antes de julgar o Mythos com dureza demais, vale contextualizar por que esses resultados são na verdade mais impressionantes do que parecem.

O curl é possivelmente o projeto open source mais auditado da história da computação. Stenberg mantém uma tabela pública de vulnerabilidades que documenta cada CVE desde o início do projeto. A transparência é brutal — cada falha está lá, com data, severidade, versões afetadas e créditos para quem reportou.

O curl roda em literalmente bilhões de dispositivos. Cada sistema operacional moderno — Linux, macOS, Windows, Android, iOS — inclui curl ou libcurl. Quando a Apple faz um update de segurança, tem curl lá dentro. Quando o Docker puxa uma imagem, curl está fazendo o download. É infraestrutura invisível que sustenta a internet.

O projeto já sobreviveu a:

Mais de 150 CVEs documentadas e corrigidas ao longo de 26 anos
Campanhas contínuas de fuzzing via Google OSS-Fuzz (rodando 24/7)
Bug bounties pela Internet Bug Bounty no HackerOne
Auditorias profissionais do Trail of Bits e outras consultorias de segurança top
Dezenas de scanners estáticos rodando contra cada commit
Revisão de código por uma comunidade global de desenvolvedores

Encontrar qualquer coisa nesse código é uma façanha técnica legítima. E o Mythos encontrou uma. Só que o departamento de marketing da Anthropic pintou um cenário onde seriam dezenas, centenas. A realidade é mais modesta — e, honestamente, mais útil.

Como Usar IA para Segurança Sem o Mythos

Se você mantém um projeto open source — ou trabalha em qualquer base de código que toca a internet — a lição do Stenberg é clara: use IA para análise de segurança. Não porque vai encontrar centenas de zero-days escondidos, mas porque vai encontrar aquele um bug que todas as outras ferramentas perderam.

Algumas abordagens práticas que qualquer dev pode adotar hoje:


# CodeQL do GitHub (gratuito para open source)
# Analisa code paths e data flows com queries customizáveis
gh codeql analyze --language=c --format=sarif-latest

# Semgrep (tem tier gratuito)
# Regras de segurança com suporte a taint analysis
semgrep --config=p/security-audit --config=p/owasp-top-ten

# Para C/C++ especificamente
# Rode com sanitizers no CI
gcc -fsanitize=address,undefined -fno-omit-frame-pointer

E a abordagem que a AISLE validou: pegue trechos de código suspeitos — funções que lidam com input externo, parsers, handlers de rede — e alimente para um LLM com contexto específico. Não precisa ser o Mythos. Pode ser o Claude Sonnet, o GPT-4o, o Qwen3 32B rodando local. O importante é dar contexto suficiente e verificar cada achado manualmente.

Mas nunca confie cegamente nos resultados. O caso do curl prova que 80% dos achados podem ser falsos positivos. Cada relatório precisa de verificação humana — e isso consome tempo e expertise que muitos projetos simplesmente não têm.

Essa é a tensão real que ninguém resolve: a IA encontra bugs mais rápido, mas a triagem continua sendo humana. E projetos open source mantidos por uma pessoa (como o curl foi por muito tempo) não têm banda para processar relatórios com 80% de ruído.

E Aquela Vulnerabilidade?

O único bug confirmado pelo Mythos no curl continua sob embargo. Os detalhes serão publicados com o curl 8.21.0, previsto para o final de junho de 2026. Severidade baixa, mas real. Um bug que sobreviveu a 26 anos de auditoria humana e mecânica — similar ao bug de 23 anos no Linux que o Claude encontrou.

Stenberg vai creditar o Mythos no advisory? Provavelmente sim — ele sempre deu crédito a quem encontra bugs, seja humano ou máquina. Mas se eu fosse apostar, diria que o advisory vai ter uma nota de rodapé caracteristicamente seca, no estilo Stenberg, lembrando que 4 das 5 reportadas eram falso positivo.

A verdadeira revolução não é o Mythos em si. É que modelos baratos e acessíveis — rodando localmente no seu MacBook ou via API por centavos — conseguem resultados comparáveis quando você monta o sistema certo ao redor deles. A AISLE provou isso com dados. E o blog do Stenberg, talvez sem querer, confirmou: o fosso competitivo não está em ter o modelo mais caro e restrito do mundo. Está em saber exatamente onde apontar ele.

Quem mantém o curl há 26 anos não se impressiona fácil com marketing. E talvez seja exatamente esse ceticismo saudável — essa insistência em verificar cada claim antes de aceitar — que faz o projeto ser tão seguro quanto é.

—

Fonte de inspiração: Mythos finds a curl vulnerability — Daniel Stenberg

Related Tags:

Comments (2)

maio 14, 2026
Nginx Rift: O Bug De 18 Anos Que Permite Hackear 1/3 Dos Servidores Web - CodeInsider

[…] interessante que o bug em si: ferramentas de IA para auditoria de código (como Claude Mythos, que analisou 178 mil linhas do curl e encontrou só 1 bug real) teriam pego isso antes? O padrão — estado que persiste entre invocações de uma máquina de […]

maio 16, 2026
IA Matou Os CTFs: O Hacking Competitivo Virou Pay-to-Win - CodeInsider

[…] nos casos mais complexos. O Daniel Stenberg, criador do curl, já relatou que o Claude Mythos analisou 178 mil linhas do curl e encontrou apenas 1 bug real entre dezenas de falsos […]

Shopping cart

Recent Posts

Ford Demitiu Engenheiros e Colocou

Google Cortou o Gemini da

23 Exploits em Um Repositório: