DARPA Pagou $4 Milhões por uma IA que Encontra Bugs Sozinha — e Liberou Tudo em Open Source

Em agosto de 2025, no palco da DEF CON — a maior conferência de hackers do mundo — a DARPA entregou um cheque de $4 milhões para um time de pesquisadores da Georgia Tech, Samsung Research e duas universidades coreanas. O prêmio: criar uma inteligência artificial capaz de encontrar e corrigir vulnerabilidades de segurança em código aberto sem intervenção humana.

E então fez algo que a maioria não esperava: obrigou todo mundo a abrir o código.

O AI Cyber Challenge (AIxCC) da DARPA é talvez o projeto de segurança mais ambicioso financiado por um governo nos últimos anos. Dois anos de competição, mais de $8,5 milhões em prêmios, 54 milhões de linhas de código analisadas — e no final, todas as soluções disponíveis como software livre para qualquer desenvolvedor usar.

O Problema que o Desafio Tentou Resolver

A infraestrutura digital moderna é construída sobre open source. Servidores web, sistemas operacionais, bibliotecas de criptografia, parsers de protocolos — a maioria do software crítico que mantém hospitais, redes elétricas e sistemas financeiros funcionando é código aberto mantido por voluntários.

O problema: vulnerabilidades nesse código podem ficar escondidas por anos. A OpenSSL tinha o Heartbleed por dois anos antes de ser descoberto. A Log4Shell estava ali desde 2013. Não por negligência — simplesmente porque revisar segurança em milhões de linhas de código manualmente não escala.

A aposta da DARPA foi que IA poderia mudar essa equação. Em vez de esperar que um pesquisador humano encontrasse a vulnerabilidade — ou pior, que um atacante a encontrasse primeiro — sistemas automatizados poderiam fazer varreduras contínuas em escala industrial.

Como a Competição Funcionou

O AIxCC foi estruturado em duas fases ao longo de dois anos, em parceria com a ARPA-H (Advanced Research Projects Agency for Health). Os times precisavam construir um Cyber Reasoning System (CRS) — um sistema de IA capaz de, autonomamente:

Analisar código-fonte em busca de vulnerabilidades de segurança
Gerar patches corretos para as vulnerabilidades encontradas
Fazer tudo isso sem ajuda humana durante o processo

Na fase final, os sistemas foram testados contra 63 vulnerabilidades sintéticas espalhadas por 54 milhões de linhas de código — representando projetos de infraestrutura crítica reais.

Resultado	Número	Percentual
Vulnerabilidades disponíveis	63	100%
Vulnerabilidades encontradas	54	86%
Vulnerabilidades corrigidas	~43	68%

86% de taxa de detecção em 54 milhões de linhas de código, de forma autônoma. Para ter uma referência: auditorias humanas de segurança em projetos grandes raramente conseguem cobertura acima de 40-50% do código.

Quem Ganhou e o que Construíram

O primeiro lugar foi do Team Atlanta ($4 milhões), formado por pesquisadores da Georgia Tech, Samsung Research, KAIST e POSTECH. A abordagem deles combinou análise estática tradicional com modelos de linguagem para geração de patches — o modelo não só encontrava o bug, mas entendia o contexto semântico do código para propor a correção correta.

O segundo lugar foi da Trail of Bits ($3 milhões), uma firma de segurança de Nova York conhecida por seu trabalho em auditorias de smart contracts e criptografia. Sua solução, chamada Buttercup, usou uma arquitetura mais conservadora mas altamente precisa — menor taxa de falsos positivos.

O terceiro lugar foi da Theori ($1,5 milhão), com pesquisadores de segurança dos EUA e Coreia.

“AIxCC marks a pivotal inflection point for cyber defense — we’ve demonstrated that AI can autonomously find and fix vulnerabilities at scale.” — DARPA, anúncio oficial dos resultados

A Parte Mais Importante: Tudo Virou Open Source

Aqui está o detalhe que transforma esse projeto de interessante para potencialmente histórico: todos os sete times finalistas foram obrigados, como condição de participação, a liberar seus Cyber Reasoning Systems sob licenças aprovadas pela Open Source Initiative.

Cinco times já liberaram seus sistemas no momento do anúncio. Os outros dois estavam em processo de publicação.

Isso significa que a comunidade open source — as mesmas pessoas que mantêm o código que esses sistemas analisam — agora tem acesso às ferramentas. Um projeto como o Linux Kernel, o OpenSSL ou o Apache pode, em teoria, rodar esses CRSs em seus próprios repositórios como parte do pipeline de CI/CD.

A DARPA e a ARPA-H adicionaram ainda $1,4 milhão em prêmios adicionais para times que conseguissem integrar a tecnologia do AIxCC em software real de infraestrutura crítica — garantindo que os sistemas não ficassem apenas como demos acadêmicos.

Como Isso Funciona Tecnicamente

Os melhores CRSs da competição combinaram três técnicas principais:

Análise estática aumentada por LLM: ferramentas tradicionais como CodeQL ou Semgrep identificam padrões suspeitos, e o LLM interpreta se o padrão é realmente uma vulnerabilidade no contexto específico do código.
Fuzzing dirigido: em vez de testar inputs aleatórios, o modelo gera inputs que maximizam a probabilidade de triggerar a vulnerabilidade identificada.
Síntese de patches: o sistema não apenas reporta o bug — ele gera um patch e verifica automaticamente se o patch não quebra os testes existentes.

# Fluxo simplificado de um CRS
def analyze_codebase(repo_path):
    # 1. Análise estática inicial
    candidates = static_analyzer.scan(repo_path)
    
    # 2. LLM filtra e prioriza candidatos
    vulnerabilities = llm.rank_by_severity(candidates, context=repo_path)
    
    # 3. Para cada vulnerabilidade confirmada, gera patch
    for vuln in vulnerabilities:
        patch = llm.generate_patch(vuln, surrounding_code=vuln.context)
        
        # 4. Verifica se patch não quebra testes
        if test_suite.passes_with(patch):
            yield VulnerabilityReport(vuln, patch, verified=True)

A parte difícil não é encontrar bugs — ferramentas de análise estática já fazem isso. A parte difícil é reduzir falsos positivos (alertas para código que não é vulnerável) e gerar patches que realmente funcionam sem introduzir novos problemas. É onde os LLMs fazem diferença real.

O Que Vem a Seguir

A DARPA já sinalizou que o AIxCC não foi um projeto isolado. Faz parte de um investimento mais amplo em IA para segurança — a campanha AI Next, com mais de $2 bilhões investidos desde 2018, e o programa AI Forward, focado em sistemas confiáveis para ambientes críticos.

Para devs e mantenedores de projetos open source, os próximos passos práticos são:

Acompanhar a liberação dos CRSs em aicyberchallenge.com — os repositórios vão aparecer à medida que os times finalizam a publicação.
Trail of Bits já mantém tooling público: o repositório de Buttercup e outros trabalhos da empresa em github.com/trailofbits.
Integrar análise estática ao CI hoje: mesmo sem os CRSs do AIxCC, ferramentas como CodeQL, Semgrep e OSV-Scanner já oferecem boa cobertura — os CRSs vão sobre elas, não substituem.

A visão de longo prazo é que análise de segurança autônoma se torne parte normal do ciclo de desenvolvimento — assim como testes unitários. Não um processo separado feito por especialistas uma vez por ano, mas uma camada contínua rodando em cada PR, em cada commit, em escala.

O AIxCC provou que isso é tecnicamente viável. Os $8,5 milhões em prêmios provaram que vale a pena investir. E o requisito de open source garantiu que o resultado não ficou trancado em laboratório — ficou disponível para todos que constroem o software que o mundo usa.

Fontes: DARPA — AI Cyber Challenge Results | AIxCC Finals Winners Announcement | Trail of Bits Blog | Georgia Tech News