IA Matou os CTFs: O Hacking Competitivo Virou Pay-to-Win

O placar não mente mais — ele trapaceia

Eu acompanho competições de Capture The Flag desde 2019. Já virei noites tentando explorar um binário ELF com heap overflow, já fiz reverse de firmware de roteador às 3h da manhã, já celebrei um first blood em challenge de criptografia como se tivesse ganho a Copa do Mundo. CTFs formaram uma geração inteira de profissionais de segurança.

E agora estão mortos.

Não é exagero. Na BSidesSF 2026, 16 times resolveram todos os desafios — algo que simplesmente não acontecia antes. A maioria dos challenges caiu minutos após o release. Os 10 primeiros times do ranking automatizaram 100% do processo de resolução. Nenhum challenge ficou sem solução por mais de 25 times. O placar, que antes era um retrato de habilidade técnica, virou uma corrida de quem roda mais agentes de IA ao mesmo tempo.

Kabir Acharya, competidor de CTF desde 2021 e membro do TheHackersCrew (top 10 global), publicou um post que viralizou no Hacker News: “The CTF scene is dead.” E os 251 comentários na thread mostram que ele não está sozinho nessa opinião.

De “ferramenta útil” a “jogador principal”

A invasão da IA nos CTFs não aconteceu da noite pro dia. Teve fases bem definidas.

Fase 1 — GPT-4 (2023-2024)

Desafios de dificuldade média se tornaram “one-shottable” — um único prompt resolvia o challenge inteiro. Mas os problemas hard e insane ainda exigiam raciocínio humano profundo. Dava pra conviver.

Fase 2 — Claude Opus 4.5 (2025)

Quase todos os challenges médios e alguns hard passaram a ser resolvidos por agentes. A estratégia vencedora mudou: automatizar tudo que fosse fácil na primeira hora e concentrar o esforço humano nos problemas mais difíceis. A competição já não media só habilidade em segurança — media capacidade de orquestração de modelos.

Fase 3 — GPT-5.5 e Claude Opus 4.6 (2026)

O jogo acabou. Esses modelos resolvem challenges de dificuldade “insana” — inclusive exploits de heap sem leak em binários compilados. A Include Security, consultoria de segurança que participa de CTFs há anos, documentou que o Claude Opus 4.6 no modo max effort resolveu:

Puzzles de criptografia avançada
Exploração de binários (binary exploitation)
Vulnerabilidades web complexas
Desafios de OSINT

Um dos autores da análise colocou em perspectiva: ele terminou em 5º lugar solo na BSidesSF 2025. Em 2026, sem usar LLM, estimou que ficaria em 75º. A diferença não é incremental — é um abismo.

$5.000 para vencer 125.000 humanos

Se alguém ainda tinha dúvida de que os CTFs viraram pay-to-win, a startup israelense Tenzai enterrou o debate em março de 2026.

A Tenzai construiu um sistema de agentes de IA especializados em exploração de vulnerabilidades e colocou para competir em seis competições CTF de elite. O resultado? Performou melhor que 99% dos 125.000 competidores humanos. O custo total para rodar os modelos em todas as seis competições? Cinco mil dólares em tokens de API.

Pra colocar em contexto: um time humano de elite gasta meses treinando, viaja para conferências, perde finais de semana praticando em plataformas como HackTheBox e PicoCTF. Cada membro do time acumula anos de experiência em reverse engineering, criptografia, análise de malware. E um script de $5.000 bateu 99% deles.

Em paralelo, uma avaliação independente do GPT-5 em competições de elite mostrou que o modelo terminou em 25º lugar geral — melhor que 93% dos participantes humanos. Sem dormir, sem comer, sem errar de digitação. Só queimando tokens.

Competidor	Resultado	Custo
Time humano top 10	Meses de treino + 48h sem dormir	Inestimável
Tenzai AI	Top 1% (125k competidores)	$5.000
GPT-5 solo	Top 7% (25º lugar)	~$2.000-3.000 estimados
Hacker solo sem IA (2026)	~75º lugar estimado	Orgulho ferido

A infraestrutura que os times vencedores montaram na BSidesSF 2026 parecia um data center:

Múltiplos modelos rodando em paralelo, cada um com pontos fortes diferentes
LLMs coordenadores compartilhando insights entre agentes
Monitoramento contínuo da plataforma com submissão automática de flags
Arquitetura de processamento paralelo

Um competidor relatou que o Claude Max no plano 5x forneceu “tokens suficientes” para cobrir uma competição inteira. Estamos falando de resolver dezenas de challenges de segurança em tempo real, automaticamente.

O argumento do xadrez — e por que ele está certo

Kabir faz uma analogia devastadora no seu post: pense no xadrez.

Engines como Stockfish e AlphaZero são absurdamente superiores a qualquer humano. Mas engines são proibidas durante partidas competitivas. Se o xadrez permitisse uso livre de engines durante torneios, a competição faria algum sentido? Alguém assistiria?

A resposta é óbvia. E é exatamente isso que está acontecendo nos CTFs.

A diferença é que o xadrez tem federações, regras centralizadas e tradição de enforcement. CTFs online são descentralizados, organizados por voluntários, e não existe infraestrutura realista para detectar uso de IA. Você não consegue distinguir um humano digitando um exploit de um agente gerando o mesmo exploit. O output é idêntico.

Alguns organizadores tentaram adaptar:

Aumentar a dificuldade — funciona temporariamente, até o próximo modelo frontier
Challenges anti-IA — exigem interação física, hardware ou contexto que modelos não têm
Provas presenciais — DEF CON finals já funciona assim, mas atinge dezenas de times, não milhares
Time limits mais curtos — agentes resolvem em minutos, então isso mal ajuda

Nenhuma dessas soluções escala. O formato aberto e online que democratizou os CTFs é exatamente o que os torna vulneráveis à automação.

O pipeline de talentos quebrou

Eu sei que parece drama. “É só competição, relaxa.” Mas CTFs tinham uma função que vai muito além de diversão.

Empresas de segurança usavam performance em CTFs como proxy de habilidade técnica no recrutamento. Google, Trail of Bits, CrowdStrike — todas olhavam rankings. Times como PPP (Carnegie Mellon), DEFKOR, e Blue Water construíram reputações que abriam portas na indústria.

Quando o placar não reflete mais habilidade humana, esse pipeline inteiro se compromete. Como saber se o candidato resolveu aquele challenge de pwn ou se o Claude resolveu por ele?

Mais grave: o efeito na motivação dos novatos. Quem está começando em segurança entra no CTF, vê o scoreboard dominado por agentes, e tem duas opções:

Aprender as bases — meses de estudo de assembly, redes, criptografia, até conseguir resolver challenges médios
Rodar um agente — resolver os mesmos challenges em minutos, sem entender o que está acontecendo

A pressão para escolher a opção 2 é enorme. E quando todo mundo escolhe a opção 2, quem realmente entende as vulnerabilidades por baixo? Quem vai auditar o código que a IA gerou? Quem vai encontrar os zero-days que os modelos não foram treinados para reconhecer?

O feedback loop de aprendizado — struggle, fail, learn, solve — é o que forma profissionais de verdade. Se você pula direto pro “solve” com um agente, o aprendizado não acontece.

“Mas pentests são diferentes”

A Include Security levantou um ponto crucial que merece destaque: resolver CTFs e fazer pentests profissionais são coisas fundamentalmente distintas.

Aspecto	CTF	Pentest real
Objetivo	Um flag por challenge	Superfície de ataque vasta e indefinida
Verificação	Flag correto = sucesso inequívoco	Falsos positivos exigem análise manual
Contexto	Programa pequeno e isolado	Milhões de linhas de código em produção
Relatório	Não precisa	Exige avaliação de severidade e contexto de negócio
Risco	Violação = desclassificação	Violação de escopo = consequências legais sérias

Um agente de IA que resolve um CTF de heap exploitation em 3 minutos não necessariamente consegue fazer um pentest real. O salto de “resolver puzzle isolado” para “navegar um sistema complexo com milhões de linhas de código, avaliar riscos e produzir um relatório acionável” ainda é grande.

Mas aqui vem o “porém”: esse gap está diminuindo. Cada novo modelo frontier fecha mais distância. E se a IA já resolve os puzzles, quanto tempo até ela resolver os pentests?

A resposta honesta? Ninguém sabe. Mas a direção é clara.

DEF CON 34: o último bastião?

A DEF CON 34 anunciou seu CTF qualificatório para 22-24 de maio de 2026, organizado pelo grupo Benevolent Bureau of Birds. As finais presenciais sempre foram mais resistentes à automação por envolverem:

Infraestrutura física que exige interação real
Attack-defense em tempo real contra outros times humanos
Desafios que mudam durante a competição
Julgamento de organizadores presentes

Mas as qualificatórias são online. E se as qualificatórias estão comprometidas, o filtro que seleciona os melhores times para as finais também está. Times que passaram porque seus agentes resolveram tudo podem não ter a profundidade técnica que as finais exigem.

É uma contradição que os organizadores ainda não resolveram. E talvez não consigam.

O que os hackers estão fazendo agora

Conversei com profissionais de segurança nos últimos meses (em conferências, Discords e Slacks da área) e o padrão é consistente: os mais experientes migraram.

Bug bounties ainda exigem habilidade humana real. Encontrar vulnerabilidades em produção, em código que ninguém sinalizou como vulnerável, com complexidade de negócio e restrições legais — isso ainda está além dos agentes. Plataformas como HackerOne e Bugcrowd continuam funcionando como meritocracia técnica.

Pwn2Own mantém credibilidade porque é presencial, com escopo controlado e verificação rigorosa.

Red teaming corporativo exige entender o negócio, a cultura, e os processos internos — algo que nenhum modelo consegue absorver de um prompt.

Pesquisa de vulnerabilidades de longo prazo (fuzzing, análise de código, reverse engineering de firmware) continua sendo domínio humano nos casos mais complexos. O Daniel Stenberg, criador do curl, já relatou que o Claude Mythos analisou 178 mil linhas do curl e encontrou apenas 1 bug real entre dezenas de falsos positivos.

Não é só CTF — é um padrão

O que aconteceu com os CTFs é um preview do que vai acontecer com qualquer atividade competitiva baseada em conhecimento que permita automação.

Coding competitions? Já estão sendo afetadas — o Codeforces e o LeetCode já discutem como lidar com submissões geradas por IA.

Competições de matemática? O ChatGPT resolveu em 80 minutos um problema que matemáticos não conseguiram em 60 anos. Eu mesmo escrevi sobre isso há algumas semanas.

Hackathons? Projetos inteiros sendo gerados por agentes em 48 horas.

O padrão é sempre o mesmo:

IA começa resolvendo os problemas fáceis
Humanos migram para os problemas difíceis
O próximo modelo resolve os difíceis também
A competição perde significado

A velocidade com que isso acontece é o que pega de surpresa. Em CTFs, foram menos de 3 anos do “GPT-4 resolve challenges médios” para “GPT-5.5 resolve challenges insanos.”

Pra onde a comunidade vai?

Kabir encerra seu post com uma frase que me ficou: “a comunidade incrível que construímos ao redor dos CTFs é mais importante agora do que nunca.”

Concordo. A comunidade de segurança precisa se reorganizar em torno de formatos que preservem o que importava nos CTFs:

Meetups e conferências presenciais — networking, mentoria, compartilhamento de conhecimento
Plataformas de aprendizado como HackTheBox e TryHackMe — focadas em educação, não em ranking competitivo
CTFs presenciais com enforcement — formato DEF CON finals, mas mais acessível
Competições attack-defense — onde a IA precisa defender enquanto ataca, adicionando complexidade real
Mentoria direta — profissionais seniores formando a próxima geração sem depender de scoreboards

O formato de CTF online aberto como métrica de habilidade acabou. Mas a necessidade de profissionais de segurança que entendem as bases — assembly, redes, criptografia, sistemas operacionais — nunca foi tão grande. A ironia é que, quanto mais dependemos de IA para segurança, mais precisamos de humanos que entendam o que a IA está fazendo.

Existe um conceito em educação chamado “desirable difficulty” — a dificuldade desejável. É a ideia de que o aprendizado real acontece quando você luta com um problema que está no limite da sua capacidade. Fácil demais, você não aprende. Difícil demais, você desiste. O CTF era perfeito nisso: challenges escalonados do fácil ao impossível, com feedback imediato (flag certo ou errado).

A IA removeu a dificuldade desejável. E sem ela, o aprendizado colapsa.

Se você está começando em segurança, meu conselho: não otimize para scoreboards. Aprenda as bases. Entenda o que acontece debaixo do capô. Leia o código do exploit que a IA gerou e descubra por que ele funciona. Faça reverse engineering manualmente antes de automatizar. Monte um lab e quebre coisas de propósito.

Quando a IA errar — e ela vai errar, em produção, com dinheiro real em jogo — você vai ser a pessoa que sabe consertar.

Fonte de inspiração: The CTF scene is dead por Kabir Acharya

Shopping cart

Recent Posts

IA Matou os CTFs: O

Seu CEO Tem Psicose de

5 Linhas de Código Hackeiam