GLM 5.2 Bateu o Claude em Cibersegurança — e Custa US$ 0,17 por Bug

Um modelo open source com 753 bilhões de parâmetros, treinado em chips chineses, acabou de humilhar o Claude Code num benchmark de detecção de vulnerabilidades. E o mais absurdo? Cada bug encontrado custou US$ 0,17.

A Semgrep, empresa por trás de uma das ferramentas de análise estática mais usadas do mundo, publicou um estudo que está viralizando no Hacker News com mais de 900 upvotes. O título do paper é quase um meme: “We have Mythos at Home” — uma referência ao Claude Mythos, o modelo mais avançado da Anthropic para segurança. A tese? Você não precisa do modelo mais caro do mercado para caçar vulnerabilidades. Um modelo aberto, rodando localmente, pode fazer o mesmo trabalho.

O Que a Semgrep Testou (e Por Que Importa)

A Semgrep criou um benchmark focado em IDOR — Insecure Direct Object Reference, um dos bugs mais comuns e perigosos da web. Pra quem não lembra, IDOR é aquele clássico: você troca o user_id=42 por user_id=43 na URL e acessa os dados de outro usuário. Simples, devastador, e responsável por vazamentos bilionários.

O benchmark não é trivial. Diferente de testes sintéticos onde o modelo analisa um snippet isolado, a Semgrep jogou codebases inteiras nos modelos e pediu: “Encontre os IDORs.” Isso exige que o modelo entenda rotas, middlewares de autenticação, fluxos de autorização e a lógica de negócio por trás de cada endpoint.

Eles testaram cinco configurações diferentes:

Modelo	Configuração	F1 Score
——–	————-	———-
Semgrep Multimodal (GPT 5.5)	Pipeline proprietário completo	61%
Semgrep Multimodal (Opus 4.8)	Pipeline proprietário completo	53%
GLM 5.2	Prompt simples com Pydantic AI	39%
Claude Code (Opus 4.6)	Claude SDK	37%
Claude Code (Opus 4.8/4.7)	Claude SDK	28%

Releia essa tabela. O Claude Code, usando o Opus 4.8 — literalmente o modelo mais avançado da Anthropic — ficou em último lugar com 28%. O GLM 5.2, um modelo open source que qualquer pessoa pode baixar e rodar, marcou 39%.

Espera — 39% É Um Score Bom?

Não, não é. E a Semgrep faz questão de dizer isso. Um F1 de 39% significa que o modelo ainda erra mais do que acerta. Mas o ponto não é o número absoluto — é a comparação relativa.

O GLM 5.2 recebeu um prompt básico, sem nenhuma orquestração sofisticada, sem pipeline de enumeração de endpoints, sem análise multimodal. Só um prompt dizendo “analise esse código e encontre vulnerabilidades IDOR” via Pydantic AI. E mesmo assim superou o Claude Code, que tinha acesso ao SDK completo da Anthropic com ferramentas de navegação de código.

A conclusão da Semgrep é cirúrgica: “o harness importa mais que o modelo.” O pipeline proprietário deles com GPT 5.5 atingiu 61% — não porque o GPT 5.5 é melhor em segurança, mas porque a orquestração ao redor do modelo faz toda a diferença. Enumerar endpoints primeiro, identificar padrões de autenticação, guiar a análise passo a passo. Isso é engenharia de prompt em nível industrial.

Mas quando você tira a orquestração e deixa os modelos “sozinhos”, o GLM 5.2 vence. E por uma fração do preço.

753 Bilhões de Parâmetros, 40 Bilhões Ativos

Vamos falar da arquitetura, porque ela explica por que o GLM 5.2 consegue ser tão barato.

O modelo usa Mixture of Experts (MoE) — a mesma abordagem que a Mixtral popularizou. São 753 bilhões de parâmetros no total, distribuídos em 384 experts. Mas a cada token processado, apenas ~40 bilhões de parâmetros são ativados. Isso significa que você tem a capacidade de um modelo gigante com o custo computacional de um modelo médio.

Pra contextualizar:


GLM 5.2:    753B total / 40B ativos por token
GPT-5.5:    ~2T total (estimado) / desconhecido
Claude Opus: ~1T total (estimado) / desconhecido

A Zhipu AI (a empresa por trás do GLM) também implementou algo chamado IndexShare — uma tecnologia de atenção esparsa que reduz a memória necessária durante inferência. Combinado com uma camada de multi-token prediction para decodificação especulativa, o modelo gera tokens mais rápido que o esperado para seu tamanho.

E tem um detalhe que muita gente ignora: o GLM 5.2 foi treinado em chips Huawei Ascend, não em GPUs Nvidia. Isso é significativo porque prova que modelos frontier podem ser treinados sem hardware americano — mas vou deixar as implicações geopolíticas pra quem gosta de geopolítica.

O Contexto de 1 Milhão de Tokens

Uma das features mais relevantes para segurança é a janela de contexto de 1 milhão de tokens. Seus predecessores (GLM 5.0 e 5.1) tinham 200K. Isso muda tudo na análise de código.

Um projeto web médio tem facilmente 50-100 mil linhas de código. Com 200K tokens, você precisa fragmentar a análise, perder contexto entre arquivos, e torcer pra que o modelo conecte os pontos. Com 1M de tokens, você joga o projeto inteiro — rotas, controllers, middlewares, models, configs — e pede a análise completa.

Pra detecção de IDOR especificamente, isso é game-changing. O modelo precisa cruzar informações de:

Rotas — qual endpoint aceita parâmetros de ID
Middlewares — existe verificação de autenticação?
Controllers — o handler verifica se o usuário logado tem acesso ao recurso solicitado?
Models/DAOs — a query ao banco filtra por user_id?

Com 1M de contexto, tudo isso cabe numa única chamada. E o benchmark da Semgrep mostra que o GLM 5.2 consegue fazer essas conexões melhor que o Claude quando ambos recebem o código cru.

Quanto Custa Encontrar Um Bug

Aqui mora talvez o dado mais impressionante do estudo. A Semgrep calculou o custo por vulnerabilidade encontrada:

Modelo	Custo por bug
——–	————–
GLM 5.2 (self-hosted)	~US$ 0,00
GLM 5.2 (via OpenRouter)	~US$ 0,17
Claude Code (Opus 4.8)	~US$ 2,40
GPT 5.5 (via API)	~US$ 3,10

Leu certo: US$ 0,17 versus US$ 2,40. O GLM 5.2 custa 14x menos que o Claude por vulnerabilidade detectada. E se você rodar localmente com hardware próprio (o modelo é MIT license, pode baixar os pesos), o custo marginal é zero.

Pra uma empresa que roda scans de segurança diários em centenas de repositórios, essa diferença não é trivial. Estamos falando de milhares de dólares por mês em economia.

Os Benchmarks de Código Também Impressionam

O estudo da Semgrep focou em cibersegurança, mas o GLM 5.2 está quebrando recordes em coding de forma geral:

Benchmark	GLM 5.2	GPT 5.5	Claude Opus 4.8
———–	———	———	—————–
SWE-bench Pro	62.1%	58.6%	65.2%
Terminal-Bench 2.1	81.0%	74.3%	79.1%
GPQA Diamond	91.2%	89.1%	93.4%
AIME 2026	99.2%	98.7%	99.5%

No SWE-bench Pro — que mede a capacidade de resolver bugs reais em projetos open source — o GLM 5.2 supera o GPT 5.5 por quase 4 pontos. O Claude Opus 4.8 ainda lidera, mas a diferença é de apenas 3 pontos. Para um modelo open source que custa 1/6 do preço, estar tão perto do topo é absurdo.

No Terminal-Bench 2.1, que avalia tarefas agênticas no terminal (criar projetos, debugar, navegar codebases), o GLM 5.2 lidera com 81%. Esse benchmark importa especialmente pra quem usa agentes de código como Claude Code, Cursor ou Codex.

Como Usar na Prática

O GLM 5.2 está disponível de várias formas:

Via API (OpenRouter):


from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sua-chave"
)

response = client.chat.completions.create(
    model="zhipu/glm-5.2",
    messages=[
        {"role": "system", "content": "Você é um especialista em segurança de aplicações web."},
        {"role": "user", "content": f"Analise este código e identifique vulnerabilidades IDOR:\n\n{code}"}
    ],
    temperature=0.1
)

Via Z.ai (API direta da Zhipu):


curl -X POST "https://open.z.ai/api/v4/chat/completions" \
  -H "Authorization: Bearer $ZHIPU_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [{"role": "user", "content": "Encontre IDORs neste código: ..."}],
    "temperature": 0.1,
    "max_tokens": 8192
  }'

Self-hosted (requer ~160GB VRAM para FP16, ~80GB para INT8):


# Com vLLM
pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model zhipu-ai/glm-5.2 \
  --tensor-parallel-size 4 \
  --max-model-len 131072

A Semgrep usou o Pydantic AI pra estruturar as respostas do modelo, o que provavelmente ajudou na qualidade da detecção:


from pydantic import BaseModel
from pydantic_ai import Agent

class VulnerabilityReport(BaseModel):
    file: str
    line: int
    type: str
    severity: str
    description: str
    remediation: str

agent = Agent(
    "openrouter:zhipu/glm-5.2",
    result_type=list[VulnerabilityReport],
    system_prompt="Analise o código fonte fornecido e identifique vulnerabilidades IDOR..."
)

result = await agent.run(source_code)
for vuln in result.data:
    print(f"[{vuln.severity}] {vuln.file}:{vuln.line} - {vuln.description}")

O Que Isso Significa Pro Mercado

A Semgrep resumiu bem: “harness still matters more than the model.” O pipeline proprietário deles com GPT 5.5 ainda vence todos os outros por uma margem enorme (61% vs 39%). Isso quer dizer que se você quer máxima precisão em detecção de vulnerabilidades, a engenharia ao redor do modelo importa mais que o modelo em si.

Mas pra quem está construindo ferramentas internas de segurança, o GLM 5.2 muda a equação. Você pode:

Rodar scans de segurança localmente sem enviar código proprietário pra APIs externas
Customizar e fine-tunar o modelo pra seus padrões específicos de código (é MIT license)
Escalar a análise sem se preocupar com custos de API que explodem
Integrar em CI/CD pipelines com custo marginal próximo de zero

Isso é especialmente relevante pra empresas que operam em setores regulados (bancos, saúde, governo) onde enviar código fonte pra uma API na nuvem não é uma opção.

Os Limites (Que Ninguém Quer Falar)

Antes de sair trocando o Claude pelo GLM 5.2 em tudo, alguns pontos:

O benchmark é de uma única classe de vulnerabilidade. IDOR é importante, mas segurança de aplicações envolve dezenas de categorias: SQL injection, XSS, SSRF, desserialização insegura, race conditions. Não sabemos se o GLM 5.2 performa igualmente bem em todas.

Vendor-reported vs independente. Muitos dos benchmarks impressionantes do GLM 5.2 vêm da própria Zhipu. Índices independentes como o Artificial Analysis colocam o modelo em posições mais modestas (score 40, atrás de vários competidores).

Raciocínio geral. Em tarefas que exigem raciocínio lógico complexo e não-coding, o Claude Opus 4.8 e o GPT 5.5 ainda lideram por margens significativas. O GLM 5.2 brilha em código, mas não é um modelo “faz tudo” no mesmo nível.

Infraestrutura pra self-hosting. Rodar 753B parâmetros localmente não é pra qualquer um. Mesmo em INT8, você precisa de pelo menos 4 GPUs A100 80GB ou equivalente. Pra a maioria dos devs individuais, a API via OpenRouter é mais prática.

O Verdadeiro Insight

O paper da Semgrep não é realmente sobre “GLM 5.2 vs Claude.” É sobre algo mais profundo: a commoditização da inteligência artificial aplicada à segurança.

Há dois anos, detecção de vulnerabilidades por IA era privilégio de quem podia pagar pelo Claude Mythos ou construir pipelines milionários. Hoje, um modelo open source disponível sob licença MIT consegue performance comparável por centavos. Amanhã, isso será uma feature padrão em qualquer IDE.

A real corrida não é entre modelos — é entre as ferramentas que orquestram esses modelos. A Semgrep entendeu isso. O pipeline deles com GPT 5.5 marcou 61% não pelo modelo, mas pela engenharia ao redor: enumeração de endpoints, análise de fluxos de autenticação, decomposição hierárquica da codebase. Esse é o diferencial que não se copia baixando pesos do Hugging Face.

Quem está construindo ferramentas de segurança deveria prestar menos atenção em qual modelo usar e mais atenção em como usar qualquer modelo. O GLM 5.2 prova que a barreira de entrada caiu. A pergunta agora é: o que você vai construir com isso?

Shopping cart

Recent Posts

GLM 5.2 Bateu o Claude

Ford Demitiu Engenheiros e Colocou

Google Cortou o Gemini da