59% dos Tokens da Sua IA Vão pro Code Review — Não pro Código

O Número que Ninguém Te Conta Sobre Agentes de IA

Você abre o Claude Code, pede pra ele refatorar aquele módulo de autenticação, e 15 minutos depois a conta bateu 2 milhões de tokens. O código ficou pronto — mas o custo te fez engolir seco.

A pergunta que ninguém faz: onde exatamente esses tokens foram parar?

Um grupo de pesquisadores decidiu rastrear cada token consumido por agentes de IA durante tarefas de engenharia de software. O resultado é tão contraintuitivo que merece um artigo inteiro: a maior parte dos tokens não vai pra escrever código. Vai pra revisar código.

59,4% dos Tokens Vão pro Code Review

O paper “Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering” analisou 30 tarefas de desenvolvimento no framework ChatDev usando modelos GPT-5. Os pesquisadores mapearam cada fase da execução para estágios do SDLC: Design, Codificação, Code Completion, Code Review, Testes e Documentação.

O resultado:

Estágio	% dos Tokens
Code Review (iterativo)	59,4%
Codificação	~15%
Testes	~12%
Design	~8%
Documentação	~4%
Code Completion	~2%

Leu certo: quase 60% de todo o consumo vai pra revisão de código automatizada, não pra geração inicial. O agente escreve, revisa, encontra problemas, reescreve, revisa de novo — e cada iteração desse loop reprocessa todo o contexto anterior.

Outro dado importante: input tokens representam 53,9% do consumo total. Ou seja, mais da metade do que você paga é a IA relendo o que já escreveu, não gerando conteúdo novo.

Por Que o Code Review É Tão Caro?

A resposta está na natureza iterativa do processo. Quando um agente multi-agente como o ChatDev gera código, ele não faz uma única passada. O fluxo real é:

Agente Coder escreve a primeira versão
Agente Reviewer analisa, encontra problemas, sugere mudanças
Agente Coder reescreve com base no feedback
Agente Reviewer analisa novamente
Repete até convergir (ou estourar o budget)

Cada iteração desse ciclo reprocessa todo o código já escrito, todo o feedback anterior, e todo o contexto da tarefa. Em uma tarefa de 30 arquivos, o agente pode reprocessar milhares de linhas de código 4-5 vezes antes de considerar o resultado aceitável.

Isso explica também por que input tokens dominam o custo (53,9%). O agente gasta mais relendo do que escrevendo. É como se você pagasse um programador sênior que precisa reler todo o codebase inteiro a cada vez que altera uma linha — e cobrasse por hora de leitura.

O paper sugere que protocolos de colaboração entre agentes mais eficientes — onde o reviewer só recebe o diff, não o projeto inteiro — poderiam reduzir drasticamente esse consumo. Mas a arquitetura atual da maioria dos frameworks simplesmente não foi projetada pensando em eficiência de tokens.

1.000x Mais Tokens que um Chat Normal

Se o paper do ChatDev já assusta, um segundo estudo publicado em abril de 2026 — “How Do AI Agents Spend Your Money?” — coloca o problema em escala.

Os pesquisadores analisaram 8 modelos de fronteira (incluindo GPT-5, Claude Sonnet 4.5 e Kimi-K2) em tarefas do SWE-bench Verified. Descobertas que doem no bolso:

Tarefas agentic consomem ~1.000x mais tokens que code reasoning ou code chat
Runs na mesma tarefa podem variar até 30x em total de tokens — dependendo de como o agente “decide” abordar o problema
Gastar mais tokens não significa resultado melhor: a acurácia frequentemente atinge o pico em custos intermediários, e depois cai
Kimi-K2 e Claude Sonnet 4.5 consomem 1,5 milhão de tokens a mais que GPT-5 nas mesmas tarefas
Os próprios modelos não conseguem prever quanto vão gastar: a correlação entre previsão e gasto real ficou em míseros 0,39

Esse último ponto é particularmente perturbador. Quando você pede pro agente estimar o custo de uma tarefa, ele subestima sistematicamente. É como contratar um pedreiro que sempre promete “uma semana” e leva três meses — só que cada dia extra custa tokens.

O Vilão Oculto: Contexto Reenviado

Um relatório da LeanOps, baseado em auditorias de 30 equipes de engenharia usando IA agêntica em produção entre março e maio de 2026, identificou o verdadeiro vilão da conta:

62% do custo total vem de contexto reenviado.

Funciona assim: a cada chamada de API, o modelo recebe todo o contexto novamente — o system prompt, cada arquivo que o agente leu, cada edit que fez, cada mensagem de erro que encontrou, e o histórico completo da conversa. Tudo isso é reenviado como input tokens a cada turno.

Um agente simples com 5 passos custa 3,2x mais que um chatbot para o mesmo resultado. Com 50 passos, o multiplicador passa de 30x. Em sessões de debugging autônomo com 200+ passos — cenário comum com Claude Code ou Cursor — o multiplicador ultrapassa 100x.

Na prática: se um chat normal custaria $0.05, a mesma tarefa em modo agêntico pode custar $5.00. E a maior parte desse custo é a IA relendo o que já sabe.

Como o GitHub Cortou 62% da Conta

O GitHub enfrentou esse problema de frente e documentou a solução no blog oficial. O time de engenharia aplicou três otimizações nos seus workflows agênticos internos:

1. Eliminar ferramentas MCP não usadas

Muitos setups incluem dezenas de ferramentas MCP registradas que o agente nunca usa. Cada ferramenta registrada adiciona 8-12 KB ao contexto por chamada. Remover as não utilizadas economizou milhares de tokens por run.

2. Trocar MCP do GitHub por CLI

Em vez de deixar o agente fazer fetch de dados via MCP (que entra no loop de raciocínio do LLM), o GitHub passou a baixar dados com gh CLI antes do agente iniciar. Isso move a maior parte do data-fetching para fora do loop de raciocínio.


# Antes: agente usava MCP para buscar diff do PR (tokens no loop)
# Depois: dados pré-baixados com CLI
gh pr diff 123 > /tmp/pr-diff.txt
# Agente recebe o arquivo pronto, sem gastar tokens buscando

3. Remover steps determinísticos do raciocínio

Tarefas repetitivas como ler diffs de PRs foram convertidas em pre-workflow steps. O agente não precisa “pensar” para decidir que precisa ler o diff — isso é feito automaticamente antes dele começar.

Os resultados por workflow:

Workflow	Redução
Auto-Triage Issues	62%
Smoke Claude	59%
Security Guard	43%
Daily Community Attribution	37%
Daily Compiler Quality	19%

Só o Auto-Triage economizou 7,8 milhões de Effective Tokens durante o período de observação.

O GitHub também criou uma métrica chamada Effective Tokens (ET) que normaliza o custo entre modelos diferentes:


ET = m × (1.0 × I + 0.1 × C + 4.0 × O)

Onde I = input tokens, C = cached tokens, O = output tokens, e m = multiplicador do modelo. Isso permite comparar custos reais entre Haiku, Sonnet e Opus de forma justa.

Quanto Custa Realmente Usar IA pra Codar em 2026

Vamos colocar os números na mesa. Pesquisas de mercado de junho de 2026 mostram o custo real de cada ferramenta:

Ferramenta	Plano	Custo Mensal
——-
Claude Code	Pro	$20/mês
Claude Code	Max	$200/mês
Cursor	Standard	$40/user/mês
Cursor	Premium	$120/user/mês
OpenAI Codex	Pro 5x	$100/mês

Mas esses são os preços de assinatura. O custo real? O dev médio usando Claude Code ou Cursor em modo agêntico gasta entre $400 e $1.500 por mês. Casos extremos chegam a $4.000+ em poucos dias.

Um desenvolvedor reportou que 8 meses de uso diário do Claude Code consumiram 10 bilhões de tokens — o que custaria mais de $15.000 a preço de API (baseado em $3/$15 por milhão de tokens no Sonnet 4.6).

E o volume global não para de crescer. O processamento semanal de tokens no OpenRouter saltou de 0,4 trilhão em dezembro de 2024 para 27 trilhões em março de 2026. Um aumento de 67,5x em 15 meses.

4 Formas de Cortar a Conta pela Metade

A LeanOps documentou quatro estratégias que consistentemente reduzem custos agênticos em 50-70% em duas semanas:

1. Budget caps por usuário

Parece óbvio, mas a maioria dos times não tem. Definir um limite por dev/dia evita que um loop infinito de debugging autônomo queime o orçamento do mês inteiro em uma tarde.

2. Prompt caching para system instructions

System prompts são reenviados a cada turno. Habilitar prompt caching (disponível no Claude e GPT-5) reduz drasticamente o custo dos tokens que não mudam entre chamadas.


# Anthropic API - prompt caching
response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    system=[{
        "type": "text",
        "text": system_prompt,
        "cache_control": {"type": "ephemeral"}
    }],
    messages=messages
)

3. Model tier routing

Nem toda subtarefa precisa do Opus. Use Haiku para tarefas mecânicas (linting, formatação, leitura de arquivos) e Opus apenas para raciocínio complexo. Essa estratégia sozinha pode cortar 40% da conta.

4. Poda agressiva da context window

Remova do contexto arquivos já processados, mensagens de erro resolvidas, e histórico de conversa que não é mais relevante. O agente não precisa relembrar cada passo que já deu — só os que importam pro passo atual.

O Volume Global de Tokens Explodiu — E Ninguém Sabe Como Frear

Esses problemas não seriam tão graves se o uso de agentes fosse nicho. Mas não é.

O processamento semanal de tokens no OpenRouter — uma das maiores plataformas de roteamento de LLMs — saltou de 0,4 trilhão em dezembro de 2024 para 27 trilhões em março de 2026. Isso é um aumento de 67,5x em 15 meses. E esses números só incluem uma plataforma.

Quando você soma Anthropic API diretamente, Azure OpenAI, AWS Bedrock, Google Vertex AI, e todas as outras formas de consumir tokens, o número real provavelmente está na casa dos centenas de trilhões por semana.

E aqui está o problema circular: quanto mais tokens são consumidos, mais demanda por GPUs. Quanto mais demanda por GPUs, mais data centers. Quanto mais data centers, mais energia. A Agência Internacional de Energia projeta que o consumo global de eletricidade por data centers vai dobrar até 2030 — e a ineficiência dos agentes de IA é um dos maiores contribuidores.

Não é exagero dizer que otimizar o consumo de tokens não é só uma questão de custo. É uma questão ambiental e de infraestrutura global.

O Paradoxo da Eficiência

Eu acho fascinante que estamos vivendo um momento onde a IA gasta mais tempo se corrigindo do que produzindo. O dado dos 59,4% em code review mostra que os agentes de IA reproduzem um padrão humano: revisar código é mais caro que escrevê-lo.

A diferença é que um humano revisando código não reprocessa cada linha do projeto a cada olhada. A IA, pela sua arquitetura baseada em transformers, é obrigada a fazer exatamente isso. É como se um code reviewer precisasse ler o repositório inteiro de novo a cada comentário no PR.

A Agência Internacional de Energia projeta que o consumo global de eletricidade por data centers vai dobrar até 2030, impulsionado em grande parte por esse tipo de ineficiência. Não é exagero dizer que otimizar o consumo de tokens dos agentes de IA é, literalmente, uma questão ambiental.

O Que Muda na Prática

Se você está usando agentes de IA para programar — e em 2026, quem não está? — aqui vai o que esses dados significam:

Pra devs individuais: Monitore seu consumo de tokens. A maioria das ferramentas tem dashboards de uso. Se o número está subindo sem sua produtividade acompanhar, o agente provavelmente está em loops de revisão ineficientes. Considere quebrar tarefas grandes em subtarefas menores — menos contexto acumulado, menos tokens reenviados.

Pra tech leads: Implementem budget caps ontem. Não como restrição punitiva, mas como circuit breaker. Um agente que gastou 5 milhões de tokens em uma tarefa simples provavelmente travou num loop — e continuar rodando não vai resolver.

Pra quem escolhe ferramentas: O modelo mais caro nem sempre é o melhor. O paper mostra que gastar mais tokens não correlaciona com resultados melhores. GPT-5 foi significativamente mais eficiente que Claude Sonnet 4.5 e Kimi-K2 nas mesmas tarefas — o que sugere que benchmarks de qualidade precisam incluir eficiência de tokens como métrica.

O futuro dos agentes de IA não é só torná-los mais inteligentes. É torná-los menos esbanjadores. E dado que o processamento semanal de tokens já bateu 27 trilhões, esse futuro precisa chegar rápido.

Se eu fosse apostar, diria que a próxima grande inovação em IA não vai ser um modelo maior ou mais capaz. Vai ser um modelo que faz o mesmo trabalho com 10x menos tokens. E quem resolver isso primeiro vai dominar o mercado de ferramentas de desenvolvimento por pelo menos uma década.

—

Fonte de inspiração: Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering — paper em destaque no Hacker News

Shopping cart

Recent Posts

Postgres para Startups: 9 Erros

GPT-5.6 Escapou do Sandbox, Achou

Google Soltou 3 Geminis de