Claude Opus 4.8 Saiu Hoje: 88,6% no SWE-bench e Centenas de Agentes Trabalhando em Paralelo

A Anthropic acordou cedo hoje — e fez barulho. Enquanto muita gente ainda debatia se o GPT-5.5 era realmente melhor que o Claude, a empresa simplesmente soltou o Claude Opus 4.8 e deixou os benchmarks falarem. E eles falam alto.

O modelo já está disponível na API do Claude, Amazon Bedrock, Google Vertex AI e Microsoft Foundry. Mesmo preço do Opus 4.7. Mas com uma lista de melhorias que faz o antecessor parecer rascunho.

SWE-bench Pro: 69,2% — E o GPT-5.5 Ficou em 58,6%

Vamos direto ao que importa: código. No SWE-bench Pro — o benchmark que simula bugs reais em projetos open source — o Opus 4.8 marcou 69,2%, contra 64,3% do Opus 4.7 e 58,6% do GPT-5.5. Isso é uma diferença de mais de 10 pontos percentuais contra o modelo da OpenAI.

No SWE-bench Verified (a versão “facilitada”), o número subiu para 88,6% — um salto discreto sobre os 87,6% do antecessor, mas que mantém o Claude isolado no topo.

Mas calma. Nem tudo é flor.

No Terminal-Bench 2.1, que mede performance em tarefas puramente baseadas em terminal, o GPT-5.5 ainda vence: 78,2% contra 74,6% do Opus 4.8. Se o seu workflow é 100% CLI, a OpenAI ainda tem a vantagem — por enquanto.

Aqui vai o resumo completo dos benchmarks:

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Verified	88,6%	87,6%	~88%	—
SWE-bench Pro	69,2%	64,3%	58,6%	54,2%
Terminal-Bench 2.1	74,6%	66,1%	78,2%	—
OSWorld-Verified	83,4%	82,3%	78,7%	76,2%
USAMO 2026 (matemática)	96,7%	69,3%	—	—
GraphWalks F1 (1M tokens)	68,1%	40,3%	—	—
GDPval-AA (Elo)	1890	1753	1769	—

Dois números saltam aos olhos. Primeiro, o USAMO 2026: de 69,3% para 96,7% — o maior salto em matemática de toda a linha Opus. Segundo, o GraphWalks com 1M de contexto: de 40,3% para 68,1%. Isso não é evolução incremental, é outro patamar.

O score GDPval-AA de 1890 contra 1769 do GPT-5.5 implica uma taxa de vitória de ~67% em tarefas head-to-head. Traduzindo: se você colocar os dois modelos para resolver o mesmo problema, o Opus 4.8 ganha em dois de cada três.

Dynamic Workflows: Centenas de Subagentes em Uma Sessão

A feature mais chamativa desse lançamento não é um benchmark — é uma arquitetura.

Os Dynamic Workflows permitem que o Opus 4.8 planeje uma tarefa complexa, distribua o trabalho para centenas de subagentes paralelos, monitore os resultados e verifique tudo antes de entregar a resposta final. Tudo em uma única sessão.

Na prática, isso significa que você pode pedir ao Claude Code para migrar um codebase inteiro — centenas de milhares de linhas — e ele vai dividir o trabalho, rodar cada parte em paralelo e usar a suite de testes existente como sinal de sucesso.


# Exemplo conceitual de Dynamic Workflow no Claude Code
# Uma instrução, centenas de agentes trabalhando
claude "Migre todo o codebase de JavaScript para TypeScript,
        mantendo todos os testes passando"

Essa feature está em research preview e disponível no Claude Code para planos Enterprise, Team e Max. Não é para hobbyistas — é para times que precisam escalar trabalho de engenharia.

Eu já vi ferramentas que prometem “automatizar refatoração em escala”, mas nenhuma com a capacidade de verificar o próprio trabalho usando testes existentes. O detalhe de usar a test suite como critério de sucesso mostra que a Anthropic entendeu algo fundamental: não adianta gerar código se você não pode validar que ele funciona.

O Modelo Mais Honesto — E Isso É Mais Importante do que Parece

A Anthropic chamou o Opus 4.8 de “o modelo mais honesto” que já produziram. E antes que você revire os olhos achando que é marketing, tem números por trás.

O modelo é aproximadamente 4x menos propenso a deixar defeitos no código passarem sem sinalizar. Se o Opus 4.7 escrevia um bug e seguia em frente como se nada tivesse acontecido, o 4.8 para, avisa que não tem certeza e pede que você verifique.

“Opus 4.8 tells you when it is unsure and catches its own bugs instead of declaring victory early.” — Anthropic

Isso muda o jogo para quem usa IA para code review ou pair programming. Um modelo que mente sobre a qualidade do código é pior do que um modelo que simplesmente erra — porque o primeiro te dá falsa confiança.

O índice de desalinhamento caiu de 2,5 (Opus 4.7) para 1,9 — efetivamente empatado com o Claude Mythos Preview, que é o modelo mais restrito da Anthropic.

Tem um lado B nessa honestidade, porém. Segundo relatos de quem já testou, o Opus 4.8 é “mais conservador em suas afirmações” e “mais propenso a dizer ‘não tenho certeza'”. Se você vem do GPT-5.5, que responde tudo com confiança inabalável (mesmo quando está errado), pode estranhar. Mas eu pessoalmente prefiro um modelo que admite dúvida a um que inventa certeza.

Effort Control: Escolha Quanta Energia o Claude Gasta

Outra novidade prática é o Effort Control — um enum que permite escolher quanto o modelo vai “pensar” antes de responder.

Nível	Uso ideal	Custo relativo
Low	Perguntas simples, triagem rápida	Mínimo
Medium	Tarefas equilibradas	Moderado
High (padrão)	Qualidade ótima para a maioria das tarefas	Normal
xHigh	Tarefas complexas (Claude Code)	Alto
Max	Problemas muito difíceis, workflows longos	Máximo

O High continua sendo o padrão. Mas agora você pode escalar para Max quando precisa resolver um problema de concorrência num sistema distribuído, ou descer para Low quando quer só classificar e-mails.

O detalhe técnico interessante: o Opus 4.8 gasta menos tokens de thinking no mesmo nível de esforço que o 4.7. Ele decide, a cada turno, se precisa pensar ou não. Isso significa que mesmo sem mudar nada na configuração, sua conta no final do mês pode ser menor.

Preço: Manteve — E o Fast Mode Ficou 3x Mais Barato

Aqui a Anthropic jogou esperto. O preço padrão continua idêntico ao do Opus 4.7:

Standard: $5 por 1M de tokens de entrada, $25 por 1M de saída
Fast Mode: $10/$50 — agora 3x mais barato que o modo rápido do modelo anterior
Batch API: $2,50/$12,50 (50% de desconto)
Cache read: ~$0,50 por 1M — economia de 90% em leituras de cache

O Fast Mode roda a 2,5x a velocidade de saída do modo padrão. Se você precisa de respostas rápidas para um chatbot ou pipeline de CI/CD, isso mudou de “caro demais para considerar” para “vale a pena testar”.

Mas, olha, não vamos fingir que é barato. O DeepSeek V4-Pro é 12x mais barato na entrada e 29x mais barato na saída. Se custo é seu principal critério, o Claude não é para você. Mas se performance em tarefas agênticas é o que importa — e os benchmarks mostram que é — o preço se justifica.

Melhorias Técnicas Escondidas

Além dos headlines, tem melhorias que passam despercebidas mas fazem diferença no dia a dia:

Adaptive Thinking

O modelo decide a cada turno se precisa usar tokens de thinking ou não. Isso corrige um problema do Opus 4.7, que às vezes gastava thinking tokens desnecessariamente em perguntas simples.

Tool Triggering Corrigido

O Opus 4.7 tinha um bug irritante: às vezes ele simplesmente pulava uma chamada de ferramenta que a tarefa exigia. Tipo, você pedia para buscar dados de uma API e ele respondia baseado no que “achava” sem fazer a requisição. Isso foi corrigido no 4.8.

Prompt Caching Melhorado

O comprimento mínimo para caching foi reduzido para 1.024 tokens (era maior). Isso significa que mais das suas conversas podem aproveitar cache, reduzindo custos em interações longas.

System Entries na Messages API

Agora você pode inserir instruções do sistema no meio do array de mensagens, não apenas no início. Isso permite atualizar instruções mid-task sem quebrar o prompt cache. Para quem constrói agentes, isso é ouro.


from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Analise este codebase"},
        {"role": "assistant", "content": "Vou começar pela estrutura..."},
        # Nova instrução mid-conversation
        {"role": "system", "content": "Foque apenas em vulnerabilidades de segurança"},
        {"role": "user", "content": "Continue a análise"}
    ]
)

Contexto de 1M de Tokens — Com Uma Ressalva

O Opus 4.8 mantém a janela de contexto de 1 milhão de tokens na API da Anthropic, Bedrock e Vertex. Mas no Microsoft Foundry, o limite no lançamento é de 200K tokens.

O salto no GraphWalks F1 (de 40,3% para 68,1% com 1M tokens) mostra que o modelo não só aceita contextos longos — ele os usa de forma mais eficiente. Contexto longo sem compreensão é só desperdício de tokens.

Segurança: ASL-3 e Alinhamento Nível Mythos

O modelo opera sob as mesmas proteções ASL-3 da linha Opus 4.x. O índice de desalinhamento caiu para 1,9, efetivamente empatado com o Mythos Preview — que é o modelo mais alinhado da Anthropic.

Traduzindo: a Anthropic conseguiu aumentar a capacidade sem aumentar o risco — algo que ficou evidente quando soltaram uma IA em 1.000 projetos open source. Isso é raro. Normalmente, modelos mais capazes são mais difíceis de alinhar. O fato do Opus 4.8 manter métricas de segurança no nível do Mythos, enquanto melhora em quase todos os benchmarks, sugere que os investimentos em interpretabilidade e alinhamento da Anthropic estão dando resultado.

O Que Vem Depois: Mythos e Modelos Baratos

A Anthropic não se limitou a anunciar o Opus 4.8. No blog post, eles indicaram dois movimentos futuros:

Modelos mais baratos com capacidade comparável ao Opus — provavelmente na linha Sonnet ou Haiku
Modelos Mythos (classe acima do Opus) em questão de semanas, após desenvolverem salvaguardas de cybersegurança

Se a Anthropic realmente soltar um modelo Mythos público com capacidades superiores ao Opus, o cenário competitivo muda completamente — especialmente agora que Karpathy trocou a OpenAI pela Anthropic. Hoje, a corrida é entre Opus e GPT-5.5. Amanhã, pode ser entre Mythos e o que a OpenAI tiver para oferecer.

Na Prática: O Que Muda Para Devs Brasileiros

Se você trabalha com desenvolvimento no Brasil — seja em startup, consultoria ou freelance — o Opus 4.8 muda algumas coisas concretas.

Para quem já usa o Claude Code como copiloto de desenvolvimento, a correção do tool triggering sozinha já justifica a atualização. Perder uma chamada de API porque o modelo “decidiu” que sabia a resposta era frustrante e gerava bugs silenciosos. Isso acabou.

Para times que estão construindo produtos com agentes de IA, a possibilidade de inserir system entries mid-conversation abre um padrão de design novo: agentes que mudam de comportamento conforme avançam numa pipeline, sem perder o cache de contexto. Antes, mudar uma instrução no meio da conversa significava reprocessar tudo do zero.

E o Fast Mode a 3x menos? Se você roda um SaaS que usa Claude para gerar relatórios, responder tickets ou classificar documentos, essa redução de preço pode ser a diferença entre “inviável” e “lucrativo”. Faça as contas: se antes você gastava R$ 15.000/mês com Fast Mode, agora são R$ 5.000. Isso é um dev júnior a menos no custo operacional.

Quem Deveria Migrar — E Quem Não

Migre agora se:

Você usa Opus 4.7 e quer melhorias incrementais sem mudar nada
Seu workflow depende de tarefas agênticas (computer use, code generation)
Você precisa do Fast Mode e o preço anterior era proibitivo
Honestidade do modelo é crítica (code review, auditoria)

Espere se:

Seu pipeline é primariamente baseado em terminal (GPT-5.5 ainda vence aqui)
Custo é o fator principal (DeepSeek V4-Pro é drasticamente mais barato)
Você precisa de Dynamic Workflows mas não tem plano Enterprise/Team/Max

Cuidado com:

Regressão de prompt — o modelo é mais conservador, então prompts muito vagos podem gerar respostas com mais ressalvas
O 4.8 usa ~30% mais turnos que o GPT-5.5 para completar a mesma tarefa, o que pode aumentar custos em pipelines com muitas interações

Onde o Claude Opus 4.8 Quer Chegar

O que a Anthropic está construindo não é apenas um modelo melhor — é um sistema operacional de agentes. Dynamic Workflows, Effort Control, system entries mid-conversation… tudo aponta para um futuro onde você não pede para a IA fazer uma tarefa, mas delega projetos inteiros.

A questão não é mais “qual modelo escreve código melhor”. É qual ecossistema permite que você escale trabalho intelectual da forma mais confiável.

E com 88,6% no SWE-bench, 4x mais honestidade e centenas de subagentes rodando em paralelo, o Opus 4.8 acabou de colocar a barra num lugar que vai ser difícil de alcançar.

Fonte de inspiração: Claude Opus 4.8 — Anthropic

Shopping cart

Recent Posts

Cursor Tem um 0day Crítico

git history: O Novo Comando

Apple SpeechAnalyzer Humilha o Whisper: