Claude Sonnet 5: Desempenho de Opus por Metade do Preco — Vale Migrar?
Ontem a Anthropic lancou o Claude Sonnet 5, e o numero que mais chamou atencao nao foi o benchmark de reasoning — foi o de terminal. 80.4% no Terminal-Bench 2.1. Opus 4.8 fez 74.6%. Um Sonnet batendo o Opus num benchmark de codigo. Isso nao tinha acontecido antes.
Pra quem acompanha o espaco de LLMs, essa virada de chave e significativa. Durante anos o modelo de precificacao em duas camadas — “Sonnet para tarefas normais, Opus para coisas serias” — fazia sentido. Agora comeca a fazer menos.
O Que Mudou de Verdade no Sonnet 5
A Anthropic posicionou o Sonnet 5 como “o modelo mais agentico da linha Sonnet”. Mas agentico e uma palavra que todo laboratorio usa pra tudo, entao vamos aos numeros concretos.
| Benchmark | Sonnet 5 | Opus 4.8 | Sonnet 4.6 | |
|---|---|---|---|---|
| ———– | ———- | ———- | ———— | |
| SWE-bench Pro | 63,2% | 69,2% | ~55% | |
| OSWorld-Verified | 81,2% | 83,4% | ~72% | |
| BrowseComp | 84,7% | — | — | |
| Terminal-Bench 2.1 | 80,4% | 74,6% | ~65% | |
| GDPval-AA v2 (Elo) | 1.618 | 1.615 | — |
No SWE-bench Pro — que testa resolucao de issues reais do GitHub — o Sonnet 5 ficou 6 pontos atras do Opus 4.8. Numa avaliacao de code review ou debugging de producao, essa diferenca existe mas nao e dramatica.
No Terminal-Bench, a historia inverte. O modelo do nivel intermediario superou o topo de linha. Isso tem implicacoes praticas enormes pra quem usa agentes de terminal — automacao de deploy, scripts de infraestrutura, pipelines de CI.
O Novo Tokenizer e o Detalhe que Todo Dev Precisa Saber
O Sonnet 5 vem com um tokenizer novo. E aqui tem um ponto de atencao que a Anthropic enterrou no meio do anuncio: o mesmo input pode gerar de 1,0 a 1,35x mais tokens do que nos modelos anteriores.
Na pratica, um prompt que custava 1.000 tokens no Sonnet 4.6 pode custar ate 1.350 tokens no Sonnet 5. A Anthropic ajustou o preco introdutorio pra compensar isso, mas quando o preco padrao entrar em setembro, voce precisa ter refatorado seus prompts ou o custo real pode te surpreender.
A licao: nao migre cegamente. Meca o token count dos seus inputs mais comuns antes de mudar.
Preco: A Conta que Importa Pra Quem Tem API em Producao
Vamos aos numeros diretos.
Preco introdutorio (ate 31 de agosto de 2026):
- Input: $2 por milhao de tokens
- Output: $10 por milhao de tokens
Preco padrao (a partir de setembro):
- Input: $3 por milhao de tokens
- Output: $15 por milhao de tokens
Opus 4.8 pra comparar:
- Input: $5 por milhao de tokens
- Output: $25 por milhao de tokens
Com o preco padrao do Sonnet 5, voce paga 40% menos por input e 40% menos por output em relacao ao Opus 4.8. Se sua aplicacao processa volumes altos, a diferenca e relevante. Um sistema com 10 milhoes de tokens de output por mes economiza $100 por mes so trocando de modelo — sem perda significativa de qualidade na maioria dos casos.
O problema, claro, e o tokenizer novo. Faca as contas com os seus dados antes de assumir que vai economizar.
Agentic: O Que Isso Significa Na Pratica
“Modelo agentico” virou buzzword, mas o Sonnet 5 tem caracteristicas concretas que justificam o rotulo:
Melhor conclusao de tarefas multi-step. Versoes anteriores tinham tendencia a parar no meio de tarefas complexas — pedir confirmacao humana quando nao precisava, ou simplesmente encerrar antes de terminar. O Sonnet 5 tem auto-verificacao melhorada e taxa menor de interrupcoes desnecessarias.
Resistencia a prompt injection. Isso importa muito pra agentes que processam conteudo externo — emails, paginas web, resultados de busca. O modelo e mais resistente a tentativas de redirecionar seu comportamento via conteudo do input.
Menor sycophancy. O modelo concorda menos com voce quando voce esta errado. Parece obvio, mas e um problema serio em LLMs — o modelo tende a validar o que o usuario diz mesmo quando esta incorreto. O Sonnet 5 melhorou isso consideravelmente.
Eu testei em alguns cenarios de codigo e a diferenca em tarefas que envolvem multiplos arquivos e perceptivel. Menos necessidade de re-prompting, mais tarefas concluidas de uma vez.
Vale Migrar do Opus 4.8?
Depende do seu caso de uso. A resposta honesta:
Migre se:
- Voce usa principalmente agentes de terminal, automacao de infra ou CI/CD
- Seu volume de tokens justifica a economia (e voce fez a conta com o novo tokenizer)
- Suas tarefas sao resolucao de codigo, debugging, ou browser automation — onde o Sonnet 5 esta muito perto do Opus
Fique no Opus se:
- Voce precisa do topo absoluto em raciocinio complexo (SWE-bench Pro, onde o Opus ainda lidera por 6 pontos)
- Voce tem pipelines de producao criticos que nao tem margem pra retestar comportamento
- Seu custo com tokens e pequeno o suficiente que a economia nao justifica o risco de migracao
A janela introdutoria ate agosto 2026 e uma boa oportunidade pra testar sem comprometer orcamento. Use esse periodo pra benchmark no seu proprio workload — que e o unico numero que realmente importa.
O Padrao Que Esta Se Formando
O que o Sonnet 5 representa vai alem do modelo em si. E a terceira vez consecutiva que a Anthropic lanca um Sonnet que briga com o Opus da geracao anterior. Isso nao e acidente — e a trajetoria de qualquer tecnologia madura.
Em algum momento — talvez Sonnet 6, talvez antes — a distincao entre camadas vai deixar de fazer sentido. O modelo “intermediario” vai ser simplesmente o modelo. O Opus vai existir pra casos que precisam de capacidade extrema, mas vai ser uma fracao do uso total.
Isso e bom pro ecossistema. Menos custo, mais acesso, mais projetos viaveis que antes nao fechavam a conta de API.
Se voce ainda nao testou agentes com o Claude API, este pode ser o momento. Com $2 por milhao de tokens de input, o custo de experimento caiu bastante. E a distancia entre “eu queria testar isso” e “eu estou testando isso” ficou bem menor.
—
Fonte de inspiracao: Anthropic launches Claude Sonnet 5 as a cheaper way to run agents (TechCrunch, 30/06/2026)













