Shopping cart

Subtotal $0.00

View cartCheckout

Building better devs

TnewsTnews
  • Home
  • IA
  • DeepSeek V4 Chegou: 1M de Contexto, Open Source e 10x Mais Barato que GPT-5.5
IA

DeepSeek V4 Chegou: 1M de Contexto, Open Source e 10x Mais Barato que GPT-5.5

Email : 16

O modelo de IA que ninguém esperava ver tão cedo acaba de mudar todas as regras do jogo

Eu acordei hoje, abri o Hacker News e a primeira coisa que vi foi “DeepSeek v4” com mais de mil pontos. A reação da comunidade é unânime: a DeepSeek fez de novo. E dessa vez, a diferença de preço é tão absurda que fica difícil justificar pagar pelo GPT-5.5 em muitos cenários.

O DeepSeek V4 chegou em duas versões — o V4-Pro com 1,6 trilhão de parâmetros e o V4-Flash com 284 bilhões — ambos com contexto nativo de 1 milhão de tokens, código aberto via Hugging Face e preços que fazem os modelos da OpenAI e da Anthropic parecerem artigos de luxo.

Mas não se engane pensando que é “barato porque é ruim”. O V4-Pro alcançou 80,6% no SWE-Bench Verified, ficando a 0,2 pontos do Claude Opus 4.6. No Codeforces, o modo Max atingiu rating 3.206 — o que coloca a IA na 23ª posição entre competidores humanos.

Vamos destrinchar tudo o que importa.

A arquitetura por trás do monstro de 1,6T parâmetros

A DeepSeek não simplesmente empilhou mais parâmetros no modelo anterior. O V4 traz três inovações arquitetônicas que explicam como eles conseguiram escalar sem explodir o custo de inferência.

Atenção Híbrida: CSA + HCA

O mecanismo de atenção padrão dos transformers é um gargalo conhecido. Quanto maior o contexto, mais memória e compute você precisa — é uma relação quadrática que torna contextos longos proibitivamente caros.

O DeepSeek V4 resolve isso com uma abordagem híbrida que intercala dois tipos de atenção:

  • Compressed Sparse Attention (CSA) com taxa de compressão 4 — faz buscas precisas em partes específicas do contexto
  • Heavily Compressed Attention (HCA) com taxa de compressão 128 — mantém uma visão ampla e comprimida de todo o contexto

Na prática, o V4-Pro operando com 1 milhão de tokens usa apenas 27% dos FLOPs e 10% do cache KV comparado ao V3.2. O Flash é ainda mais eficiente: 10% dos FLOPs e 7% do KV cache. Isso é uma redução brutal que viabiliza contextos longos em produção sem precisar de um datacenter inteiro.

Muon Optimizer: adeus AdamW

Outra mudança significativa: o V4 substitui o AdamW — que é praticamente o padrão da indústria desde 2019 — pelo Muon optimizer para a maioria dos parâmetros. O AdamW é mantido apenas para embeddings, cabeças de predição e normalização.

O Muon oferece convergência mais rápida na escala de trilhões de parâmetros. É o tipo de decisão que parece simples no paper mas exige meses de experimentação para validar.

Manifold-Constrained Hyper-Connections

O terceiro componente é o que eles chamam de mHC (Manifold-Constrained Hyper-Connections) — conexões residuais aprimoradas projetadas para manter estabilidade em redes extremamente profundas. O V4-Pro tem 61 camadas; sem esse tipo de técnica, o treinamento simplesmente diverge.

Os números que importam: benchmarks lado a lado

Chega de teoria. Aqui está como o DeepSeek V4-Pro-Max (modo de esforço máximo de raciocínio) se compara com os modelos fechados:

BenchmarkDeepSeek V4-Pro-MaxClaude Opus 4.6GPT-5.5Gemini 3.1 Pro
SWE-Bench Verified80,6%80,8%~82%
Codeforces Rating3.206~2.800~3.100
MMLU-Pro87,591,0
HLE (Hard)37,7%
CorpusQA (1M tokens)83,5%71,7%53,8%
Terminal Bench 2.067,9%82,7%

Alguns pontos que saltam aos olhos:

O V4 domina em contexto longo. No CorpusQA com 1 milhão de tokens, ele bate o Claude Opus 4.6 por mais de 10 pontos e o Gemini 3.1 Pro por quase 30. Isso não é marginal — é uma diferença de geração.

Em coding competitivo, o rating de 3.206 no Codeforces é excepcional para um modelo open source. Pra colocar em perspectiva: isso é nível Grandmaster, melhor que 99,9% dos programadores humanos na plataforma.

A fraqueza aparece em knowledge benchmarks como o MMLU-Pro (87,5 vs 91,0 do Gemini) e no Terminal Bench 2.0, onde o GPT-5.5 ainda lidera com folga. Ou seja, pra tarefas agênticas complexas, os modelos fechados ainda têm vantagem.

O preço que muda o cálculo inteiro

Aqui é onde a coisa fica realmente interessante. A tabela de preços coloca tudo em perspectiva:

ModeloInput (por 1M tokens)Output (por 1M tokens)
DeepSeek V4-Flash$0,14$0,28
DeepSeek V4-Pro$1,74$3,48
GPT-5.5$5,00$30,00
Claude Opus 4.7$5,00$25,00

O V4-Flash custa 35x menos que o GPT-5.5 no input e 107x menos no output. Mesmo o V4-Pro, que compete diretamente com os modelos frontier, custa 3x menos no input e quase 9x menos no output.

Se você está rodando um pipeline de RAG que processa milhares de documentos por dia, ou um agente que faz dezenas de chamadas por tarefa, essa diferença não é um desconto — é a diferença entre viabilidade econômica e inviabilidade.

Eu já vi startups mudarem toda a stack de IA por menos que isso.

Treinado em chips Huawei: a independência tecnológica

Um detalhe que passou despercebido na cobertura mainstream mas que tem implicações enormes: a Huawei confirmou que os chips Ascend 950 suportam nativamente o deployment do V4. A DeepSeek treinou o modelo inteiro em hardware chinês, sem depender de GPUs da NVIDIA.

Isso é significativo por dois motivos técnicos:

  1. Prova que o ecossistema de chips chineses amadureceu — treinar um modelo de 1,6T parâmetros em 33 trilhões de tokens não é algo trivial em qualquer hardware
  2. Remove a dependência de export controls — a DeepSeek não precisa mais se preocupar com restrições de acesso a H100s ou A100s

Para desenvolvedores, isso significa que o DeepSeek V4 pode ser deployado em infraestrutura que não depende da NVIDIA, abrindo opções de hosting em regiões onde GPUs são restritas ou caras.

Open Source de verdade: MIT License e pesos abertos

Diferente de muitos “open source” da indústria (olhando pra você, Meta), o DeepSeek V4 vem com licença MIT — a mais permissiva possível. Você pode:

  • Usar comercialmente sem restrições
  • Modificar a arquitetura
  • Fine-tunar para seu domínio específico
  • Redistribuir derivados

Os pesos estão no Hugging Face: o V4-Pro ocupa 865GB e o V4-Flash 160GB. Em termos práticos, o Flash quantizado em INT8 cabe em 2x RTX 4090 (48GB VRAM total), e em INT4 roda numa única RTX 5090.

# Baixar o modelo Flash quantizado
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash-GPTQ-INT4

# Rodar localmente com vLLM
python -m vllm.entrypoints.openai.api_server \
    --model deepseek-ai/DeepSeek-V4-Flash-GPTQ-INT4 \
    --tensor-parallel-size 1 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.95

Ter um modelo com 80%+ no SWE-Bench rodando localmente numa GPU de consumidor é algo que parecia ficção científica há dois anos.

Os três modos de raciocínio: Non-Think, High e Max

O V4 expõe três níveis de esforço de raciocínio que você configura por request:

  • Non-Think: resposta direta, sem chain-of-thought. Rápido e barato, ideal para tarefas simples
  • High: raciocínio estruturado com thinking tokens. O modo padrão para a maioria das tarefas
  • Max: raciocínio extensivo com múltiplas cadeias de pensamento. Para problemas realmente difíceis

A diferença é dramática. No benchmark HLE (problemas difíceis de nível expert), o V4-Pro vai de 7,7% no modo Non-Think para 37,7% no modo Max — quase 5x melhor no mesmo modelo, só mudando o modo de raciocínio.

from openai import OpenAI

client = OpenAI(
    api_key="sua-api-key",
    base_url="https://api.deepseek.com"
)

# Modo Max para problemas difíceis
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Prove that there are infinitely many primes."}
    ],
    extra_body={
        "thinking": {
            "type": "enabled",
            "budget_tokens": 32768
        }
    }
)

A API é compatível com os formatos da OpenAI e da Anthropic, então migrar de um provedor para o DeepSeek é questão de trocar a URL base e a chave.

O treinamento: 33 trilhões de tokens e técnicas inéditas

O processo de treinamento do V4 revela decisões de engenharia fascinantes:

Progressão de contexto: o treinamento começou com sequências de 4K tokens, depois 16K, 64K e finalmente 1M. A atenção densa rodou pelos primeiros 1 trilhão de tokens antes da atenção esparsa ser ativada a partir do estágio de 64K.

Batch sizes massivos: o V4-Pro chegou a processar 94,4 milhões de tokens por batch — isso é mais texto do que a maioria dos livros contém, processado de uma só vez.

Post-training inovador: em vez de um estágio único de RLHF como a maioria dos labs faz, a DeepSeek treinou especialistas de domínio separados (matemática, código, agentes, instruction-following) via SFT e GRPO. O modelo final unificado aprende por On-Policy Distillation, otimizando a reverse KL loss contra os professores especialistas.

Estabilidade: duas técnicas novas mantêm o treinamento estável em escala:

  • Anticipatory Routing: desacopla as atualizações do backbone e do router durante picos de instabilidade
  • SwiGLU Clamping: limita os componentes de ativação para evitar explosão de gradientes

Onde o V4 ainda perde

Seria desonesto pintar o V4 como superior em tudo. Existem gaps reais:

Knowledge geral: o MMLU-Pro de 87,5 fica 3,5 pontos atrás do Gemini 3.1 Pro. Em tarefas que dependem de conhecimento factual amplo, os modelos do Google ainda lideram.

Tarefas agênticas complexas: no Terminal Bench 2.0, o GPT-5.5 marca 82,7% contra 67,9% do V4. Se seu caso de uso envolve agentes que executam sequências longas de ações autônomas, o GPT-5.5 ainda é a melhor escolha.

Degradação em contexto ultra-longo: embora o V4 suporte 1M tokens, a acurácia cai acima de 128K tokens, chegando a 66% em retrieval tasks no limite de 1M. O contexto de 1M é real, mas não é mágico — quanto mais longe a informação está, mais difícil de recuperar.

Sem multimodal: o V4 é text-only. Se você precisa processar imagens ou vídeo, vai ter que esperar ou usar outro modelo.

Migração e compatibilidade: o que muda na prática

Se você já usa a API da DeepSeek, alguns pontos importantes:

  • Os endpoints antigos (deepseek-chat e deepseek-reasoner) serão descontinuados em 24 de julho de 2026
  • Os novos endpoints são deepseek-v4-pro e deepseek-v4-flash
  • A API mantém compatibilidade com os formatos OpenAI e Anthropic
  • O modo “Expert” no chat.deepseek.com já usa o V4
# Testar a API do V4 rapidamente
curl https://api.deepseek.com/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Explique hybrid attention em 3 frases"}
    ]
  }'

Quem deveria migrar para o DeepSeek V4 agora?

Nem todo mundo precisa trocar. Aqui vai minha análise honesta:

Migre já se:

  • Seu custo com API de LLM é significativo e o modelo atual é “bom o suficiente” (não precisa ser o melhor)
  • Você processa grandes volumes de texto (RAG, sumarização, análise de documentos longos)
  • Quer rodar modelos localmente por questões de privacidade ou latência
  • Precisa de contexto longo de verdade (>128K tokens) sem pagar uma fortuna

Espere se:

  • Seu pipeline depende de capacidades agênticas avançadas (o GPT-5.5 ainda lidera)
  • Precisa de multimodal (imagem, vídeo)
  • Está em um domínio onde knowledge factual é crítico (medicina, jurídico) e precisa do melhor MMLU

Fique onde está se:

  • Já tem fine-tunings e integrações profundas com OpenAI ou Anthropic
  • O custo atual não é um problema
  • Precisa de SLAs e suporte enterprise (a DeepSeek ainda é uma startup chinesa)

O que isso significa para a corrida de IA

O DeepSeek V4 consolida uma tendência que começou com o V3: modelos open source de frontier não são mais uma geração atrás. A diferença entre o V4-Pro e o GPT-5.5 é de meses, não de anos — e em algumas tarefas específicas como contexto longo, o modelo chinês já é melhor.

O fato de tudo isso rodar em hardware Huawei e custar uma fração dos modelos americanos levanta uma questão que a indústria vai ter que responder: se o custo do compute é o principal diferencial, o que acontece quando alguém oferece compute equivalente por 10x menos?

A resposta da OpenAI e da Anthropic provavelmente não vai ser baixar preços — vai ser investir ainda mais em capacidades que os modelos open source ainda não alcançaram, como agentes autônomos confiáveis e reasoning de nível PhD em domínios especializados.

Enquanto isso, pra quem constrói produtos com IA, o DeepSeek V4 é aquele momento em que você abre a planilha de custos, olha para os números novos e percebe que dá pra fazer muito mais com o mesmo orçamento. E às vezes, é isso que muda tudo.


Fonte de inspiração: DeepSeek V4 Preview Release — DeepSeek API Docs

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts