Qwen3.6: A IA de 3B Parâmetros Ativos que Destrói Modelos 10x Maiores

A Alibaba acabou de soltar uma bomba no mundo da IA open source — e dessa vez, os números não mentem.

O Qwen3.6-35B-A3B é um modelo com 35 bilhões de parâmetros totais, mas que ativa apenas 3 bilhões durante a inferência. E mesmo assim, está destruindo modelos densos que são 10 vezes maiores em tarefas de código e raciocínio. Não é exagero: no SWE-bench Verified, ele marca 73.4 pontos contra 52.0 do Gemma4-31B do Google, um modelo que precisa de todos os seus 31 bilhões de parâmetros o tempo todo.

Eu acompanho a corrida dos modelos open source há anos, e posso dizer: esse é o momento em que a eficiência deixou de ser uma promessa e virou realidade — algo que já vimos com modelos de 1-bit rodando em 1GB de RAM.

O que é Mixture of Experts (e por que isso importa agora)

Antes de entrar nos benchmarks, vale entender o mecanismo que faz o Qwen3.6 funcionar tão bem com tão pouco.

Mixture of Experts (MoE) é uma arquitetura onde o modelo tem centenas de “especialistas” — sub-redes dentro da rede principal — mas só ativa uma fração deles para cada token processado. É como ter uma equipe de 256 engenheiros, mas só chamar 9 para resolver cada problema específico.

No caso do Qwen3.6-35B-A3B:

Especificação	Valor
—	—
Parâmetros totais	35 bilhões
Parâmetros ativos por inferência	~3 bilhões
Total de especialistas	256
Especialistas ativos	8 roteados + 1 compartilhado = 9
Dimensão intermediária por especialista	512
Camadas do transformer	40
Contexto nativo	262.144 tokens
Contexto estendido (YaRN)	até 1.010.000 tokens

A sacada aqui é que cada token de entrada passa por um roteador que decide quais 8 especialistas (mais 1 compartilhado) são os mais relevantes para aquele contexto. Os outros 247 especialistas ficam dormindo, economizando memória e computação.

Na prática? Você roda um modelo com a inteligência de 35B, mas com o custo computacional de 3B. Isso muda completamente a equação de custo para quem quer rodar IA localmente ou em produção.

Gated Delta Networks: a arquitetura híbrida que ninguém esperava

O Qwen3.6 não é um transformer convencional. Ele usa uma arquitetura chamada Gated Delta Networks, que mistura atenção linear com atenção completa em um padrão alternado.

A estrutura de cada bloco de 4 camadas segue essa fórmula:


3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)

Traduzindo: para cada 4 camadas, 3 usam atenção linear (mais rápida e mais eficiente em memória) e apenas 1 usa atenção completa (mais expressiva, mas mais cara). São 10 repetições desse bloco, totalizando as 40 camadas.

Por que isso é inteligente? Atenção linear escala de forma sub-quadrática com o tamanho do contexto, enquanto a atenção completa escala quadraticamente. Ao usar atenção completa apenas em 25% das camadas, o modelo mantém a capacidade de capturar dependências de longo alcance sem o custo proibitivo de fazê-lo em todas as camadas.

Na camada de Gated DeltaNet, temos:

32 cabeças de atenção linear para valores (V)
16 cabeças para queries e keys (QK)
Dimensão de cada cabeça: 128

Na camada de Gated Attention (a cada 4):

16 cabeças de query (Q)
2 cabeças de key-value (KV) — o famoso Grouped Query Attention
Dimensão de cada cabeça: 256
Rotary Position Embedding com dimensão 64

Essa combinação é o que permite ao modelo processar contextos de 262K tokens nativamente — e até 1 milhão com scaling via YaRN — sem explodir a conta de VRAM.

Os benchmarks que importam (com números reais)

Chega de teoria. O bicho pega quando olhamos os benchmarks, especialmente em tarefas de coding agent — que é onde o Qwen3.6 realmente brilha.

Coding Agent

Benchmark	Qwen3.6-35B-A3B	Gemma4-31B
—	—	—
SWE-bench Verified	73.4	52.0
SWE-bench Pro	49.5	35.7
SWE-bench Multilingual	67.2	51.7
Terminal-Bench 2.0	51.5	42.9

No SWE-bench Verified — que testa a capacidade de resolver issues reais de repositórios open source — o Qwen3.6 tem uma vantagem de 21.4 pontos sobre o Gemma4-31B. Isso não é marginal. É demolição.

O Terminal-Bench 2.0, que avalia tarefas de terminal em cenários agênticos (o modelo precisa navegar, executar comandos, debugar), mostra a mesma história: 51.5 contra 42.9.

Raciocínio e Matemática

Benchmark	Score
—	—
AIME 2026	92.7
HMMT Feb 2026	83.6
LiveCodeBench v6	80.4
GPQA Diamond	86.0
MMLU-Pro	85.2

Um score de 92.7 no AIME 2026 — uma competição de matemática de nível olímpico — com apenas 3B de parâmetros ativos é absurdo. Para colocar em perspectiva: modelos densos que precisam de 70B+ parâmetros lutam para atingir esses números.

Visão e Multimodalidade

O Qwen3.6 não é apenas texto. Ele processa imagens e vídeos nativamente:

Benchmark	Score
—	—
MMMU	81.7
RefCOCO (avg)	92.0
RealWorldQA	85.3
VideoMME (com legendas)	86.6

O RefCOCO, que mede inteligência espacial, marca 92.0 — superando o Claude Sonnet 4.5 da Anthropic. Um modelo open source de 3B ativos batendo um dos melhores modelos proprietários em compreensão visual. Deixa isso assentar.

Como rodar o Qwen3.6 localmente

Aqui é onde a coisa fica realmente interessante para quem quer sair da dependência de APIs pagas.

Opção 1: vLLM (recomendado para produção)


# Instalação
pip install vllm>=0.19.0

# Servir o modelo
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

Com tensor parallelism em 8 GPUs, você consegue rodar o modelo com contexto completo de 262K tokens. Mas como ele ativa apenas 3B, a latência é surpreendentemente baixa.

Opção 2: SGLang (melhor throughput)


python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

O SGLang tem uma vantagem interessante: suporte nativo a Multi-Token Prediction, que acelera a geração usando decoding especulativo:


python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

Opção 3: GGUF para hardware mais modesto

Para quem não tem 8 GPUs, a Unsloth já disponibilizou versões GGUF quantizadas no Hugging Face. Com quantização Q4_K_M, o modelo cabe em hardware bem mais acessível — embora com alguma perda de qualidade.


# Via Ollama (quando disponível)
ollama run qwen3.6-35b-a3b

# Via llama.cpp
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
  --ctx-size 8192 \
  --n-gpu-layers 40

Usando como API compatível com OpenAI

Uma vez rodando localmente, a integração é trivial:


from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=[
        {"role": "user", "content": "Refatore essa função para usar async/await"}
    ],
    max_tokens=81920,
    temperature=0.6,  # recomendado para coding
    top_p=0.95,
    extra_body={"top_k": 20}
)

Agentes de código: onde o Qwen3.6 muda o jogo

A real é que benchmarks sintéticos contam só metade da história. O que torna o Qwen3.6 especial é seu desempenho como coding agent — um modelo que não só gera código, mas navega repositórios, lê arquivos, executa testes e resolve problemas de forma autônoma.

O modelo já vem com suporte nativo a tool calling:


# vLLM com tool calling habilitado
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

E se integra nativamente com o framework Qwen-Agent, incluindo suporte a MCP (Model Context Protocol):


from qwen_agent.agents import Assistant

tools = [
    {'mcpServers': {
        "filesystem": {
            "command": "npx",
            "args": ["-y", "@modelcontextprotocol/server-filesystem", "/path/to/repo"]
        }
    }}
]

bot = Assistant(
    llm={'model': 'Qwen3.6-35B-A3B', 'model_server': 'http://localhost:8000/v1'},
    function_list=tools
)

Com MCP, o modelo pode navegar o filesystem, executar comandos, ler documentação — tudo de forma autônoma. É exatamente o tipo de integração que frameworks como Claude Code e Cursor usam internamente, mas agora disponível para qualquer um com hardware suficiente.

Modo Thinking: raciocínio estendido

O Qwen3.6 suporta um “modo de pensamento” onde ele raciocina internamente antes de responder — similar ao que o Claude faz com seus thinking blocks. Você pode ativar ou desativar:


# Com thinking (padrão para tarefas complexas)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": True}
    }
)

# Sem thinking (respostas mais rápidas)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False}
    }
)

Contexto de 1 milhão de tokens (e como ativar)

O contexto nativo de 262K tokens já é generoso, mas o Qwen3.6 vai além. Com YaRN scaling, você estende para mais de 1 milhão de tokens:


VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3.6-35B-A3B \
  --hf-overrides '{"text_config": {"rope_parameters": {
    "rope_type": "yarn",
    "rope_theta": 10000000,
    "factor": 4.0,
    "original_max_position_embeddings": 262144
  }}}' \
  --max-model-len 1010000

1 milhão de tokens equivale a aproximadamente 750.000 palavras — ou cerca de 10 livros técnicos completos. Com 3B de parâmetros ativos. Isso é território que, até pouco tempo atrás, era exclusivo de modelos proprietários como o Gemini.

O elefante na sala: custo vs. performance

Vamos fazer uma conta rápida. Se você usa a API do Claude Sonnet para tarefas de coding agent, está pagando por milhões de tokens de entrada e saída. Com o Qwen3.6 rodando localmente:

Custo de inferência: zero (além da eletricidade e hardware)
Latência: controlável, sem depender de terceiros
Privacidade: seus dados nunca saem do seu servidor
Disponibilidade: sem rate limits, sem downtime de API

O trade-off? Você precisa de hardware. Para rodar o modelo completo em FP16, são necessárias múltiplas GPUs. Mas com quantização GGUF (Q4), o modelo cabe em configurações muito mais modestas — e a versão quantizada ainda mantém a maior parte da qualidade, especialmente para tarefas de código.

Para empresas que processam grandes volumes de código — code review automatizado, geração de testes, migração de bases legadas — a economia pode ser brutal. Estamos falando de modelos que custavam centenas de milhares de dólares por mês em APIs e agora podem rodar em um cluster de GPUs com custo fixo.

Qwen3.6 vs. o predecessor: o salto geracional

O Qwen3.5-35B-A3B, lançado há poucos meses, já era impressionante. Mas o 3.6 mostra que o time da Alibaba/Qwen está iterando rápido:

Frontend workflows melhorados significativamente
Raciocínio a nível de repositório mais fluente e preciso
Suporte multimodal (imagem e vídeo) nativo
Multi-Token Prediction para inferência mais rápida
Melhorias em todas as métricas de coding agent

Não é um bump incremental de versão. É um salto qualitativo que coloca o modelo em outro patamar.

Licença Apache 2.0: a cereja do bolo

Tudo isso sob licença Apache 2.0. Sem restrições comerciais, sem cláusulas de uso aceitável que mudam de um dia para o outro, sem medo de que a Alibaba resolva fechar o código amanhã — como a Meta fez com o Llama. Você pode pegar o modelo, fine-tunar para o seu caso de uso, empacotar em um produto comercial e vender.

Compare com o cenário proprietário: o Claude, o GPT e o Gemini são caixas pretas que podem mudar preços, termos de serviço ou performance a qualquer momento. O Qwen3.6 está no Hugging Face, nos pesos, pronto para ser auditado, modificado e rodado em qualquer infraestrutura.

O que isso significa para o ecossistema de IA

A mensagem do Qwen3.6 é clara: modelos menores e mais eficientes não são mais compromissos — são vantagens competitivas. A era de “quanto maior melhor” está dando espaço para “quanto mais esperto, melhor”. E quando um modelo de 3B ativos empata ou supera modelos de 30B+ em tarefas práticas, a pergunta muda de “qual modelo tem mais parâmetros?” para “qual modelo resolve meu problema de forma mais eficiente?”

Esse é um shift que beneficia todo mundo: pesquisadores com orçamento limitado, startups que não podem pagar $100K/mês em APIs, e empresas que precisam de IA on-premise por questões de compliance.

Quem deveria prestar atenção

Se você se encaixa em alguma dessas categorias, o Qwen3.6 merece sua atenção imediata:

Startups de developer tools que querem coding AI sem depender de APIs externas
Empresas com dados sensíveis que não podem enviar código para servidores terceiros
Pesquisadores que precisam de um modelo state-of-the-art para fine-tuning
DevOps/SRE que querem automação inteligente de infraestrutura
Hobbyistas que querem a melhor IA open source rodando no próprio hardware

O Qwen3.6-35B-A3B está disponível agora no Hugging Face, com versões GGUF quantizadas pela Unsloth e suporte nos principais frameworks de inferência. A corrida pela IA open source eficiente acaba de ganhar um novo líder — e dessa vez, ele cabe no seu bolso.

Fonte de inspiração: Qwen3.6-35B-A3B: Agentic coding power, now open to all — Qwen Team

Shopping cart

Recent Posts

Firefox Tinha Um Identificador Secreto

Google Lança 2 TPUs: 121

US$ 60 Bilhões pelo Cursor: