Shopping cart

Subtotal $0.00

View cartCheckout

Building better devs

TnewsTnews
  • Home
  • IA
  • Qwen3.6: A IA de 3B Parâmetros Ativos que Destrói Modelos 10x Maiores
IA

Qwen3.6: A IA de 3B Parâmetros Ativos que Destrói Modelos 10x Maiores

Email : 94

A Alibaba acabou de soltar uma bomba no mundo da IA open source — e dessa vez, os números não mentem.

O Qwen3.6-35B-A3B é um modelo com 35 bilhões de parâmetros totais, mas que ativa apenas 3 bilhões durante a inferência. E mesmo assim, está destruindo modelos densos que são 10 vezes maiores em tarefas de código e raciocínio. Não é exagero: no SWE-bench Verified, ele marca 73.4 pontos contra 52.0 do Gemma4-31B do Google, um modelo que precisa de todos os seus 31 bilhões de parâmetros o tempo todo.

Eu acompanho a corrida dos modelos open source há anos, e posso dizer: esse é o momento em que a eficiência deixou de ser uma promessa e virou realidade — algo que já vimos com modelos de 1-bit rodando em 1GB de RAM.

O que é Mixture of Experts (e por que isso importa agora)

Antes de entrar nos benchmarks, vale entender o mecanismo que faz o Qwen3.6 funcionar tão bem com tão pouco.

Mixture of Experts (MoE) é uma arquitetura onde o modelo tem centenas de “especialistas” — sub-redes dentro da rede principal — mas só ativa uma fração deles para cada token processado. É como ter uma equipe de 256 engenheiros, mas só chamar 9 para resolver cada problema específico.

No caso do Qwen3.6-35B-A3B:

Especificação Valor
Parâmetros totais 35 bilhões
Parâmetros ativos por inferência ~3 bilhões
Total de especialistas 256
Especialistas ativos 8 roteados + 1 compartilhado = 9
Dimensão intermediária por especialista 512
Camadas do transformer 40
Contexto nativo 262.144 tokens
Contexto estendido (YaRN) até 1.010.000 tokens

A sacada aqui é que cada token de entrada passa por um roteador que decide quais 8 especialistas (mais 1 compartilhado) são os mais relevantes para aquele contexto. Os outros 247 especialistas ficam dormindo, economizando memória e computação.

Na prática? Você roda um modelo com a inteligência de 35B, mas com o custo computacional de 3B. Isso muda completamente a equação de custo para quem quer rodar IA localmente ou em produção.

Gated Delta Networks: a arquitetura híbrida que ninguém esperava

O Qwen3.6 não é um transformer convencional. Ele usa uma arquitetura chamada Gated Delta Networks, que mistura atenção linear com atenção completa em um padrão alternado.

A estrutura de cada bloco de 4 camadas segue essa fórmula:


3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)

Traduzindo: para cada 4 camadas, 3 usam atenção linear (mais rápida e mais eficiente em memória) e apenas 1 usa atenção completa (mais expressiva, mas mais cara). São 10 repetições desse bloco, totalizando as 40 camadas.

Por que isso é inteligente? Atenção linear escala de forma sub-quadrática com o tamanho do contexto, enquanto a atenção completa escala quadraticamente. Ao usar atenção completa apenas em 25% das camadas, o modelo mantém a capacidade de capturar dependências de longo alcance sem o custo proibitivo de fazê-lo em todas as camadas.

Na camada de Gated DeltaNet, temos:

  • 32 cabeças de atenção linear para valores (V)
  • 16 cabeças para queries e keys (QK)
  • Dimensão de cada cabeça: 128

Na camada de Gated Attention (a cada 4):

  • 16 cabeças de query (Q)
  • 2 cabeças de key-value (KV) — o famoso Grouped Query Attention
  • Dimensão de cada cabeça: 256
  • Rotary Position Embedding com dimensão 64

Essa combinação é o que permite ao modelo processar contextos de 262K tokens nativamente — e até 1 milhão com scaling via YaRN — sem explodir a conta de VRAM.

Os benchmarks que importam (com números reais)

Chega de teoria. O bicho pega quando olhamos os benchmarks, especialmente em tarefas de coding agent — que é onde o Qwen3.6 realmente brilha.

Coding Agent

Benchmark Qwen3.6-35B-A3B Gemma4-31B
SWE-bench Verified 73.4 52.0
SWE-bench Pro 49.5 35.7
SWE-bench Multilingual 67.2 51.7
Terminal-Bench 2.0 51.5 42.9

No SWE-bench Verified — que testa a capacidade de resolver issues reais de repositórios open source — o Qwen3.6 tem uma vantagem de 21.4 pontos sobre o Gemma4-31B. Isso não é marginal. É demolição.

O Terminal-Bench 2.0, que avalia tarefas de terminal em cenários agênticos (o modelo precisa navegar, executar comandos, debugar), mostra a mesma história: 51.5 contra 42.9.

Raciocínio e Matemática

Benchmark Score
AIME 2026 92.7
HMMT Feb 2026 83.6
LiveCodeBench v6 80.4
GPQA Diamond 86.0
MMLU-Pro 85.2

Um score de 92.7 no AIME 2026 — uma competição de matemática de nível olímpico — com apenas 3B de parâmetros ativos é absurdo. Para colocar em perspectiva: modelos densos que precisam de 70B+ parâmetros lutam para atingir esses números.

Visão e Multimodalidade

O Qwen3.6 não é apenas texto. Ele processa imagens e vídeos nativamente:

Benchmark Score
MMMU 81.7
RefCOCO (avg) 92.0
RealWorldQA 85.3
VideoMME (com legendas) 86.6

O RefCOCO, que mede inteligência espacial, marca 92.0 — superando o Claude Sonnet 4.5 da Anthropic. Um modelo open source de 3B ativos batendo um dos melhores modelos proprietários em compreensão visual. Deixa isso assentar.

Como rodar o Qwen3.6 localmente

Aqui é onde a coisa fica realmente interessante para quem quer sair da dependência de APIs pagas.

Opção 1: vLLM (recomendado para produção)


# Instalação
pip install vllm>=0.19.0

# Servir o modelo
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

Com tensor parallelism em 8 GPUs, você consegue rodar o modelo com contexto completo de 262K tokens. Mas como ele ativa apenas 3B, a latência é surpreendentemente baixa.

Opção 2: SGLang (melhor throughput)


python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

O SGLang tem uma vantagem interessante: suporte nativo a Multi-Token Prediction, que acelera a geração usando decoding especulativo:


python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

Opção 3: GGUF para hardware mais modesto

Para quem não tem 8 GPUs, a Unsloth já disponibilizou versões GGUF quantizadas no Hugging Face. Com quantização Q4_K_M, o modelo cabe em hardware bem mais acessível — embora com alguma perda de qualidade.


# Via Ollama (quando disponível)
ollama run qwen3.6-35b-a3b

# Via llama.cpp
./llama-server -m qwen3.6-35b-a3b-q4_k_m.gguf \
  --ctx-size 8192 \
  --n-gpu-layers 40

Usando como API compatível com OpenAI

Uma vez rodando localmente, a integração é trivial:


from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=[
        {"role": "user", "content": "Refatore essa função para usar async/await"}
    ],
    max_tokens=81920,
    temperature=0.6,  # recomendado para coding
    top_p=0.95,
    extra_body={"top_k": 20}
)

Agentes de código: onde o Qwen3.6 muda o jogo

A real é que benchmarks sintéticos contam só metade da história. O que torna o Qwen3.6 especial é seu desempenho como coding agent — um modelo que não só gera código, mas navega repositórios, lê arquivos, executa testes e resolve problemas de forma autônoma.

O modelo já vem com suporte nativo a tool calling:


# vLLM com tool calling habilitado
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

E se integra nativamente com o framework Qwen-Agent, incluindo suporte a MCP (Model Context Protocol):


from qwen_agent.agents import Assistant

tools = [
    {'mcpServers': {
        "filesystem": {
            "command": "npx",
            "args": ["-y", "@modelcontextprotocol/server-filesystem", "/path/to/repo"]
        }
    }}
]

bot = Assistant(
    llm={'model': 'Qwen3.6-35B-A3B', 'model_server': 'http://localhost:8000/v1'},
    function_list=tools
)

Com MCP, o modelo pode navegar o filesystem, executar comandos, ler documentação — tudo de forma autônoma. É exatamente o tipo de integração que frameworks como Claude Code e Cursor usam internamente, mas agora disponível para qualquer um com hardware suficiente.

Modo Thinking: raciocínio estendido

O Qwen3.6 suporta um “modo de pensamento” onde ele raciocina internamente antes de responder — similar ao que o Claude faz com seus thinking blocks. Você pode ativar ou desativar:


# Com thinking (padrão para tarefas complexas)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": True}
    }
)

# Sem thinking (respostas mais rápidas)
response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.7,
    extra_body={
        "top_k": 20,
        "chat_template_kwargs": {"enable_thinking": False}
    }
)

Contexto de 1 milhão de tokens (e como ativar)

O contexto nativo de 262K tokens já é generoso, mas o Qwen3.6 vai além. Com YaRN scaling, você estende para mais de 1 milhão de tokens:


VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3.6-35B-A3B \
  --hf-overrides '{"text_config": {"rope_parameters": {
    "rope_type": "yarn",
    "rope_theta": 10000000,
    "factor": 4.0,
    "original_max_position_embeddings": 262144
  }}}' \
  --max-model-len 1010000

1 milhão de tokens equivale a aproximadamente 750.000 palavras — ou cerca de 10 livros técnicos completos. Com 3B de parâmetros ativos. Isso é território que, até pouco tempo atrás, era exclusivo de modelos proprietários como o Gemini.

O elefante na sala: custo vs. performance

Vamos fazer uma conta rápida. Se você usa a API do Claude Sonnet para tarefas de coding agent, está pagando por milhões de tokens de entrada e saída. Com o Qwen3.6 rodando localmente:

  • Custo de inferência: zero (além da eletricidade e hardware)
  • Latência: controlável, sem depender de terceiros
  • Privacidade: seus dados nunca saem do seu servidor
  • Disponibilidade: sem rate limits, sem downtime de API

O trade-off? Você precisa de hardware. Para rodar o modelo completo em FP16, são necessárias múltiplas GPUs. Mas com quantização GGUF (Q4), o modelo cabe em configurações muito mais modestas — e a versão quantizada ainda mantém a maior parte da qualidade, especialmente para tarefas de código.

Para empresas que processam grandes volumes de código — code review automatizado, geração de testes, migração de bases legadas — a economia pode ser brutal. Estamos falando de modelos que custavam centenas de milhares de dólares por mês em APIs e agora podem rodar em um cluster de GPUs com custo fixo.

Qwen3.6 vs. o predecessor: o salto geracional

O Qwen3.5-35B-A3B, lançado há poucos meses, já era impressionante. Mas o 3.6 mostra que o time da Alibaba/Qwen está iterando rápido:

  • Frontend workflows melhorados significativamente
  • Raciocínio a nível de repositório mais fluente e preciso
  • Suporte multimodal (imagem e vídeo) nativo
  • Multi-Token Prediction para inferência mais rápida
  • Melhorias em todas as métricas de coding agent

Não é um bump incremental de versão. É um salto qualitativo que coloca o modelo em outro patamar.

Licença Apache 2.0: a cereja do bolo

Tudo isso sob licença Apache 2.0. Sem restrições comerciais, sem cláusulas de uso aceitável que mudam de um dia para o outro, sem medo de que a Alibaba resolva fechar o código amanhã — como a Meta fez com o Llama. Você pode pegar o modelo, fine-tunar para o seu caso de uso, empacotar em um produto comercial e vender.

Compare com o cenário proprietário: o Claude, o GPT e o Gemini são caixas pretas que podem mudar preços, termos de serviço ou performance a qualquer momento. O Qwen3.6 está no Hugging Face, nos pesos, pronto para ser auditado, modificado e rodado em qualquer infraestrutura.

O que isso significa para o ecossistema de IA

A mensagem do Qwen3.6 é clara: modelos menores e mais eficientes não são mais compromissos — são vantagens competitivas. A era de “quanto maior melhor” está dando espaço para “quanto mais esperto, melhor”. E quando um modelo de 3B ativos empata ou supera modelos de 30B+ em tarefas práticas, a pergunta muda de “qual modelo tem mais parâmetros?” para “qual modelo resolve meu problema de forma mais eficiente?”

Esse é um shift que beneficia todo mundo: pesquisadores com orçamento limitado, startups que não podem pagar $100K/mês em APIs, e empresas que precisam de IA on-premise por questões de compliance.

Quem deveria prestar atenção

Se você se encaixa em alguma dessas categorias, o Qwen3.6 merece sua atenção imediata:

  • Startups de developer tools que querem coding AI sem depender de APIs externas
  • Empresas com dados sensíveis que não podem enviar código para servidores terceiros
  • Pesquisadores que precisam de um modelo state-of-the-art para fine-tuning
  • DevOps/SRE que querem automação inteligente de infraestrutura
  • Hobbyistas que querem a melhor IA open source rodando no próprio hardware

O Qwen3.6-35B-A3B está disponível agora no Hugging Face, com versões GGUF quantizadas pela Unsloth e suporte nos principais frameworks de inferência. A corrida pela IA open source eficiente acaba de ganhar um novo líder — e dessa vez, ele cabe no seu bolso.


Fonte de inspiração: Qwen3.6-35B-A3B: Agentic coding power, now open to all — Qwen Team

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts