Shopping cart

Subtotal $0.00

View cartCheckout

Building better devs

TnewsTnews
  • Home
  • IA
  • Qwen 3.6 27B: O Modelo Local que Bate o Claude em Código — E Roda na Sua RTX 4090
IA

Qwen 3.6 27B: O Modelo Local que Bate o Claude em Código — E Roda na Sua RTX 4090

Email : 7

Eu gastava US$ 200 por mês em APIs de IA para programar. Claude, GPT-4, Gemini — a conta ia subindo e o código ficava preso na nuvem. Aí testei o Qwen 3.6 27B no meu computador e a ficha caiu: 77% no SWE-bench Verified, rodando offline, sem pagar um centavo por token.

O Qwen 3.6 27B é um modelo denso de 27 bilhões de parâmetros lançado pela Alibaba em abril de 2026 sob licença Apache 2.0. E quando eu digo “denso”, quero dizer que todos os 27 bilhões de parâmetros estão ativos em cada inferência — nada de Mixture-of-Experts com truques de roteamento. O resultado? Um modelo que cabe numa RTX 4090 e entrega performance de modelos 15 vezes maiores.

O que o Qwen 3.6 27B faz de diferente

A maioria dos modelos open-source que prometem competir com fronteira usa arquiteturas MoE — o Mixtral, o DBRX, o próprio DeepSeek. O problema é que MoE troca complexidade por tamanho: você precisa de mais VRAM para carregar o modelo inteiro, mesmo que só uma fração dos parâmetros esteja ativa por vez.

O Qwen 3.6 27B vai na direção oposta. É um modelo denso, compacto, que roda inteiro na memória de uma única GPU. E a Alibaba conseguiu algo raro: comprimir a inteligência de modelos massivos num formato que cabe no hardware que você já tem.

Existe também uma variante MoE, o Qwen 3.6 35B-A3B, que é mais rápida mas com qualidade inferior. Se você quer velocidade pura para autocomplete, ele serve. Mas para tarefas que exigem raciocínio — debug, refatoração, arquitetura — o 27B denso não tem comparação.

Benchmarks: os números que importam

Vamos direto ao que interessa. Aqui estão os benchmarks do Qwen 3.6 27B comparados com modelos de fronteira:

Benchmark Qwen 3.6 27B Claude 4.5 Opus Claude Opus 4.8 Parâmetros
SWE-bench Verified 77.2% 80.9% 80.9% 27B vs ~?T
Terminal-Bench 2.0 59.3% 59.3% 74.6% (v2.1)
SkillsBench 48.2% vs 397B: 30.0%
SWE-bench Pro 53.5% 69.2%

Repara no SWE-bench Verified: 77.2% contra 80.9% do Claude 4.5 Opus. São 3.7 pontos de diferença. O Qwen consegue isso com 27 bilhões de parâmetros rodando na sua máquina, enquanto o Claude roda em clusters de GPUs que custam milhões de dólares.

No Terminal-Bench 2.0, o empate é literal: 59.3% para ambos. O Qwen 3.6 27B faz no seu notebook o que o Claude 4.5 Opus faz nos servidores da Anthropic.

E o SkillsBench? O Qwen 3.6 27B marca 48.2% contra 30.0% de um modelo de 397B parâmetros. Leu certo: um modelo 14.8x menor batendo o grandão com folga de 77%.

Uma ressalva honesta

Os benchmarks do Qwen foram publicados comparando com o Claude 4.5 Opus — não com o 4.8, que é o modelo mais recente. No SWE-bench Pro, onde ambos reportam resultados, o Opus 4.8 lidera por 15.7 pontos (69.2% vs 53.5%). Então não, o Qwen 3.6 27B não substitui o melhor modelo do mundo. Mas ele chega perto o suficiente do Claude 4.5 Opus para ser absurdamente útil como ferramenta local.

Hardware: o que você precisa para rodar

Aqui é onde o Qwen 3.6 27B brilha de verdade. Diferente de modelos como o Llama 3.1 405B que precisa de um cluster, este roda em hardware de consumidor.

Tabela de VRAM por quantização

Quantização VRAM necessária Qualidade Recomendação
Q4_K_M ~16.8 GB Boa Mínimo viável
Q5_K_M ~19.5 GB Muito boa Bom custo-benefício
Q6_K ~22.5 GB Excelente Recomendada para 24GB
Q8_0 ~28.6 GB Quase perfeita Ideal se tiver VRAM

GPUs compatíveis

Nvidia:

  • RTX 4070 Ti 16GB → Q4_K_M (funciona, apertado)
  • RTX 3090 / 4090 24GB → Q6_K com sobra para contexto
  • RTX 5090 32GB → Q8_0 confortável

Apple Silicon:

  • M4 Pro 24GB → Q4_K_M com contexto limitado
  • M4 Max 48GB → Q8_0 tranquilo, 18 tok/s
  • M4 Max 128GB → Q8_0 com contexto de 65K+, 32 tok/s com Multi-Token Prediction

A configuração que eu recomendo: RTX 4090 com Q6_K. Você consegue ~50 tokens/segundo com contexto de 123K — rápido o suficiente para parecer uma API.

Como instalar em 5 minutos

Chega de teoria. Aqui está o setup completo usando llama.cpp:

Passo 1: Instale o llama.cpp


git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

Para Mac com Apple Silicon, troque DGGML_CUDA=ON por DGGML_METAL=ON.

Passo 2: Baixe o modelo


# Q4_K_M para GPUs de 16GB
huggingface-cli download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ./models/

# Q8_0 para GPUs de 24GB+ ou Mac com 48GB+
huggingface-cli download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-Q8_0.gguf \
  --local-dir ./models/

Passo 3: Rode o servidor


./build/bin/llama-server \
  -hf unsloth/Qwen3.6-27B-GGUF:Q8_0 \
  -ngl 999 \
  -fa on \
  -c 65536 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}'

Flags importantes:

  • -ngl 999: offload todas as camadas para a GPU
  • -fa on: ativa Flash Attention (mais rápido, menos VRAM)
  • -c 65536: contexto de 65K tokens
  • --jinja: habilita tool calling
  • --chat-template-kwargs '{"preserve_thinking": true}': preserva o raciocínio interno do modelo

Passo 4: Use como API local

O servidor expõe uma API compatível com OpenAI em http://localhost:8080. Qualquer ferramenta que aceite endpoint customizado funciona:


from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8080/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="qwen3.6-27b",
    messages=[{"role": "user", "content": "Refatore este código para usar async/await"}],
    temperature=0.7
)
print(response.choices[0].message.content)

Cuidado com CUDA 13.2

Um bug conhecido no driver CUDA 13.2 produz saída ilegível com o Qwen 3.6. Se você estiver nessa versão, faça downgrade para 13.1 ou atualize para 13.3+.

Casos de uso reais

Eu tenho rodado o Qwen 3.6 27B há duas semanas e estes são os cenários onde ele mais brilha:

1. Código proprietário que não pode ir para a nuvem

Se você trabalha com código sensível — fintech, saúde, contratos governamentais — mandar seu codebase para a API do Claude não é opção. Com o Qwen local, nenhuma linha sai da sua máquina.

2. Refatoração de repositórios inteiros

Com janela de contexto de 262K tokens (extensível até 1M com YaRN), você pode alimentar o modelo com arquivos inteiros do projeto. Testei com um monorepo de 15K linhas de TypeScript e ele sugeriu refatorações coerentes entre módulos — algo que modelos com contexto menor simplesmente não conseguem.

3. Debug interativo

A 50 tok/s numa RTX 4090, a experiência é indistinguível de uma API. Você descreve o bug, cola o stack trace, e o modelo responde em tempo real. Sem latência de rede, sem rate limits, sem surpresas na fatura.

4. Fine-tuning para seu stack

Como é Apache 2.0, você pode fazer fine-tuning com seus dados. Tem um framework interno? Convenções de código específicas? Treine o modelo nos seus PRs aprovados e ele vai escrever código no estilo do seu time.

Qwen 3.6 27B vs pagar API: a conta

Vamos fazer a matemática pra quem gasta com APIs de IA para código:

Item Claude Opus (API) Qwen 3.6 27B (local)
Custo mensal ~US$ 150-300 US$ 0 (já tem o hardware)
Custo por 1M tokens (input) US$ 15 US$ 0
Custo por 1M tokens (output) US$ 75 US$ 0
Latência 50-200ms (rede) <10ms (local)
Privacidade Dados vão para a nuvem Tudo offline
Disponibilidade Depende do serviço 100% uptime
Qualidade (SWE-bench) 80.9% 77.2%

Se você gasta US$ 200/mês em API, em 6 meses são US$ 1.200. Uma RTX 4090 usada custa ~US$ 900. O modelo se paga em menos de 5 meses — e depois é custo zero pra sempre.

Claro, você perde 3.7 pontos percentuais no SWE-bench. Mas ganha privacidade absoluta, zero latência de rede e independência total de qualquer provedor.

O ecossistema local em 2026

O Qwen 3.6 27B não existe no vácuo. O ecossistema de IA local explodiu em 2026:

  • llama.cpp continua evoluindo com Multi-Token Prediction que quase dobra a velocidade
  • Ollama simplifica a instalação para quem não quer compilar nada
  • OpenCode, Continue e Aider funcionam como agentes de código apontando para o servidor local
  • vLLM oferece serving otimizado para quem quer rodar como serviço interno

A comunidade já tem benchmarks comparativos rodando em hardware de US$ 800 que mostram performance competitiva com APIs que cobram US$ 15/milhão de tokens.

Quando NÃO usar o Qwen 3.6 27B

Seria desonesto não falar das limitações:

  • Tarefas que exigem o estado da arte absoluto: se você precisa de 80%+ no SWE-bench Pro, o Claude Opus 4.8 ainda lidera por margem significativa
  • Contexto acima de 262K: apesar do YaRN estender até 1M, a qualidade degrada em contextos muito longos. Para análise de repositórios enormes, APIs com contexto nativo maior ainda levam vantagem
  • Multimodalidade: o Qwen 3.6 27B é text-only. Se você precisa analisar screenshots, diagramas ou imagens de UI, precisa de outro modelo
  • Hardware limitado: se você só tem uma GPU de 8GB, não vai rodar nem o Q4_K_M. Nesse caso, a API ainda é o caminho

O futuro é híbrido

A real é que o modelo perfeito não existe — e provavelmente nunca vai existir. O que o Qwen 3.6 27B faz é transformar IA local de brinquedo em ferramenta profissional. Você usa ele para 80% do trabalho diário — autocomplete, refatoração, debug, geração de testes — e escala para uma API de fronteira quando precisa daqueles últimos pontos percentuais de performance.

Dois anos atrás, rodar um modelo competitivo na sua máquina era ficção científica. Hoje, com 24GB de VRAM e 5 minutos de setup, você tem um assistente de código que empata com o Claude 4.5 Opus no Terminal-Bench.

Se isso não te faz questionar por que você ainda paga por token, eu não sei o que vai.


Fonte de inspiração: Qwen 3.6 27B is the sweet spot for local development — Quesma

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts