O Google acabou de soltar o que pode ser o modelo open source mais importante de 2026. E não, não estou exagerando.
O Gemma 4 chegou com quatro variantes, suporte nativo a imagem, vídeo e áudio, licença Apache 2.0 sem restrições comerciais — e a versão menor roda num Raspberry Pi 5 com menos de 1.5 GB de memória. Se você ainda estava pagando API pra fazer coisas que um modelo local resolve, a conversa mudou.
O Que é o Gemma 4 (e Por Que Você Deveria Prestar Atenção)
O Gemma 4 é a nova família de modelos open source do Google, derivada diretamente da arquitetura do Gemini. Mas “open source” aqui não é aquele open source meia-boca que a Meta faz com o Llama — estamos falando de Apache 2.0, a mesma licença do Kubernetes, do TensorFlow e de metade da infraestrutura que roda a internet.
Na prática, isso significa: sem limite de usuários ativos, sem política de uso aceitável imposta pelo Google, liberdade total pra uso comercial e soberano. Quer fazer um produto em cima do Gemma 4 e vender? Vai em frente. Quer rodar no seu servidor privado sem mandar nenhum dado pro Google? Também.
A família tem quatro modelos:
| Modelo | Parâmetros Ativos | Parâmetros Totais | Contexto | Modalidades |
|---|---|---|---|---|
| E2B | 2.3B | 5.1B | 128K | Texto, imagem, áudio |
| E4B | 4.5B | 8B | 128K | Texto, imagem, áudio |
| 26B-A4B (MoE) | 3.8B | 25.2B | 256K | Texto, imagem, vídeo |
| 31B (Dense) | 30.7B | 30.7B | 256K | Texto, imagem, vídeo |
O que chama atenção logo de cara é o 26B-A4B. São 25.2 bilhões de parâmetros no total, mas só 3.8 bilhões são ativados por token. Isso é Mixture of Experts (MoE) — uma arquitetura onde o modelo tem 128 especialistas, mas só usa 8 + 1 compartilhado a cada inferência. O resultado? Performance de modelo grande com custo computacional de modelo pequeno.
Mixture of Experts: A Arquitetura que Muda o Jogo
Eu já vi muita gente confundir o MoE com um truque de marketing. Não é. É uma das mudanças arquiteturais mais relevantes dos últimos dois anos em LLMs, e o Gemma 4 implementa isso de forma particularmente elegante.
Pensa assim: num modelo denso como o 31B, toda inferência ativa todos os 30.7 bilhões de parâmetros. Cada token que você gera passa por todas as camadas, todos os pesos. Funciona bem, mas é caro — precisa de 40+ GB de VRAM pra rodar em bf16.
No 26B-A4B, o modelo olha pro token que precisa processar e “escolhe” quais 8 dos 128 especialistas são mais relevantes pra aquela tarefa. Mais um especialista compartilhado que sempre participa. Total: 3.8B parâmetros ativos por passo, contra 30.7B do modelo denso.
E o resultado não é uma versão inferior. O Google reporta que o 26B-A4B entrega aproximadamente 97% da qualidade do 31B denso. Nos benchmarks:
| Benchmark | 26B-A4B (MoE) | 31B (Dense) |
|---|---|---|
| MMLU Pro | ~82% | 85.2% |
| LiveCodeBench v6 | ~74% | 80.0% |
| LMArena (texto) | #6 global | #3 global |
Pra contextualizar: o 26B-A4B ficou em 6° lugar no ranking global do LMArena com apenas 3.8B parâmetros ativos. Ele compete com modelos que usam 10x mais compute por token.
Além do MoE, a arquitetura traz outras inovações interessantes. As camadas alternam entre atenção local (sliding window de 512-1024 tokens) e atenção global de contexto completo. Isso permite que o modelo mantenha uma janela de contexto de 256K tokens sem explodir o uso de memória. E os modelos menores (E2B, E4B) usam uma técnica chamada Per-Layer Embeddings (PLE), que injeta um sinal de embedding secundário em cada camada do decoder — basicamente fazendo um modelo de 2.3B parâmetros ter a capacidade representacional de um modelo muito maior.
Benchmarks: Onde o Gemma 4 se Posiciona
Vamos direto aos números, porque é aqui que a coisa fica interessante.
Raciocínio
O salto em relação ao Gemma 3 é absurdo:
| Benchmark | Gemma 3 | Gemma 4 (31B) | Melhoria |
|---|---|---|---|
| BigBench Extra Hard | 19.3% | 74.4% | +285% |
| MMLU Pro | — | 85.2% | — |
| AIME 2026 | — | 89.2% (sem tools) | — |
O BigBench Extra Hard é um benchmark notoriamente difícil — ir de 19.3% pra 74.4% numa geração é quase inédito.
Código
Se você é dev (e se está lendo isso, provavelmente é), os números de coding são relevantes:
- LiveCodeBench v6: 80.0% (31B)
- Codeforces ELO: 2150 (31B)
Um ELO de 2150 no Codeforces é nível Expert/Candidate Master. Isso num modelo que você roda local, sem pagar nada, sem mandar seu código proprietário pra nenhuma API.
Visão e Multimodal
- MMMU Pro: 76.9% (31B)
- MATH-Vision: 85.6% (31B)
O suporte multimodal não é um add-on — é nativo. Todos os modelos da família entendem imagens com resolução variável. Os maiores (26B e 31B) também processam vídeo de até 60 segundos a 1 fps. E os modelos menores lidam com áudio, incluindo reconhecimento de fala e tradução.
Rodando no Seu Hardware: Do Raspberry Pi ao Mac Mini
Aqui é onde o Gemma 4 fica realmente democrático. A tabela de requisitos mínimos:
| Modelo | VRAM/RAM Mínima | Hardware Sugerido |
|---|---|---|
| E2B | ~1.5 GB (2-bit quant) | Raspberry Pi 5, smartphone |
| E4B | 12-16 GB | Mac Mini M1/M2, GPU entry-level |
| 26B-A4B | 24 GB | Mac Mini M4 Pro, RTX 4090 |
| 31B | 40+ GB | A100, H100 |
O E2B rodando num Raspberry Pi 5 atinge 133 tokens/segundo no prefill e 7.6 tokens/segundo no decode. Não é velocidade de datacenter, mas é perfeitamente usável pra automação doméstica, chatbots locais e processamento de documentos.
Setup com Ollama (Mac/Linux/Windows)
O jeito mais rápido de rodar o Gemma 4 localmente é com o Ollama. Aqui vai o passo a passo:
# Instalar Ollama (macOS via Homebrew)
brew install --cask ollama-app
# Ou no Linux
curl -fsSL https://ollama.com/install.sh | sh
# Iniciar o serviço
ollama serve
# Baixar o modelo (escolha o que cabe na sua máquina)
ollama pull gemma4 # E4B (~5GB download)
ollama pull gemma4:26b # 26B-A4B MoE (~15GB download)
# Testar
ollama run gemma4 "Explique MoE em 3 frases"
Se você tem um Mac com Apple Silicon, o Ollama usa o backend MLX automaticamente — o que significa aceleração nativa via GPU unificada. Num Mac Mini M4 com 24 GB, o modelo 26B-A4B roda com espaço de sobra.
Dica importante: se for rodar o 26B num Mac com 24 GB, fique atento ao consumo de memória. O modelo usa ~17 GB, deixando apenas ~7 GB pro macOS. Pra uso diário, o E4B (8B parâmetros, ~9.6 GB) pode ser a escolha mais confortável — a não ser que você feche tudo antes de rodar o modelo.
API compatível com OpenAI
Uma vez rodando, o Ollama expõe uma API no localhost:11434 que é compatível com o formato da OpenAI. Isso significa que qualquer ferramenta que funciona com a API da OpenAI funciona com o Gemma 4 local — basta trocar a URL base:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # qualquer string funciona
)
response = client.chat.completions.create(
model="gemma4",
messages=[{"role": "user", "content": "Analise este código..."}]
)
print(response.choices[0].message.content)
Isso abre um mundo de possibilidades: Continue.dev pra autocomplete no VS Code, Open WebUI pra uma interface tipo ChatGPT rodando 100% local, ou scripts personalizados que chamam a API sem pagar um centavo.
Capacidades Agênticas: Function Calling Nativo
Uma das features mais subestimadas do Gemma 4 é o suporte nativo a function calling. O modelo foi treinado pra gerar chamadas de função estruturadas sem precisar de fine-tuning.
O Google chama isso de “Agent Skills” — o modelo consegue planejar sequências de ações, chamar ferramentas externas, e iterar sobre resultados. Nos testes, o 26B-A4B processa 4.000 tokens de input distribuídos em 2 skills diferentes em menos de 3 segundos.
Na prática, isso habilita coisas como:
- Automação de pesquisa: o modelo busca informações, consolida e gera relatórios
- Geração de código com execução: planeja, escreve, testa e itera
- Assistentes multimodais: analisa imagens, transcreve áudio e responde — tudo no mesmo fluxo
- IoT e edge: num Qualcomm Dragonwing IQ8, o Gemma 4 E2B atinge 3.700 tokens/segundo no prefill com NPU
E tudo isso com “constrained decoding” — uma técnica que garante outputs estruturados e previsíveis, essencial pra tool-calling em produção. Nada de parsear JSON quebrado na mão.
Apache 2.0: Por Que a Licença Importa Mais do Que Parece
Eu sei, licença de software não é o assunto mais empolgante do mundo. Mas nesse caso, faz diferença real.
Até agora, o cenário de modelos open source era assim:
- Llama (Meta): licença customizada com restrições pra empresas com mais de 700 milhões de MAUs
- Gemma 3: licença Google que proibia certos usos
- Qwen 3.5 (Alibaba): Apache 2.0 ✓
- Mistral: mix de licenças
Com o Gemma 4 em Apache 2.0, o Google basicamente disse: “façam o que quiserem”. Sem asteriscos, sem letras miúdas. Isso coloca o Gemma 4 no mesmo patamar de liberdade do Qwen 3.5 — e acima de tudo que a Meta oferece.
Pra empresas, isso é enorme. Significa que você pode:
- Fazer fine-tuning e vender o modelo resultante
- Rodar em infraestrutura soberana (governos, saúde, militar)
- Embutir em produtos sem preocupação jurídica
- Hospedar como serviço sem royalties
E pra desenvolvedores individuais, significa que aquele side project com IA local não vai ter surpresas legais no futuro.
NVIDIA Otimizou o Gemma 4 pra GPUs RTX
Não é só no ecossistema Apple que o Gemma 4 brilha. A NVIDIA publicou otimizações específicas pra placas RTX no programa RTX AI Garage, incluindo:
- Quantização otimizada pra RTX 4060/4070/4090
- Suporte a TensorRT-LLM pra inferência acelerada
- Integração com o NVIDIA NIM pra deploy simplificado
Se você tem uma RTX 4090 com 24 GB de VRAM, o 26B-A4B MoE roda com folga. E mesmo numa RTX 4060 com 8 GB, o E4B funciona bem.
A Modular também lançou suporte day-zero pra Gemma 4 em GPUs NVIDIA e AMD, com benchmarks mostrando ganhos significativos de performance via seus compiladores otimizados.
Quando Usar (e Quando Não Usar)
Vou ser direto: o Gemma 4 não substitui o Claude ou o GPT-4o pra tudo. Mas tem cenários onde ele é a escolha óbvia:
Use o Gemma 4 quando:
- Privacidade é não-negociável (dados médicos, código proprietário, compliance)
- Você precisa de inferência local sem depender de internet
- O custo de API está ficando insustentável
- Você quer fazer fine-tuning pro seu domínio específico
- Automação de edge/IoT com modelos compactos
Não use quando:
- Você precisa do estado da arte absoluto em raciocínio complexo (o Claude Opus e o GPT-4o ainda lideram)
- Seu workload é esporádico e o custo de API é negligível
- Você não quer lidar com infraestrutura de ML
O ponto é: pra 80% dos casos de uso de LLM, um modelo local de alta qualidade com licença livre resolve. O Gemma 4 é, hoje, a melhor opção nessa categoria.
O Que Isso Significa pro Futuro dos Modelos Open Source
A decisão do Google de liberar o Gemma 4 sob Apache 2.0 não é filantropia — é estratégia. Quanto mais gente roda Gemma, mais o ecossistema Google (Cloud, TPUs, Android) se beneficia. Mas o efeito colateral é genuinamente positivo: um modelo de qualidade frontier, acessível pra qualquer pessoa com um computador razoável.
O HN ficou em polvorosa essa semana com um guia de setup do Gemma 4 no Mac Mini que acumulou mais de 240 pontos. O post original até tentava recomendar o 26B, mas voltou atrás depois de ver que ele engolia 17 GB de RAM — e acabou sugerindo o E4B pra uso cotidiano. Esse tipo de discussão prática, de gente real tentando rodar modelos em hardware real, é o que faz o open source avançar.
Se você ainda não experimentou rodar um LLM local, o Gemma 4 é provavelmente o melhor ponto de entrada que já existiu. Baixa o Ollama, puxa o modelo, e vai brincar. Daqui a seis meses, você vai olhar pra trás e se perguntar por que demorou tanto.















