Gemma 4: IA Open Source do Google Roda Até no Raspberry Pi

O Google acabou de soltar o que pode ser o modelo open source mais importante de 2026. E não, não estou exagerando.

O Gemma 4 chegou com quatro variantes, suporte nativo a imagem, vídeo e áudio, licença Apache 2.0 sem restrições comerciais — e a versão menor roda num Raspberry Pi 5 com menos de 1.5 GB de memória. Se você ainda estava pagando API pra fazer coisas que um modelo local resolve, a conversa mudou.

O Que é o Gemma 4 (e Por Que Você Deveria Prestar Atenção)

O Gemma 4 é a nova família de modelos open source do Google, derivada diretamente da arquitetura do Gemini. Mas “open source” aqui não é aquele open source meia-boca que a Meta faz com o Llama — estamos falando de Apache 2.0, a mesma licença do Kubernetes, do TensorFlow e de metade da infraestrutura que roda a internet.

Na prática, isso significa: sem limite de usuários ativos, sem política de uso aceitável imposta pelo Google, liberdade total pra uso comercial e soberano. Quer fazer um produto em cima do Gemma 4 e vender? Vai em frente. Quer rodar no seu servidor privado sem mandar nenhum dado pro Google? Também.

A família tem quatro modelos:

Modelo	Parâmetros Ativos	Parâmetros Totais	Contexto	Modalidades
E2B	2.3B	5.1B	128K	Texto, imagem, áudio
E4B	4.5B	8B	128K	Texto, imagem, áudio
26B-A4B (MoE)	3.8B	25.2B	256K	Texto, imagem, vídeo
31B (Dense)	30.7B	30.7B	256K	Texto, imagem, vídeo

O que chama atenção logo de cara é o 26B-A4B. São 25.2 bilhões de parâmetros no total, mas só 3.8 bilhões são ativados por token. Isso é Mixture of Experts (MoE) — uma arquitetura onde o modelo tem 128 especialistas, mas só usa 8 + 1 compartilhado a cada inferência. O resultado? Performance de modelo grande com custo computacional de modelo pequeno.

Mixture of Experts: A Arquitetura que Muda o Jogo

Eu já vi muita gente confundir o MoE com um truque de marketing. Não é. É uma das mudanças arquiteturais mais relevantes dos últimos dois anos em LLMs, e o Gemma 4 implementa isso de forma particularmente elegante.

Pensa assim: num modelo denso como o 31B, toda inferência ativa todos os 30.7 bilhões de parâmetros. Cada token que você gera passa por todas as camadas, todos os pesos. Funciona bem, mas é caro — precisa de 40+ GB de VRAM pra rodar em bf16.

No 26B-A4B, o modelo olha pro token que precisa processar e “escolhe” quais 8 dos 128 especialistas são mais relevantes pra aquela tarefa. Mais um especialista compartilhado que sempre participa. Total: 3.8B parâmetros ativos por passo, contra 30.7B do modelo denso.

E o resultado não é uma versão inferior. O Google reporta que o 26B-A4B entrega aproximadamente 97% da qualidade do 31B denso. Nos benchmarks:

Benchmark	26B-A4B (MoE)	31B (Dense)
MMLU Pro	~82%	85.2%
LiveCodeBench v6	~74%	80.0%
LMArena (texto)	#6 global	#3 global

Pra contextualizar: o 26B-A4B ficou em 6° lugar no ranking global do LMArena com apenas 3.8B parâmetros ativos. Ele compete com modelos que usam 10x mais compute por token.

Além do MoE, a arquitetura traz outras inovações interessantes. As camadas alternam entre atenção local (sliding window de 512-1024 tokens) e atenção global de contexto completo. Isso permite que o modelo mantenha uma janela de contexto de 256K tokens sem explodir o uso de memória. E os modelos menores (E2B, E4B) usam uma técnica chamada Per-Layer Embeddings (PLE), que injeta um sinal de embedding secundário em cada camada do decoder — basicamente fazendo um modelo de 2.3B parâmetros ter a capacidade representacional de um modelo muito maior.

Benchmarks: Onde o Gemma 4 se Posiciona

Vamos direto aos números, porque é aqui que a coisa fica interessante.

Raciocínio

O salto em relação ao Gemma 3 é absurdo:

Benchmark	Gemma 3	Gemma 4 (31B)	Melhoria
BigBench Extra Hard	19.3%	74.4%	+285%
MMLU Pro	—	85.2%	—
AIME 2026	—	89.2% (sem tools)	—

O BigBench Extra Hard é um benchmark notoriamente difícil — ir de 19.3% pra 74.4% numa geração é quase inédito.

Código

Se você é dev (e se está lendo isso, provavelmente é), os números de coding são relevantes:

LiveCodeBench v6: 80.0% (31B)
Codeforces ELO: 2150 (31B)

Um ELO de 2150 no Codeforces é nível Expert/Candidate Master. Isso num modelo que você roda local, sem pagar nada, sem mandar seu código proprietário pra nenhuma API.

Visão e Multimodal

MMMU Pro: 76.9% (31B)
MATH-Vision: 85.6% (31B)

O suporte multimodal não é um add-on — é nativo. Todos os modelos da família entendem imagens com resolução variável. Os maiores (26B e 31B) também processam vídeo de até 60 segundos a 1 fps. E os modelos menores lidam com áudio, incluindo reconhecimento de fala e tradução.

Rodando no Seu Hardware: Do Raspberry Pi ao Mac Mini

Aqui é onde o Gemma 4 fica realmente democrático. A tabela de requisitos mínimos:

Modelo	VRAM/RAM Mínima	Hardware Sugerido
E2B	~1.5 GB (2-bit quant)	Raspberry Pi 5, smartphone
E4B	12-16 GB	Mac Mini M1/M2, GPU entry-level
26B-A4B	24 GB	Mac Mini M4 Pro, RTX 4090
31B	40+ GB	A100, H100

O E2B rodando num Raspberry Pi 5 atinge 133 tokens/segundo no prefill e 7.6 tokens/segundo no decode. Não é velocidade de datacenter, mas é perfeitamente usável pra automação doméstica, chatbots locais e processamento de documentos.

Setup com Ollama (Mac/Linux/Windows)

O jeito mais rápido de rodar o Gemma 4 localmente é com o Ollama. Aqui vai o passo a passo:


# Instalar Ollama (macOS via Homebrew)
brew install --cask ollama-app

# Ou no Linux
curl -fsSL https://ollama.com/install.sh | sh

# Iniciar o serviço
ollama serve

# Baixar o modelo (escolha o que cabe na sua máquina)
ollama pull gemma4          # E4B (~5GB download)
ollama pull gemma4:26b      # 26B-A4B MoE (~15GB download)

# Testar
ollama run gemma4 "Explique MoE em 3 frases"

Se você tem um Mac com Apple Silicon, o Ollama usa o backend MLX automaticamente — o que significa aceleração nativa via GPU unificada. Num Mac Mini M4 com 24 GB, o modelo 26B-A4B roda com espaço de sobra.

Dica importante: se for rodar o 26B num Mac com 24 GB, fique atento ao consumo de memória. O modelo usa ~17 GB, deixando apenas ~7 GB pro macOS. Pra uso diário, o E4B (8B parâmetros, ~9.6 GB) pode ser a escolha mais confortável — a não ser que você feche tudo antes de rodar o modelo.

API compatível com OpenAI

Uma vez rodando, o Ollama expõe uma API no localhost:11434 que é compatível com o formato da OpenAI. Isso significa que qualquer ferramenta que funciona com a API da OpenAI funciona com o Gemma 4 local — basta trocar a URL base:


from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # qualquer string funciona
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[{"role": "user", "content": "Analise este código..."}]
)
print(response.choices[0].message.content)

Isso abre um mundo de possibilidades: Continue.dev pra autocomplete no VS Code, Open WebUI pra uma interface tipo ChatGPT rodando 100% local, ou scripts personalizados que chamam a API sem pagar um centavo.

Capacidades Agênticas: Function Calling Nativo

Uma das features mais subestimadas do Gemma 4 é o suporte nativo a function calling. O modelo foi treinado pra gerar chamadas de função estruturadas sem precisar de fine-tuning.

O Google chama isso de “Agent Skills” — o modelo consegue planejar sequências de ações, chamar ferramentas externas, e iterar sobre resultados. Nos testes, o 26B-A4B processa 4.000 tokens de input distribuídos em 2 skills diferentes em menos de 3 segundos.

Na prática, isso habilita coisas como:

Automação de pesquisa: o modelo busca informações, consolida e gera relatórios
Geração de código com execução: planeja, escreve, testa e itera
Assistentes multimodais: analisa imagens, transcreve áudio e responde — tudo no mesmo fluxo
IoT e edge: num Qualcomm Dragonwing IQ8, o Gemma 4 E2B atinge 3.700 tokens/segundo no prefill com NPU

E tudo isso com “constrained decoding” — uma técnica que garante outputs estruturados e previsíveis, essencial pra tool-calling em produção. Nada de parsear JSON quebrado na mão.

Apache 2.0: Por Que a Licença Importa Mais do Que Parece

Eu sei, licença de software não é o assunto mais empolgante do mundo. Mas nesse caso, faz diferença real.

Até agora, o cenário de modelos open source era assim:

Llama (Meta): licença customizada com restrições pra empresas com mais de 700 milhões de MAUs
Gemma 3: licença Google que proibia certos usos
Qwen 3.5 (Alibaba): Apache 2.0 ✓
Mistral: mix de licenças

Com o Gemma 4 em Apache 2.0, o Google basicamente disse: “façam o que quiserem”. Sem asteriscos, sem letras miúdas. Isso coloca o Gemma 4 no mesmo patamar de liberdade do Qwen 3.5 — e acima de tudo que a Meta oferece.

Pra empresas, isso é enorme. Significa que você pode:

Fazer fine-tuning e vender o modelo resultante
Rodar em infraestrutura soberana (governos, saúde, militar)
Embutir em produtos sem preocupação jurídica
Hospedar como serviço sem royalties

E pra desenvolvedores individuais, significa que aquele side project com IA local não vai ter surpresas legais no futuro.

NVIDIA Otimizou o Gemma 4 pra GPUs RTX

Não é só no ecossistema Apple que o Gemma 4 brilha. A NVIDIA publicou otimizações específicas pra placas RTX no programa RTX AI Garage, incluindo:

Quantização otimizada pra RTX 4060/4070/4090
Suporte a TensorRT-LLM pra inferência acelerada
Integração com o NVIDIA NIM pra deploy simplificado

Se você tem uma RTX 4090 com 24 GB de VRAM, o 26B-A4B MoE roda com folga. E mesmo numa RTX 4060 com 8 GB, o E4B funciona bem.

A Modular também lançou suporte day-zero pra Gemma 4 em GPUs NVIDIA e AMD, com benchmarks mostrando ganhos significativos de performance via seus compiladores otimizados.

Quando Usar (e Quando Não Usar)

Vou ser direto: o Gemma 4 não substitui o Claude ou o GPT-4o pra tudo. Mas tem cenários onde ele é a escolha óbvia:

Use o Gemma 4 quando:

Privacidade é não-negociável (dados médicos, código proprietário, compliance)
Você precisa de inferência local sem depender de internet
O custo de API está ficando insustentável
Você quer fazer fine-tuning pro seu domínio específico
Automação de edge/IoT com modelos compactos

Não use quando:

Você precisa do estado da arte absoluto em raciocínio complexo (o Claude Opus e o GPT-4o ainda lideram)
Seu workload é esporádico e o custo de API é negligível
Você não quer lidar com infraestrutura de ML

O ponto é: pra 80% dos casos de uso de LLM, um modelo local de alta qualidade com licença livre resolve. O Gemma 4 é, hoje, a melhor opção nessa categoria.

O Que Isso Significa pro Futuro dos Modelos Open Source

A decisão do Google de liberar o Gemma 4 sob Apache 2.0 não é filantropia — é estratégia. Quanto mais gente roda Gemma, mais o ecossistema Google (Cloud, TPUs, Android) se beneficia. Mas o efeito colateral é genuinamente positivo: um modelo de qualidade frontier, acessível pra qualquer pessoa com um computador razoável.

O HN ficou em polvorosa essa semana com um guia de setup do Gemma 4 no Mac Mini que acumulou mais de 240 pontos. O post original até tentava recomendar o 26B, mas voltou atrás depois de ver que ele engolia 17 GB de RAM — e acabou sugerindo o E4B pra uso cotidiano. Esse tipo de discussão prática, de gente real tentando rodar modelos em hardware real, é o que faz o open source avançar.

Se você ainda não experimentou rodar um LLM local, o Gemma 4 é provavelmente o melhor ponto de entrada que já existiu. Baixa o Ollama, puxa o modelo, e vai brincar. Daqui a seis meses, você vai olhar pra trás e se perguntar por que demorou tanto.

Shopping cart

Recent Posts

Firefox Tinha Um Identificador Secreto

Google Lança 2 TPUs: 121

US$ 60 Bilhões pelo Cursor: