Shopping cart

Subtotal $0.00

View cartCheckout

Building better devs

TnewsTnews
  • Home
  • IA
  • Gemma 4: IA Open Source do Google Roda Até no Raspberry Pi
IA

Gemma 4: IA Open Source do Google Roda Até no Raspberry Pi

Email : 227

O Google acabou de soltar o que pode ser o modelo open source mais importante de 2026. E não, não estou exagerando.

O Gemma 4 chegou com quatro variantes, suporte nativo a imagem, vídeo e áudio, licença Apache 2.0 sem restrições comerciais — e a versão menor roda num Raspberry Pi 5 com menos de 1.5 GB de memória. Se você ainda estava pagando API pra fazer coisas que um modelo local resolve, a conversa mudou.

O Que é o Gemma 4 (e Por Que Você Deveria Prestar Atenção)

O Gemma 4 é a nova família de modelos open source do Google, derivada diretamente da arquitetura do Gemini. Mas “open source” aqui não é aquele open source meia-boca que a Meta faz com o Llama — estamos falando de Apache 2.0, a mesma licença do Kubernetes, do TensorFlow e de metade da infraestrutura que roda a internet.

Na prática, isso significa: sem limite de usuários ativos, sem política de uso aceitável imposta pelo Google, liberdade total pra uso comercial e soberano. Quer fazer um produto em cima do Gemma 4 e vender? Vai em frente. Quer rodar no seu servidor privado sem mandar nenhum dado pro Google? Também.

A família tem quatro modelos:

Modelo Parâmetros Ativos Parâmetros Totais Contexto Modalidades
E2B 2.3B 5.1B 128K Texto, imagem, áudio
E4B 4.5B 8B 128K Texto, imagem, áudio
26B-A4B (MoE) 3.8B 25.2B 256K Texto, imagem, vídeo
31B (Dense) 30.7B 30.7B 256K Texto, imagem, vídeo

O que chama atenção logo de cara é o 26B-A4B. São 25.2 bilhões de parâmetros no total, mas só 3.8 bilhões são ativados por token. Isso é Mixture of Experts (MoE) — uma arquitetura onde o modelo tem 128 especialistas, mas só usa 8 + 1 compartilhado a cada inferência. O resultado? Performance de modelo grande com custo computacional de modelo pequeno.

Mixture of Experts: A Arquitetura que Muda o Jogo

Eu já vi muita gente confundir o MoE com um truque de marketing. Não é. É uma das mudanças arquiteturais mais relevantes dos últimos dois anos em LLMs, e o Gemma 4 implementa isso de forma particularmente elegante.

Pensa assim: num modelo denso como o 31B, toda inferência ativa todos os 30.7 bilhões de parâmetros. Cada token que você gera passa por todas as camadas, todos os pesos. Funciona bem, mas é caro — precisa de 40+ GB de VRAM pra rodar em bf16.

No 26B-A4B, o modelo olha pro token que precisa processar e “escolhe” quais 8 dos 128 especialistas são mais relevantes pra aquela tarefa. Mais um especialista compartilhado que sempre participa. Total: 3.8B parâmetros ativos por passo, contra 30.7B do modelo denso.

E o resultado não é uma versão inferior. O Google reporta que o 26B-A4B entrega aproximadamente 97% da qualidade do 31B denso. Nos benchmarks:

Benchmark 26B-A4B (MoE) 31B (Dense)
MMLU Pro ~82% 85.2%
LiveCodeBench v6 ~74% 80.0%
LMArena (texto) #6 global #3 global

Pra contextualizar: o 26B-A4B ficou em 6° lugar no ranking global do LMArena com apenas 3.8B parâmetros ativos. Ele compete com modelos que usam 10x mais compute por token.

Além do MoE, a arquitetura traz outras inovações interessantes. As camadas alternam entre atenção local (sliding window de 512-1024 tokens) e atenção global de contexto completo. Isso permite que o modelo mantenha uma janela de contexto de 256K tokens sem explodir o uso de memória. E os modelos menores (E2B, E4B) usam uma técnica chamada Per-Layer Embeddings (PLE), que injeta um sinal de embedding secundário em cada camada do decoder — basicamente fazendo um modelo de 2.3B parâmetros ter a capacidade representacional de um modelo muito maior.

Benchmarks: Onde o Gemma 4 se Posiciona

Vamos direto aos números, porque é aqui que a coisa fica interessante.

Raciocínio

O salto em relação ao Gemma 3 é absurdo:

Benchmark Gemma 3 Gemma 4 (31B) Melhoria
BigBench Extra Hard 19.3% 74.4% +285%
MMLU Pro 85.2%
AIME 2026 89.2% (sem tools)

O BigBench Extra Hard é um benchmark notoriamente difícil — ir de 19.3% pra 74.4% numa geração é quase inédito.

Código

Se você é dev (e se está lendo isso, provavelmente é), os números de coding são relevantes:

  • LiveCodeBench v6: 80.0% (31B)
  • Codeforces ELO: 2150 (31B)

Um ELO de 2150 no Codeforces é nível Expert/Candidate Master. Isso num modelo que você roda local, sem pagar nada, sem mandar seu código proprietário pra nenhuma API.

Visão e Multimodal

  • MMMU Pro: 76.9% (31B)
  • MATH-Vision: 85.6% (31B)

O suporte multimodal não é um add-on — é nativo. Todos os modelos da família entendem imagens com resolução variável. Os maiores (26B e 31B) também processam vídeo de até 60 segundos a 1 fps. E os modelos menores lidam com áudio, incluindo reconhecimento de fala e tradução.

Rodando no Seu Hardware: Do Raspberry Pi ao Mac Mini

Aqui é onde o Gemma 4 fica realmente democrático. A tabela de requisitos mínimos:

Modelo VRAM/RAM Mínima Hardware Sugerido
E2B ~1.5 GB (2-bit quant) Raspberry Pi 5, smartphone
E4B 12-16 GB Mac Mini M1/M2, GPU entry-level
26B-A4B 24 GB Mac Mini M4 Pro, RTX 4090
31B 40+ GB A100, H100

O E2B rodando num Raspberry Pi 5 atinge 133 tokens/segundo no prefill e 7.6 tokens/segundo no decode. Não é velocidade de datacenter, mas é perfeitamente usável pra automação doméstica, chatbots locais e processamento de documentos.

Setup com Ollama (Mac/Linux/Windows)

O jeito mais rápido de rodar o Gemma 4 localmente é com o Ollama. Aqui vai o passo a passo:


# Instalar Ollama (macOS via Homebrew)
brew install --cask ollama-app

# Ou no Linux
curl -fsSL https://ollama.com/install.sh | sh

# Iniciar o serviço
ollama serve

# Baixar o modelo (escolha o que cabe na sua máquina)
ollama pull gemma4          # E4B (~5GB download)
ollama pull gemma4:26b      # 26B-A4B MoE (~15GB download)

# Testar
ollama run gemma4 "Explique MoE em 3 frases"

Se você tem um Mac com Apple Silicon, o Ollama usa o backend MLX automaticamente — o que significa aceleração nativa via GPU unificada. Num Mac Mini M4 com 24 GB, o modelo 26B-A4B roda com espaço de sobra.

Dica importante: se for rodar o 26B num Mac com 24 GB, fique atento ao consumo de memória. O modelo usa ~17 GB, deixando apenas ~7 GB pro macOS. Pra uso diário, o E4B (8B parâmetros, ~9.6 GB) pode ser a escolha mais confortável — a não ser que você feche tudo antes de rodar o modelo.

API compatível com OpenAI

Uma vez rodando, o Ollama expõe uma API no localhost:11434 que é compatível com o formato da OpenAI. Isso significa que qualquer ferramenta que funciona com a API da OpenAI funciona com o Gemma 4 local — basta trocar a URL base:


from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # qualquer string funciona
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[{"role": "user", "content": "Analise este código..."}]
)
print(response.choices[0].message.content)

Isso abre um mundo de possibilidades: Continue.dev pra autocomplete no VS Code, Open WebUI pra uma interface tipo ChatGPT rodando 100% local, ou scripts personalizados que chamam a API sem pagar um centavo.

Capacidades Agênticas: Function Calling Nativo

Uma das features mais subestimadas do Gemma 4 é o suporte nativo a function calling. O modelo foi treinado pra gerar chamadas de função estruturadas sem precisar de fine-tuning.

O Google chama isso de “Agent Skills” — o modelo consegue planejar sequências de ações, chamar ferramentas externas, e iterar sobre resultados. Nos testes, o 26B-A4B processa 4.000 tokens de input distribuídos em 2 skills diferentes em menos de 3 segundos.

Na prática, isso habilita coisas como:

  • Automação de pesquisa: o modelo busca informações, consolida e gera relatórios
  • Geração de código com execução: planeja, escreve, testa e itera
  • Assistentes multimodais: analisa imagens, transcreve áudio e responde — tudo no mesmo fluxo
  • IoT e edge: num Qualcomm Dragonwing IQ8, o Gemma 4 E2B atinge 3.700 tokens/segundo no prefill com NPU

E tudo isso com “constrained decoding” — uma técnica que garante outputs estruturados e previsíveis, essencial pra tool-calling em produção. Nada de parsear JSON quebrado na mão.

Apache 2.0: Por Que a Licença Importa Mais do Que Parece

Eu sei, licença de software não é o assunto mais empolgante do mundo. Mas nesse caso, faz diferença real.

Até agora, o cenário de modelos open source era assim:

  • Llama (Meta): licença customizada com restrições pra empresas com mais de 700 milhões de MAUs
  • Gemma 3: licença Google que proibia certos usos
  • Qwen 3.5 (Alibaba): Apache 2.0 ✓
  • Mistral: mix de licenças

Com o Gemma 4 em Apache 2.0, o Google basicamente disse: “façam o que quiserem”. Sem asteriscos, sem letras miúdas. Isso coloca o Gemma 4 no mesmo patamar de liberdade do Qwen 3.5 — e acima de tudo que a Meta oferece.

Pra empresas, isso é enorme. Significa que você pode:

  • Fazer fine-tuning e vender o modelo resultante
  • Rodar em infraestrutura soberana (governos, saúde, militar)
  • Embutir em produtos sem preocupação jurídica
  • Hospedar como serviço sem royalties

E pra desenvolvedores individuais, significa que aquele side project com IA local não vai ter surpresas legais no futuro.

NVIDIA Otimizou o Gemma 4 pra GPUs RTX

Não é só no ecossistema Apple que o Gemma 4 brilha. A NVIDIA publicou otimizações específicas pra placas RTX no programa RTX AI Garage, incluindo:

  • Quantização otimizada pra RTX 4060/4070/4090
  • Suporte a TensorRT-LLM pra inferência acelerada
  • Integração com o NVIDIA NIM pra deploy simplificado

Se você tem uma RTX 4090 com 24 GB de VRAM, o 26B-A4B MoE roda com folga. E mesmo numa RTX 4060 com 8 GB, o E4B funciona bem.

A Modular também lançou suporte day-zero pra Gemma 4 em GPUs NVIDIA e AMD, com benchmarks mostrando ganhos significativos de performance via seus compiladores otimizados.

Quando Usar (e Quando Não Usar)

Vou ser direto: o Gemma 4 não substitui o Claude ou o GPT-4o pra tudo. Mas tem cenários onde ele é a escolha óbvia:

Use o Gemma 4 quando:

  • Privacidade é não-negociável (dados médicos, código proprietário, compliance)
  • Você precisa de inferência local sem depender de internet
  • O custo de API está ficando insustentável
  • Você quer fazer fine-tuning pro seu domínio específico
  • Automação de edge/IoT com modelos compactos

Não use quando:

  • Você precisa do estado da arte absoluto em raciocínio complexo (o Claude Opus e o GPT-4o ainda lideram)
  • Seu workload é esporádico e o custo de API é negligível
  • Você não quer lidar com infraestrutura de ML

O ponto é: pra 80% dos casos de uso de LLM, um modelo local de alta qualidade com licença livre resolve. O Gemma 4 é, hoje, a melhor opção nessa categoria.

O Que Isso Significa pro Futuro dos Modelos Open Source

A decisão do Google de liberar o Gemma 4 sob Apache 2.0 não é filantropia — é estratégia. Quanto mais gente roda Gemma, mais o ecossistema Google (Cloud, TPUs, Android) se beneficia. Mas o efeito colateral é genuinamente positivo: um modelo de qualidade frontier, acessível pra qualquer pessoa com um computador razoável.

O HN ficou em polvorosa essa semana com um guia de setup do Gemma 4 no Mac Mini que acumulou mais de 240 pontos. O post original até tentava recomendar o 26B, mas voltou atrás depois de ver que ele engolia 17 GB de RAM — e acabou sugerindo o E4B pra uso cotidiano. Esse tipo de discussão prática, de gente real tentando rodar modelos em hardware real, é o que faz o open source avançar.

Se você ainda não experimentou rodar um LLM local, o Gemma 4 é provavelmente o melhor ponto de entrada que já existiu. Baixa o Ollama, puxa o modelo, e vai brincar. Daqui a seis meses, você vai olhar pra trás e se perguntar por que demorou tanto.

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts