26 Milhões de Parâmetros Bastam: Como o Needle Faz Tool Calling Melhor que Modelos 10x Maiores

Enquanto a industria inteira corre para empilhar bilhoes de parametros em modelos cada vez mais gordos, uma startup chamada Cactus Compute fez o oposto: destilou a capacidade de tool calling do Gemini 3.1 em um modelo de apenas 26 milhoes de parametros. E o resultado? Ele bate modelos com 270M, 350M e ate 600M de parametros em function calling — rodando a 6.000 tokens por segundo em hardware de consumo.

O Needle, como foi batizado, nao e mais um chatbot miniatura tentando competir com o GPT-5.5. Ele faz uma unica coisa e faz bem: recebe um comando em linguagem natural, identifica qual ferramenta chamar e extrai os parametros corretos. So isso. E e exatamente por focar nessa tarefa unica que ele consegue ser tao pequeno e tao rapido.

“Attention Is Actually All You Need”

Se voce estudou transformers, aprendeu que a arquitetura padrao tem dois componentes principais: as camadas de atencao (self-attention) e as camadas feedforward (MLP). O Needle joga fora as MLPs inteiras.

A logica por tras disso e elegante. Em modelos conversacionais, as camadas feedforward funcionam como uma especie de “memoria interna” — elas armazenam conhecimento factual aprendido durante o treinamento. Mas quando o objetivo e exclusivamente function calling, o modelo nao precisa “saber coisas”. Ele precisa entender a intencao do usuario e mapear para uma das ferramentas disponiveis, que ja vem listadas no prompt.

Em outras palavras: todo o conhecimento necessario ja esta no contexto. O modelo so precisa ser bom em recuperar e montar — nao em lembrar. E pra isso, atencao pura basta.

A arquitetura resultante — que a Cactus chama de Simple Attention Network — usa 12 camadas de encoder e 8 de decoder, com embeddings de 512 dimensoes e 8 heads de atencao. Parece simples porque e.


Arquitetura do Needle:
- Encoder: 12 camadas (apenas attention + gating)
- Decoder: 8 camadas (apenas attention + gating)
- Embeddings: 512 dimensoes
- Attention heads: 8 (com 4 KV heads via GQA)
- Vocabulario: 8.192 tokens
- Total: ~26M parametros

Pra comparar: o Gemma 2B tem quase 80x mais parametros. O Qwen-0.6B tem 23x mais. E mesmo assim, em function calling especificamente, o Needle bate ambos.

Como Treinar um Modelo de 26M em 28 Horas

O treinamento do Needle aconteceu em duas fases distintas, e os numeros impressionam pela eficiencia.

Fase 1 — Pre-treinamento: 200 bilhoes de tokens processados em 16 TPUs v6e do Google durante 27 horas. Isso e ridiculamente rapido para um pre-treinamento completo. Modelos maiores levam semanas ou meses na mesma infraestrutura.

Fase 2 — Pos-treinamento (fine-tuning): 2 bilhoes de tokens sinteticos focados exclusivamente em function calling, gerados pelo proprio Gemini 3.1. Essa fase levou 45 minutos.

Quarenta e cinco minutos. Enquanto voce almoça, o modelo aprende a chamar funcoes.

Os dados sinteticos cobrem 15 categorias praticas: timers, mensagens, navegacao, controle de casa inteligente, calendario, clima, alarmes, lembretes, e por ai vai. Tudo gerado automaticamente pelo Gemini, o que e ironico — o professor criou um aluno que ocupa 0.001% do espaco que ele mesmo precisa pra funcionar.

Modelo	Parametros	Function Calling Score	Velocidade
——–	———–	———————-	————
Needle	26M	Lider	6.000 tok/s prefill
FunctionGemma	270M	Inferior	—
Granite	350M	Inferior	—
LFM2.5	350M	Inferior	—
Qwen	600M	Inferior	—

Na Pratica: O Que o Needle Consegue (e o Que Nao)

Vamos ser honestos sobre as limitacoes antes de sair celebrando. O Needle e um especialista cirurgico, nao um clinico geral. Ele faz function calling em turno unico (single-shot) — voce da um comando, ele retorna uma chamada de funcao estruturada. Fim.

Ele nao faz:

Conversacao
Raciocinio multi-step
Geracao de texto livre
Compreensao de contexto longo

O que ele faz muito bem:


# Input do usuario
"Acorda eu amanha as 7 da manha"

# Output do Needle
{
  "function": "set_alarm",
  "parameters": {
    "time": "07:00",
    "label": "Acordar"
  }
}


# Input do usuario
"Manda mensagem pro João dizendo que vou atrasar"

# Output do Needle
{
  "function": "send_message",
  "parameters": {
    "contact": "Joao",
    "text": "Vou atrasar"
  }
}

Nos testes da comunidade, usuarios relataram que ele “supera a Siri” em tarefas como configurar alarmes e adicionar itens a listas de compras. Um comentario no Hacker News resumiu bem: “Isso e basicamente tudo que eu quero de um assistente de voz — entender o que eu pedi e fazer, sem aquela latencia de 3 segundos esperando a nuvem responder.”

Mas tambem apareceram casos de falha. Quando um usuario testou “contata meu chefe, vou atrasar”, o Needle escolheu “set_timer” em vez de “send_email”. A ambiguidade do comando, combinada com a lista de ferramentas disponivel, confundiu o modelo. Isso expoe o ponto fraco: sem a profundidade de raciocinio de modelos maiores, comandos ambiguos podem gerar resultados errados.

Por Que Isso Importa: IA no Edge Nao e Mais Teoria

A tendencia de rodar IA localmente em dispositivos — chamada “edge AI” — vem ganhando forca consistente. Mas ate agora, a maioria das solucoes exigia modelos de pelo menos 1-3 bilhoes de parametros, o que limita o hardware compativel.

Com 26 milhoes de parametros, o Needle abre portas que estavam fechadas:

Smartwatches. Relogios inteligentes tem processadores minusculos e bateria limitada. Um modelo de 2B seria impraticavel. Um de 26M? Perfeitamente viavel.

Oculos AR/VR. Dispositivos como Ray-Ban Meta ou futuros Apple Glass precisam de modelos ultra-leves para processar comandos de voz sem mandar tudo pra nuvem.

IoT e casa inteligente. Imagine seu hub de automacao residencial entendendo comandos de voz sem depender de servidores externos. Privacidade total, latencia zero.

Smartphones basicos. Nao estamos falando do iPhone 17 Pro com seus 75 TOPS de processamento neural. Estamos falando daquele Android de R$800 que a maioria das pessoas realmente usa.

Segundo a Dell, a previsao e que ate 2027 organizacoes usarao modelos pequenos e especializados tres vezes mais do que LLMs genericos. A Gartner corrobora. E o custo fala por si: servir um modelo de 7B custa 10 a 30 vezes menos que rodar um de 70-175B. Um modelo de 26M? Os custos sao quase irrelevantes.

A Controversia: Destilacao e os Termos de Servico do Google

Nem tudo e flores. No Hacker News, uma thread significativa questionou a legalidade do processo. Os termos de servico do Google proibem explicitamente a destilacao do Gemini — ou seja, usar outputs do Gemini para treinar modelos concorrentes.

O criador do Needle esclareceu que o processo nao acessou os pesos do modelo diretamente. Os dados sinteticos foram gerados pela API do Gemini — tecnicamente, sao outputs do modelo, nao o modelo em si. E uma zona cinzenta legal que lembra o debate sobre treinamento com dados do ChatGPT que a OpenAI tambem tenta coibir.

Essa questao nao e trivial. Se o Google decidir que a destilacao do Needle viola seus termos, o projeto pode enfrentar problemas legais. Mas ate agora, a Cactus Compute parece confiante na sua posicao — e o fato de terem publicado tudo como open source no Hugging Face sugere que estao dispostos a defender essa posicao.

Simple Attention Networks: Uma Nova Classe de Modelos?

O aspecto mais fascinante do Needle, na minha opiniao, nao e o tamanho nem a velocidade. E a demonstracao de que MLPs podem ser completamente removidas de transformers quando o modelo opera sobre um contexto externo bem definido.

Pense nas implicacoes. Quantas tarefas de IA no mundo real sao essencialmente “dado esse contexto, escolha a opcao certa e preencha os campos”?

Roteamento de APIs: dado um catálogo de endpoints, mapear a requisicao do usuario para a API correta
Preenchimento de formularios: dado um formulario estruturado, extrair campos de um texto livre
Classificacao de tickets: dado um conjunto de categorias, classificar o ticket do cliente
Intent detection em chatbots: dado um fluxo de atendimento, identificar a intencao do usuario

Todas essas tarefas sao candidatas perfeitas para Simple Attention Networks. Voce nao precisa que o modelo “saiba” nada — voce precisa que ele entenda a relacao entre o input e as opcoes disponiveis.

Se isso se confirmar em producao com mais casos de uso, podemos estar olhando para uma nova classe de modelos que separa explicitamente “raciocinio sobre contexto” de “conhecimento armazenado”. E isso mudaria fundamentalmente como projetamos sistemas de IA para o edge.

Como Testar o Needle Agora

O Needle e open source e esta disponivel no Hugging Face. Voce pode rodar localmente e inclusive fazer fine-tuning no seu proprio computador.


# Clone o repositorio
git clone https://github.com/cactus-compute/needle.git
cd needle

# Instale as dependencias
pip install -r requirements.txt

# Rode o playground local
python playground.py
# Acesse em http://localhost:7860

O playground oferece uma interface web onde voce define suas ferramentas e testa comandos em tempo real. Voce pode customizar o conjunto de funcoes para o seu caso de uso especifico — controle de casa inteligente, automacao de tarefas, comandos de voz para qualquer sistema.

Para fine-tuning com seus proprios dados:


# Formato dos dados de treinamento
{
  "input": "Liga a luz da sala",
  "tools": [
    {"name": "turn_on_light", "params": {"room": "string"}},
    {"name": "turn_off_light", "params": {"room": "string"}},
    {"name": "set_brightness", "params": {"room": "string", "level": "int"}}
  ],
  "output": {
    "function": "turn_on_light",
    "parameters": {"room": "sala"}
  }
}

Usuarios na comunidade ja estao experimentando integracoes com Home Assistant, criando speakers inteligentes customizados e ferramentas de linha de comando que aceitam linguagem natural como input.

Comparacao com a Abordagem “Modelo Grande com Tool Calling”

Hoje, a forma padrao de fazer tool calling e usar um LLM grande (GPT-5.5, Claude Opus, Gemini) e passar a lista de ferramentas no system prompt. Funciona muito bem, mas tem custos:

Aspecto	LLM Grande	Needle
———	———–	——–
Latencia	500ms-2s (depende da nuvem)	<10ms (local)
Custo por chamada	$0.001-0.01	Praticamente zero
Privacidade	Dados vao pra nuvem	Tudo local
Acuracia (simples)	~99%	~95%
Acuracia (ambiguo)	~90%	~70%
Conversacao	Sim	Nao
Offline	Nao	Sim

A sacada nao e substituir LLMs grandes — e usar o Needle como primeiro filtro. Imagine um pipeline onde:

O Needle roda localmente e tenta resolver o comando
Se a confianca for alta (>90%), executa direto
Se a confianca for baixa, envia para um LLM na nuvem como fallback

Esse padrao de “modelo local + fallback na nuvem” e provavelmente o futuro dos assistentes de voz. Voce tem latencia baixa para 80% dos comandos rotineiros, e acuracia alta para os 20% ambiguos. O melhor dos dois mundos.

O Que a Cactus Compute Quer com Isso

A Cactus Compute nao e uma big tech tentando dominar o mercado de IA. E uma startup focada em hardware e software para IA on-device. O Needle e, na pratica, uma vitrine tecnica do que o hardware deles consegue fazer — e uma forma de atrair desenvolvedores para o ecossistema.

A estrategia faz sentido. Se voce convence milhares de devs a construir aplicacoes usando Needle, todos eles vao precisar de hardware otimizado para rodar esses modelos. E a Cactus vende exatamente isso. O modelo e open source, os pesos estao no Hugging Face, e qualquer pessoa pode fazer fine-tuning em um laptop comum. A barreira de entrada e tao baixa que parece proposital — porque e.

Esse modelo de negocio (open source o software, venda o hardware) ja funcionou antes. A Nvidia fez isso com CUDA. O Google faz com Android. A Cactus esta tentando a mesma jogada no nicho de edge AI, e o Needle e o primeiro passo real nessa direcao.

O Futuro e Pequeno (e Especializado)

O Needle nao vai substituir o ChatGPT. Nao vai escrever seus emails. Nao vai debater filosofia com voce as 2 da manha.

Mas ele representa algo mais importante: a prova de que nem toda tarefa de IA precisa de um modelo monstruoso rodando em um datacenter a milhares de quilometros. Que a especializacao radical pode compensar a falta de parametros. Que, as vezes, 26 milhoes de parametros bem treinados valem mais que 600 milhoes de parametros genericos.

Se eu fosse apostar, diria que daqui a dois anos a maioria dos dispositivos consumer vai rodar dezenas de micro-modelos especializados — um pra voz, um pra function calling, um pra classificacao, um pra OCR — todos com menos de 100M de parametros, todos rodando simultaneamente sem aquecer o processador.

O Needle e o primeiro sinal concreto de que esse futuro ja comecou.

—

Fonte de inspiracao: Show HN: Needle — We Distilled Gemini Tool Calling into a 26M Model

Shopping cart

Recent Posts

6 CVEs Graves no dnsmasq:

26 Milhões de Parâmetros Bastam:

Mythos Analisou 178 Mil Linhas