Jalapeño: O Chip da OpenAI que Promete Cortar 50% do Custo da IA

A OpenAI acabou de fazer algo que todo mundo esperava — mas ninguém achava que seria tão rápido. Em parceria com a Broadcom, a empresa revelou o Jalapeño, seu primeiro processador de inferência customizado. Um ASIC reticle-sized, fabricado no processo de 3nm da TSMC, que saiu do papel ao tape-out em apenas nove meses.

Não é um chip genérico adaptado para IA. É um processador desenhado do zero, especificamente para rodar LLMs em produção. E os primeiros testes indicam que ele entrega inferência 50% mais barata por token do que as GPUs da Nvidia.

Se confirmado, isso muda a dinâmica de poder na indústria de IA.

O Problema de Depender da Nvidia

Pra entender por que o Jalapeño existe, basta olhar a conta que a OpenAI paga todo mês. A empresa anunciou em parceria com a Nvidia um plano de 10 gigawatts de infraestrutura — com investimentos que podem chegar a US$ 100 bilhões ao longo de 7 anos. Em fevereiro de 2026, a Nvidia já tinha pausado parte desse compromisso, reduzindo para US$ 20-30 bilhões num primeiro momento.

O ChatGPT sozinho consome uma quantidade absurda de GPUs. Cada consulta, cada geração de código pelo Codex, cada agente autônomo rodando na API — tudo passa por hardware da Nvidia. E a Nvidia sabe disso. Os preços das H100 e B200 refletem essa posição dominante.

Eu já vi empresas menores quebrarem tentando escalar inferência com GPUs alugadas na cloud. A OpenAI, com centenas de milhões de usuários, sente essa dor multiplicada por mil.

A solução? Fazer o próprio chip.

O que é o Jalapeño (e por que o nome)

O Jalapeño é o que a OpenAI chama de “Intelligence Processor” — um acelerador projetado exclusivamente para workloads de inferência de LLMs. Não é um chip de treinamento. Não é uma GPU genérica. É uma peça de silício que sabe fazer uma coisa muito bem: rodar modelos de linguagem enormes em produção, com o menor consumo de energia possível.

A liderança técnica está com Richard Ho, ex-engenheiro do Google que trabalhou no projeto dos TPUs. Se você conhece a história dos TPUs, sabe que o Google foi a primeira big tech a apostar em silício customizado para IA, lá em 2016. Agora Ho trouxe essa experiência para dentro da OpenAI.

Especificações confirmadas

Característica	Detalhe
—	—
Nome	Jalapeño
Tipo	ASIC de inferência para LLMs
Fabricação	TSMC 3nm
Arquitetura	Systolic array otimizado para inferência
Tamanho do die	Reticle-sized (maior chip possível em uma única exposição)
Memória	HBM (provavelmente HBM3E ou HBM4), 6 módulos por package
Networking	Broadcom Tomahawk integrado
Tempo de desenvolvimento	9 meses (design → tape-out)
Início de produção	Segundo semestre de 2026
Escala de deploy	Gigawatt-scale com Microsoft

A OpenAI ainda não divulgou benchmarks detalhados — prometeram um relatório técnico “nos próximos meses”. Mas o fato de já estarem rodando GPT-5.3-Codex-Spark no chip, na frequência e potência alvo, diz bastante.

9 Meses do Design ao Tape-Out — Isso é Normal?

Não. Isso é absurdamente rápido.

Pra contextualizar: um ASIC de alta performance normalmente leva de 18 a 36 meses do início do design até o tape-out (o momento em que o design final é enviado para fabricação). O processo envolve simulações exaustivas, verificação formal, validação de timing, análise de potência, testes de corner cases em dezenas de variações de processo.

A Broadcom conseguiu entregar em 9 meses. Como?

Três fatores prováveis:

1. Experiência acumulada em ASICs de IA. A Broadcom já é a parceira por trás dos chips customizados do Google (TPUs) e de outros hyperscalers. Eles têm blocos de IP reutilizáveis — interfaces de memória HBM, controladores de rede, blocos de I/O — que podem ser integrados rapidamente em novos designs.

2. Escopo restrito. O Jalapeño não tenta ser tudo para todos. É um chip de inferência. Só inferência. Quando você elimina a necessidade de suportar treinamento distribuído com milhares de nós, a complexidade do design cai drasticamente.

3. Investimento massivo em equipe. Com o capital que a OpenAI levantou (mais de US$ 40 bilhões do Google, Softbank e outros), contratar centenas de engenheiros de silício para trabalhar em paralelo não é problema.

Mesmo assim, 9 meses é um recorde. A empresa Taalas fez algo parecido recentemente — um ASIC reticle-sized que roda o Llama 3.1 8B com eficiência absurda. Mas era um chip mais simples. O Jalapeño precisa rodar modelos com centenas de bilhões de parâmetros.

Systolic Arrays: A Mesma Ideia dos TPUs, Mas para Inferência

Se você já estudou os TPUs do Google, a arquitetura systolic array não é novidade. A ideia é simples: em vez de ter uma GPU com milhares de cores genéricos que fazem de tudo (gráficos, computação científica, criptografia, IA), você constrói uma grade de processadores que fazem exclusivamente multiplicação de matrizes.

Inferência de LLMs é, no fundo, uma sequência de multiplicações de matrizes enormes. O token entra, passa por dezenas de camadas de atenção (cada uma é uma multiplicação de matrizes), e sai o próximo token. Repita bilhões de vezes por dia.

Uma systolic array é projetada para alimentar dados continuamente pela grade de processadores, sem ciclos ociosos. Cada unidade processa e passa o resultado para a próxima. É como uma linha de montagem onde nenhuma estação para.


Dado → [PE₁] → [PE₂] → [PE₃] → ... → [PEₙ] → Resultado
         ↓        ↓        ↓               ↓
       [PE₁]    [PE₂]    [PE₃]           [PEₙ]
         ↓        ↓        ↓               ↓
       [PE₁]    [PE₂]    [PE₃]           [PEₙ]

O resultado? Utilização próxima do pico teórico. É exatamente isso que a OpenAI está prometendo: “realized utilization much closer to theoretical peak performance”. Em GPUs genéricas, a utilização real raramente passa de 40-60% do pico teórico. Se o Jalapeño conseguir 80-90%, a economia por token é brutal.

Como o Jalapeño Se Compara à Concorrência

A OpenAI não é a primeira a fazer chips customizados para IA. Mas entra numa corrida que está esquentando rápido.

Empresa	Chip	Foco	Processo	Status em 2026
—	—	—	—	—
Google	TPU v5p / v6	Treinamento + Inferência	Variado	4,3M de unidades projetadas em 2026
Amazon	Trainium 3	Treinamento	3nm	Em produção, vendendo para terceiros
Meta	MTIA v2	Inferência	5nm	Uso interno
Microsoft	Maia 100	Treinamento + Inferência	5nm	Deploy limitado no Azure
OpenAI	Jalapeño	Inferência	3nm	Tape-out feito, deploy no fim de 2026
Nvidia	B200 / Vera Rubin	Tudo	4nm / 3nm	Dominante no mercado

Cada empresa tem uma estratégia diferente. O Google foi pioneiro e tem a maior escala — são projetadas 4,3 milhões de TPUs para 2026. A Amazon está até tentando vender seus chips para data centers de terceiros, algo inédito. A Meta e a Microsoft focam em uso interno.

A OpenAI, por sua vez, está fazendo algo que ninguém mais faz: construindo um chip com a Broadcom especificamente otimizado para modelos que ela mesma treina. É um nível de co-design que só é possível quando você controla todo o stack — do modelo ao hardware.

A Relação com a Nvidia Muda?

Greg Brockman foi direto: “Jalapeño é parte da nossa estratégia de infraestrutura full-stack de longo prazo para tornar compute mais abundante.”

A palavra-chave aqui é abundante, não substituto. A OpenAI não está abandonando a Nvidia. O plano de 10 gigawatts com GPUs Nvidia continua de pé. O Jalapeño é um complemento — especificamente para inferência em escala.

A lógica é parecida com o que o Google faz há anos: usa TPUs para workloads internos otimizados e GPUs Nvidia para cargas mais variadas. A OpenAI vai usar o Jalapeño para servir ChatGPT e a API (inferência em massa), e continuar usando Nvidia para treinamento de novos modelos.

Mas a Nvidia deveria se preocupar? Sim. Por dois motivos:

1. Preço. Se o Jalapeño realmente entrega inferência 50% mais barata, a OpenAI pode reduzir drasticamente os preços da API — e pressionar concorrentes como Google e Anthropic a fazerem o mesmo. Isso força toda a cadeia a buscar alternativas mais baratas que GPUs Nvidia.

2. Precedente. Cada hyperscaler que faz seu próprio chip enfraquece o monopólio da Nvidia. Quando a OpenAI — a maior consumidora de GPUs do planeta — demonstra que é possível fazer um chip próprio em 9 meses, isso inspira outros a fazerem o mesmo.

O Papel da Broadcom Nisso Tudo

A Broadcom não é novata nesse jogo. Sob a liderança de Hock Tan, a empresa se tornou a parceira preferida de hyperscalers que querem chips customizados mas não têm expertise interna em design de silício.

O modelo de negócio da Broadcom no segmento de ASICs customizados é simples: o cliente (Google, OpenAI, etc.) define a arquitetura e os requisitos, a Broadcom faz o design detalhado, verificação, e gerencia a fabricação na TSMC. É um negócio de margens altíssimas — e a Broadcom é a melhor do mundo nisso.

Hock Tan disse que “isso é apenas o começo de um roadmap multi-geracional”. Tradução: espere Jalapeño 2 e 3 nos próximos anos, com otimizações incrementais baseadas nos dados reais de produção.

A Celestica entra no ecossistema como integradora — responsável por boards, racks e sistemas completos. É o tipo de parceria que mostra que a OpenAI está pensando em escala de data center, não em um experimento de laboratório.

Quanto Isso Vai Economizar?

Vamos fazer uma conta de padaria.

A OpenAI gasta estimadamente US$ 7-8 bilhões por ano em infraestrutura de compute (entre aluguel de GPUs, data centers, energia). Uma parcela significativa desse custo vai para inferência — servir ChatGPT, a API, Codex, e agentes autônomos.

Se assumirmos que 60% do custo vai para inferência (US$ 4,5 bilhões) e o Jalapeño reduz esse custo em 50%, estamos falando de uma economia de US$ 2,25 bilhões por ano quando totalmente deployado.


Custo anual de inferência:        ~US$ 4,5 bilhões
Redução com Jalapeño (50%):       ~US$ 2,25 bilhões
Investimento no chip:             ~US$ 500M-1B (estimativa)
ROI:                              ~12-24 meses

Mesmo que os números reais sejam menos dramáticos — digamos, 30% de redução — ainda assim são bilhões em economia. O suficiente para pagar o investimento no programa de chips em pouco mais de um ano.

É por isso que toda big tech está nessa corrida. Não é vaidade — é matemática.

O que Isso Significa para Devs

Se você consome a API da OpenAI, a notícia é potencialmente boa. Inferência mais barata = preços mais baixos na API = custo menor para suas aplicações.

A OpenAI já vem reduzindo preços agressivamente (lembra quando o GPT-4 custava US$ 30/million tokens de saída? Agora o GPT-5.3 custa menos que isso). Com o Jalapeño, a tendência de queda de preços deve acelerar.

Para quem trabalha com IA em edge ou on-premise, o impacto é indireto. Chips customizados de hyperscalers não chegam ao mercado consumidor. Mas a pressão competitiva pode forçar a Nvidia a baixar preços das GPUs consumer/prosumer — o que beneficia todo mundo.

E se você está pensando em carreira, o mercado de engenharia de silício para IA está em ebulição. A OpenAI montou um time inteiro de chip design em meses. Google, Amazon, Meta, Microsoft — todos contratando. Saber Verilog, design de ASIC, ou até só entender a interface hardware-software de aceleradores de IA pode ser o skill mais valorizado dos próximos 5 anos.

O Elefante na Sala: TSMC

Tem um detalhe que ninguém quer falar em voz alta. Todas essas empresas — Google, Amazon, OpenAI, Nvidia, AMD, Apple — dependem de um único fornecedor para fabricar seus chips: a TSMC.

O Jalapeño é fabricado no processo de 3nm da TSMC. Os TPUs do Google também. O Trainium da Amazon também. As GPUs da Nvidia também.

Se a TSMC tiver qualquer problema — um terremoto em Taiwan, uma crise geopolítica, ou simplesmente falta de capacidade — todo mundo para. A diversificação de chips não resolve a concentração na fabricação.

A Intel está tentando entrar nesse mercado com suas foundries, mas ainda não tem processo competitivo em 3nm. A Samsung Foundry tem 3nm GAA, mas com yields inferiores. Por enquanto, TSMC é o gargalo que ninguém consegue contornar.

A Corrida dos Chips Customizados Vai Acelerar

O Jalapeño não é um evento isolado. É um sinal de que a era dos GPUs como solução universal para IA está chegando ao fim.

Não que GPUs vão desaparecer — elas ainda são imbatíveis para treinamento de modelos fronteira e para workloads variados. Mas para inferência em escala, onde você roda o mesmo modelo bilhões de vezes por dia, chips especializados fazem mais sentido econômico.

A Amazon já está vendendo Trainium para data centers de terceiros. O Google projeta 4,3 milhões de TPUs em 2026. E agora a OpenAI tem o Jalapeño. O cerco à Nvidia está se fechando por todos os lados.

Jensen Huang, CEO da Nvidia, obviamente discorda. A empresa continua investindo pesado na plataforma Vera Rubin e argumenta que a flexibilidade de GPUs justifica o preço premium. E ele tem um ponto — quando você precisa iterar rápido em modelos novos, a programabilidade de CUDA é difícil de bater.

Mas quando o modelo está pronto e você precisa servir 300 milhões de usuários ativos? O ASIC customizado ganha de lavada.

A real é que estamos entrando numa era de especialização extrema em hardware de IA. Chips de treinamento, chips de inferência, chips de edge, chips de reasoning — cada workload terá seu silício otimizado. E as empresas que controlam todo o stack, do modelo ao chip, terão vantagem competitiva brutal.

O Jalapeño é a primeira aposta concreta da OpenAI nessa direção. E se funcionar como prometido, vai ser difícil para qualquer concorrente ignorar.

Shopping cart

Recent Posts

IBM Criou um Chip de

Mais Quente que uma Banheira:

Jalapeño: O Chip da OpenAI