Google Lança 2 TPUs: 121 ExaFLOPS para Destronar a Nvidia

Google Lança 2 TPUs: 121 ExaFLOPS para Destronar a Nvidia

Pela primeira vez em uma década de desenvolvimento de chips customizados, o Google decidiu que um único processador não dá conta do recado. No Cloud Next ’26, anunciado hoje (22 de abril), a empresa revelou o TPU 8t e o TPU 8i — dois chips completamente diferentes, cada um otimizado para uma metade do problema da inteligência artificial. Um treina modelos. O outro roda inferência. E os números são absurdos.

Um Chip Virou Dois: Por Que o Google Fez Isso?

Desde o TPU v1, lá em 2015, o Google sempre apostou no chip “faz-tudo”. Um único acelerador que treinava modelos e também servia inferência em produção. Funcionou por sete gerações. Mas a era dos agentes de IA — onde modelos raciocinam continuamente, executam workflows de múltiplos passos e coordenam entre si — mudou o jogo.

O problema é simples: treinar um modelo gigante e rodar inferência em tempo real são tarefas fundamentalmente diferentes.

Treino exige throughput massivo — quanto mais operações por segundo você processar, mais rápido o modelo aprende. Latência não importa tanto. Você pode esperar horas ou dias pelo resultado.

Inferência, por outro lado, é obsessão com latência. Quando um agente de IA precisa responder em milissegundos, cada nanosegundo conta. A memória cache precisa ser enorme para manter o contexto do modelo. E a comunicação entre chips precisa ser ultrarrápida para não criar gargalos.

Tentar otimizar um chip para ambos os cenários ao mesmo tempo é como projetar um carro que seja simultaneamente um F1 e um caminhão de carga. Dá pra fazer algo razoável nos dois, mas excelente em nenhum.

O Google finalmente decidiu parar de fazer concessões.

TPU 8t: O Monstro do Treino

O TPU 8t é o chip para quem quer treinar os próximos modelos de fronteira. Os números:

Especificação	TPU 8t
—	—
Compute (FP4)	12,6 petaFLOPS por chip
Memória HBM	216 GB
Bandwidth de memória	6,5 TB/s
SRAM on-chip	128 MB
Bandwidth chip-a-chip	19,2 Tbps
Chips por superpod	9.600
Compute total do superpod	121 exaFLOPS
Memória compartilhada	2 petabytes

Vamos contextualizar: 121 exaFLOPS significa 121.000.000.000.000.000.000 operações de ponto flutuante por segundo. É quase 3x o que o Ironwood (TPU v7) entregava com o mesmo número de chips.

A largura de banda chip-a-chip dobrou em relação à geração anterior — 19,2 terabits por segundo. Isso é crítico para treino distribuído, onde milhares de chips precisam trocar gradientes entre si constantemente. Gargalos de comunicação são o que matam a escalabilidade de clusters de treino, e o Google claramente investiu pesado nisso.

O Google afirma que o TPU 8t entrega 2,7x melhor custo-performance que o Ironwood para treino em larga escala. Traduzindo: treinar o mesmo modelo custa quase 3x menos, ou você treina um modelo 3x maior pelo mesmo preço.

O Que Muda na Prática

Eu já vi equipes esperarem semanas para treinar um modelo de linguagem grande. Com clusters de 9.600 TPU 8t e 121 exaFLOPS disponíveis, modelos que levavam 3 semanas agora podem levar uma. Isso não é só economia de dinheiro — é velocidade de iteração. Quem treina mais rápido, experimenta mais, e quem experimenta mais, chega primeiro no modelo melhor.

E tem outro detalhe: 2 petabytes de memória compartilhada no superpod. Isso permite manter modelos absurdamente grandes inteiramente distribuídos na memória de alta velocidade, sem precisar paginar para armazenamento externo. Para modelos com trilhões de parâmetros, isso é game-changer.

TPU 8i: Inferência com Esteroides

Se o 8t é músculo bruto, o 8i é velocidade e eficiência. Este chip foi projetado para uma única missão: servir modelos de IA em produção com a menor latência e o menor custo possível.

Especificação	TPU 8i
—	—
Compute (FP4)	10,1 petaFLOPS por chip
Memória HBM	288 GB
Bandwidth de memória	8,6 TB/s
SRAM on-chip	384 MB
Chips por pod	1.152
Melhoria custo-performance	80% vs Ironwood

Repare nas diferenças. O 8i tem menos poder computacional bruto que o 8t (10,1 vs 12,6 petaFLOPS), mas compensa com muito mais memória e cache:

288 GB de HBM contra 216 GB do 8t — mais memória para manter o KV-cache dos modelos de linguagem
384 MB de SRAM — 3x mais que o 8t. SRAM é a memória mais rápida do chip, e ter mais dela significa menos idas e vindas à HBM
8,6 TB/s de bandwidth de memória — 32% mais que o 8t

Por quê tudo isso? Porque inferência de modelos de linguagem grandes é memory-bound, não compute-bound. O gargalo não é calcular — é buscar os pesos e o contexto da memória rápido o suficiente para alimentar as unidades de cálculo.

A Morte do SparseCores

Uma mudança técnica significativa: o TPU 8i abandona os SparseCores que estavam presentes desde o TPU v4. No lugar, entra o Collective Acceleration Engine (CAE).

O CAE é um bloco dedicado que acelera operações coletivas — all-reduce, all-gather, e outras primitivas de comunicação que acontecem durante inferência distribuída. Em vez de usar os cores de processamento geral para sincronização (desperdiçando ciclos de compute), o CAE cuida disso em hardware dedicado.

Na prática, isso significa menos “stalls” de sincronização. Quando 1.152 chips precisam se coordenar para servir um único request, cada microssegundo de sincronização conta. O CAE ataca exatamente esse gargalo.

Topologia Nova

O 8i também usa uma nova topologia de interconexão. Em vez dos 256 chips por pod do Ironwood, agora são 1.152 chips conectados diretamente. Isso é mais de 4x a escala, permitindo servir modelos maiores sem fragmentar o cluster.

Para quem roda agentes de IA que precisam de respostas rápidas e raciocínio em tempo real — como o Gemini fazendo múltiplas chamadas de ferramenta em sequência — essa escala de inferência é o que separa uma resposta em 2 segundos de uma resposta em 200 milissegundos.

A História dos TPUs: De AlphaGo aos Agentes

Para entender a magnitude desse anúncio, vale revisitar como o Google chegou aqui.

2015 — TPU v1: O chip secreto que rodou AlphaGo. 92 TOPS em INT8, 40 watts de consumo. Provou que silício customizado podia ser 15-30x mais rápido que GPUs para workloads específicos de IA.

2017 — TPU v2: Primeiro chip com suporte a treino. Introduziu o Inter-Chip Interconnect (ICI), conectando 256 chips em um pod com 11,5 petaFLOPS.

2018 — TPU v3: Dobrou a performance para 420 teraFLOPS por chip. Precisou de refrigeração líquida pela primeira vez. Pods com 1.024 chips ultrapassaram 100 petaFLOPS.

2021 — TPU v4: Topologia 3D torus para escalabilidade radical. Performance 2x superior ao v3.

2023 — TPU v5: Quase 2x mais rápido que v4. Foco em eficiência de custo.

2024 — TPU v6 Trillium: Core MLP otimizado para Transformers.

2025 — Ironwood (v7): O salto para inferência. 4.614 teraFLOPS por chip, 192 GB de HBM, 7,4 TB/s de bandwidth.

2026 — TPU 8t/8i: A separação definitiva. Pela primeira vez, chips dedicados para cada metade do problema.

O padrão é claro: cada geração foi ficando mais especializada, até chegar no ponto em que um único design não conseguia mais ser ótimo para ambos os casos.

Google vs Nvidia: A Guerra dos Chips de IA

Não dá pra falar de TPUs sem falar da Nvidia. Vamos comparar.

A Nvidia opera com uma filosofia diferente (e a AMD também está atacando esse monopólio): um GPU unificado (como o Blackwell B200 ou o futuro Rubin) que serve tanto treino quanto inferência. A vantagem? Flexibilidade. Quem compra Nvidia pode realocar hardware entre cargas de trabalho conforme a demanda.

O Google aposta na especialização. A vantagem? Performance máxima em cada cenário.

	TPU 8t (Treino)	TPU 8i (Inferência)	Nvidia Blackwell B200	Nvidia Rubin (previsto)
—	—	—	—	—
Compute FP4	12,6 PFLOPS	10,1 PFLOPS	~20 PFLOPS	~35 PFLOPS
HBM	216 GB	288 GB	192 GB	288 GB
Bandwidth	6,5 TB/s	8,6 TB/s	8 TB/s	22 TB/s

Na comparação chip-a-chip, a Nvidia ainda tem vantagem em compute bruto — especialmente o Rubin com seus 35 petaFLOPS e 22 TB/s de bandwidth. Mas tem um detalhe que a tabela não mostra: custo.

O Google não vende TPUs. Você aluga capacidade via Google Cloud. E é aí que a comparação de custo-performance (2,7x melhor no treino, 80% melhor na inferência) se torna relevante. Se o Google oferece performance competitiva por uma fração do preço, quem precisa do chip mais rápido do mundo?

Como o VentureBeat colocou: “o Google não paga a taxa Nvidia”. Enquanto todas as outras clouds compram GPUs da Nvidia a preço de ouro, o Google fabrica seus próprios chips. Essa vantagem estrutural de custo é o verdadeiro diferencial.

“Era Agêntica”: Buzzword ou Realidade?

O Google batizou esse lançamento como “dois chips para a era agêntica”. Vamos separar o marketing da substância.

A tese do Google é que estamos migrando de um mundo onde IAs respondem perguntas isoladas para um mundo onde agentes autônomos executam workflows complexos. Um agente de IA moderno pode:

Receber uma tarefa complexa
Quebrá-la em subtarefas
Chamar ferramentas externas (APIs, bancos de dados, navegador)
Raciocinar sobre os resultados
Iterar até completar a tarefa

Cada uma dessas etapas é uma chamada de inferência. Um único pedido do usuário pode gerar dezenas ou centenas de chamadas de inferência em sequência. Multiplique isso por milhões de usuários e você tem uma demanda de inferência que é ordens de magnitude maior que o velho chatbot pergunta-resposta.

Essa é a razão real do TPU 8i. Não é só sobre servir um modelo mais rápido — é sobre servir um modelo que pensa continuamente, chama ferramentas, e precisa manter contexto entre dezenas de interações em uma única sessão.

O Google Cloud Next ’26 também trouxe o Gemini Enterprise Agent Platform e o Workspace Intelligence — uma camada semântica que conecta Gmail, Docs, Chat e outros apps do Workspace para que agentes Gemini tenham contexto completo sobre projetos, colaboradores e tarefas em andamento. O hardware (TPUs) e o software (plataforma de agentes) estão sendo construídos em conjunto.

Buzzword? Um pouco. Mas a tendência de agentes é real, e o Google está investindo bilhões em silício dedicado para ela.

O Que Isso Significa Para Devs e Empresas

Se você é dev e roda modelos no Google Cloud, três coisas mudam:

1. Treino fica mais barato. Com 2,7x melhor custo-performance, aquele fine-tuning que custava $10.000 agora pode custar $3.700. Isso democratiza o treino de modelos customizados para empresas menores.

2. Inferência fica mais rápida. O TPU 8i com 80% melhor custo-performance e topologia de 1.152 chips vai permitir servir modelos maiores com latência menor. Se você está construindo apps com agentes de IA, a experiência do usuário final melhora significativamente.

3. A era do chip único acabou. Espere que AWS (com Trainium e Inferentia) e outros players sigam essa tendência de separar hardware de treino e inferência. Isso vai mudar como arquitetos de infraestrutura planejam clusters de ML.

Para quem está no ecossistema Nvidia, o recado é outro: o Google está atacando por preço, não por specs brutas. Se a sua organização é sensível a custo (e qual não é?), vale reavaliar se pagar a “taxa Nvidia” ainda faz sentido quando alternativas competitivas estão disponíveis por uma fração do valor.

O Elefante na Sala: Disponibilidade

Os dois chips entram em disponibilidade geral “no final deste ano” — o Google não deu data exata. Isso é importante porque chips de IA anunciados e chips de IA que você pode realmente usar são coisas muito diferentes.

O Ironwood foi anunciado em abril de 2025 e levou meses para estar amplamente disponível. Se o padrão se repetir, estamos falando de Q3 ou Q4 de 2026 para acesso geral ao TPU 8t/8i.

Até lá, a Nvidia já pode ter o Rubin disponível. A corrida não é só de specs — é de quem entrega primeiro.

Pra Onde Isso Vai

A separação treino/inferência não é exclusividade do Google. A AWS já faz isso com os chips Trainium (treino) e Inferentia (inferência). A diferença é que o Google está fazendo isso em uma escala e com uma integração vertical que ninguém mais tem — do chip customizado ao modelo (Gemini) à plataforma de agentes, tudo é controlado internamente.

Se eu fosse apostar no futuro dos chips de IA, diria que em 2 anos ninguém mais vai lançar um “chip de IA genérico”. Vai ser sempre treino ou inferência, otimizado até o último transistor para sua respectiva tarefa. O Google apenas chegou lá primeiro com chips próprios em cloud pública.

E 121 exaFLOPS em um superpod de 9.600 chips? Isso é mais poder computacional do que muitos países inteiros tinham disponível há 5 anos. A escala é surreal, e a competição com a Nvidia nunca esteve tão acirrada.

Fonte de inspiração: Our eighth generation TPUs: two chips for the agentic era — Google Blog

Shopping cart

Recent Posts

Firefox Tinha Um Identificador Secreto

Google Lança 2 TPUs: 121

US$ 60 Bilhões pelo Cursor:

Google Lança 2 TPUs: 121 ExaFLOPS para Destronar a Nvidia

Google Lança 2 TPUs: 121 ExaFLOPS para Destronar a Nvidia

Um Chip Virou Dois: Por Que o Google Fez Isso?