Sem watts, sem milagres: a guerra real da IA é energia, memória e rede

BY - Lucas Dalcolmo dezembro 11, 2025 Comments (0) 8 Mins Read

Sem watts, sem milagres: a guerra real da IA é energia, memória e rede

Quanto vale um gigawatt de inteligência? CFOs começam a precificar modelos pelo consumo elétrico e atraso de conexão ao grid. As filas por GPUs ainda rendem manchetes, mas a briga decisiva migrou para três frentes menos glamorosas: energia, memória e redes. Sem elas, não há milagre algorítmico que entregue latência baixa e conta paga.

Top 5 Trend Topics

1) Data centers viram usinas: microgrids, calor como produto e resfriamento líquido

A escassez de energia em regiões quentes de IA empurra operadores para microgrids com baterias BESS, contratos PPA longos e reaproveitamento de calor em rede distrital. No piso, racks acima de 80 kW migrando para liquid-to-chip e portas traseiras refrigeradas; em escala, corredores inteiros com imersão de dois estágios para picos de 120 kW por rack sem barulho de turbina. Meta-jogo: reduzir PUE e, principalmente, WUE, porque água virou variável política.

2) Memória é o novo gargalo: HBM no limite, CXL compondo o resto

Treinar e fazer inferência em lotes maiores esbarra em banda e capacidade. HBM entrega múltiplos terabytes por segundo por acelerador, mas não escala barato. A saída do mercado corporativo é tiering: HBM para hot data, DDR5 para mid-tier e pools CXL 3.x para ampliar o working set sem reescrever tudo. Memória deixa de ser periférico e vira tecido compartilhado.

3) Ethernet toma o cluster de IA: redes óticas de 800G e telemetria em tempo real

Com switches de 51,2T e NICs de 400/800G, cresce a preferência por Ethernet com fio ótico ativo, visibilidade por INT e controle de congestionamento de baixa latência. O objetivo: latência tail previsível para all-reduce em escala com menos retrabalho. PFC-free é a estrela do momento para evitar deadlocks, apoiado por filas virtuais, ECN e algoritmos modernos de controle. 1,6T desponta no roadmap e empurra óptica para mais perto do ASIC.

4) NPUs em todo lugar: inferência local sai do laboratório

Laptops e smartphones com NPUs acima de 50 TOPS liberam copilotos offline, tradução sem nuvem e visão computacional em campo. Com quantização agressiva, sparsity estruturada e LoRA, modelos medianos rodam no bolso e privatizam dados sensíveis. Empresas redesenham UX: primeiro local, depois nuvem. E o custo recorrente de inferência cai em silêncio, que é onde CFO sorria.

5) Robôs ficam úteis: fundações de visão e tato encontram chão de fábrica

Modelos multimodais melhoram percepção e planejamento; o restante é engenharia de confiança. AMRs navegam depósitos, braços executam picking assistido por visão e sensores de força, e a 5G privada desce jitter. O piloto eterno vira operação: contratos de SLA e manutenção preditiva substituem demos virais.

O pano de fundo é simples e incômodo: a economia de IA não escala só com silício. Ela escala com watts, fios e fluidos. A boa notícia é que isso é engenharia; a má é que engenharia tem lead time, e o varejo de GPU não resolve gargalo de tubulação.

Vamos às peças, sem romance:

Energia e resfriamento. Campi de 100 MW passaram de exotismo a baseline para treinar e servir próximos do usuário. Direto ao ponto: em ar-condicionado tradicional, rack de 30 kW já soa alto; com placas densas e HBM, vira piada interna. Direct-to-chip com cold plates e unidades de distribuição de líquido (CDUs) no corredor derrubam a temperatura, reduzem PUE e abrem margem térmica para ciclos mais longos sem throttling. Rear-door heat exchangers tratam cargas mistas sem mexer no layout inteiro. Em climas frios, heat reuse injeta calor em redes distritais e transforma desperdício em CAPEX compensado.

Memória como infraestrutura. O salto de desempenho hoje está menos em FLOPs e mais em bytes por segundo. Técnicas de pipeline e tensor parallel só vão até onde a HBM banca. O que vem na prática: CXL 3.x introduz topologias malhas e pooling de vários hosts, permitindo compor 1 a N terabytes adicionais por nó lógico com latência aceitável para camadas menos sensíveis. Isso muda sizing de cluster e licenciamento, além de reduzir o custo de ficar refazendo sharding manual a cada novo dataset.

Redes de verdade para IA. O all-reduce detesta jitter. É aqui que entram fabrics Ethernet com telemetria em banda, filas virtuais por prioridade e controle congestionado bem-comportado. Com 800G por porta e óptica de alto alcance, dá para manter fat-trees mais planas, minimizar oversubscription e reduzir hot spots. A nova geração de switches escala para 51,2T por chassi e prepara a transição para 1,6T por porta com óptica de drive linear, simplificando o caminho e cortando consumo dos DSPs.

Três pontos técnicos para guardar na manga:

Resfriamento líquido direto ao chip permite densidades de 80 a 120 kW por rack com estabilidade térmica melhor que ar frio de corredor, reduzindo throttling sob picos de 10 a 15 minutos.
CXL 3.x habilita pooling e switching multi-host, criando um tier intermediário entre HBM e NVMe que pode reduzir o custo de memória por gigabyte em clusters de treinamento e inferência stateful.
Fabrics Ethernet de 800G com telemetria em banda e controle de congestionamento orientado a fila entregam latência tail mais estável para operações coletivas do que redes com PFC pesado, além de simplificar operação e troubleshooting.

Mercado em modo execução. Hiperscalers firmam PPAs com renováveis, constroem microgrids e reservam linhas de transmissão anos antes de ligar a primeira sala. Colocations lançam data halls líquidos dedicados a IA. Fornecedores de servidores apostam em plataformas projetadas para líquido desde o chassi, com manifolds rápidos para troca de bandejas sem banho acidental. No varejo corporativo, bancos e telcos montam pods de 8 a 32 aceleradores para workloads críticos com soberania de dados e pipelines MLOps que tratam compliance como feature, não como etapa opcional.

NPUs e edge. A peça que faltava nos laptops chegou: NPUs capazes de rodar modelos multimodais úteis sem torrar bateria em meia hora. Com quantização para INT4 e FP8, mais sparsity induzida, tasks comuns como resumo, tradução e visão industrial rodam localmente. Adote duas regras simples: 1) inferência offline por padrão quando dados forem sensíveis; 2) nuvem para tarefas de colaboração e picos. Resultado: menos latência, menos custo, menos risco jurídico. O usuário sente? Sente: apps mais ágeis e privacidade que não depende de promessa.

Robótica que entrega. A combinação de câmeras RGB-D, Lidar de curto alcance, sensores de força e modelos de visão robustos transformou AMRs em funcionários de confiança para rotas repetitivas. Em picking, o truque é mais software do que gripper exótico: segmentação semântica, detecção de pose e política de replanejamento que tolera bagunça humana. 5G privado e Wi‑Fi 7 dão canal determinístico em ambientes metalizados, e a computação de borda com GPUs compactas ou NPUs dedicadas evita backhaul caro. O KPI crítico já não é demos por semana, é MTBF e tempo de retomada.

Economia real. CAPEX de IA não é só GPU: infraestrutura de energia, refrigeração, fibra e óptica pode representar fatia generosa da conta final por MW instalado. TCO de inferência sobe com popularidade do serviço; é por isso que todo mundo fala de distil e caching. Modelos menores e especializados pegam uma, duas, três tarefas do gigante generalista e tiram 40% da conta de produção com quase zero de perda perceptível. Para CFO, isso é música; para engenharia, é backlog de re-arquitetura.

Riscos e blindagens. Gargalos de substratos e HBM atrasam entregas; água e energia atraem fiscalização em estados sedentos; redes mal configuradas transformam all-reduce em loteria; robôs sem fail-safes viram passivo. O antídoto é previsível: SRE para IA, observabilidade que enxerga GPU, memória e rede como um só sistema, e segurança integrada no pipeline de dados. Dói menos do que parecer na manchete.

Conclusão

O próximo salto de IA virá menos de parâmetros e mais de engenharia de base. Três apostas com coragem de banca: 1) energia vira API — workloads negociam potência como negociam CPU; 2) óptica encosta de vez no ASIC, co-packaged ou não, e relega cobre de alta velocidade ao papel de curta distância; 3) apps adotam inferência local por padrão e a nuvem vira orquestrador, não muleta. Robôs? Eles assumem as tarefas chatas, e é aí que a revolução finalmente paga dividendos.

Se a sua estratégia ainda começa por comprar mais GPU, troque a ordem: garanta watts, feche a conta térmica, desenhe a malha de rede, componha memória. O resto é implementação.

Shopping cart

Recent Posts

Visual Studio 2026 acelera sua

A conta secreta da IA:

A fatura por trás do