Cabos, chips e kilowatts: quem manda na IA não é o algoritmo, é a infraestrutura

BY - Lucas Dalcolmo dezembro 7, 2025 Comments (0) 8 Mins Read

Cabos, chips e kilowatts: quem manda na IA não é o algoritmo, é a infraestrutura

A fila por GPUs virou piada interna. O gargalo real agora é energia, fibra e memória de alta largura de banda. Quem tiver o melhor pipeline físico — do silício ao transformador — leva a próxima década de IA, não importa quantos papers apareçam no arXiv.

Corpo Principal

O glamour do “modelo X supera Y no benchmark Z” rende manchete, mas o orçamento de IA está migrando para ativos nada instagramáveis: transformadores, chillers, fibras e embalagens avançadas. E sim, placas-mãe com mais cobre do que sua cafeteria tem de latte. A matemática é simples: cada salto de qualidade nos modelos vem com uma fatura em watts e gigabits.

Técnica 1: memória e interconexão. Treinar e servir modelos densos não escala sem largura de banda de memória. HBM3E já entrega múltiplos terabytes por segundo por acelerador; isso só é possível com packaging tipo 2.5D/3D (CoWoS, SoIC) para driblar limites físicos de trilhas tradicionais. Nos racks, CXL 3.x abre o pooling de memória: servidores podem montar “pools” compartilhados via PCIe 6.0/7.0, reduzindo ociosidade e derrubando o custo por token em inferência. Em cluster, 800G por porta consolida a espinha dorsal, e os primeiros módulos 1.6T em OSFP/QSFP-DD fazem piloto onde o tráfego leste–oeste sufoca. Isso não é capricho: MoEs exigem que os especialistas conversem o tempo todo; sem bisection, você tem GPUs caríssimas esperando pacote. E isso dói na planilha.

Técnica 2: computação sob medida. NPUs saem do marketing e viram utilidade pública. Em client, rodar ASR local com INT8/INT4 e operadores otimizados (WinML/Core ML/NNAPI) muda a experiência; em edge industrial, um gateway com NPU segura visão de alta frequência e só manda metadados. No data center, FP8 virou o “ponto doce” para treino; para inferência, INT4 e sparsity estruturada fazem milagre em throughput sem degradar qualidade perceptível. O efeito colateral: CPU volta a ser orquestrador, não protagonista, e a briga de instruções x86 vs Arm agora é sobre quem alimenta melhor o acelerador.

Técnica 3: rede consciente. Em redes de IA, o que mata não é a média, é a cauda. ECN agressivo, DCTCP ajustado, red hashing e congestion control com telemetria em tempo real entram como padrão. Fabric Ethernet “para IA” adiciona programabilidade via P4 e aceleração de coletivas (all-reduce parcial no switch). Isso torna o debate Infiniband vs Ethernet menos religioso e mais econômico: em muitos workloads, a Ethernet com tuning certo entrega latência suficiente e escala com custo menor e cadeias de suprimento menos quebradiças.

Exemplos que já mudam o mercado: hiperescaladores vêm anunciando gerações próprias de CPUs Arm para cloud generalista e ASICs de ML para tarefas específicas. Fornecedores de óptica antecipam volumes de 800G, e operadores de data center redesenham plantas para liquid cooling direto ao chip — quem tentou “remendar” com ar descobriu que 700–1.000 W por slot não perdoam. Em paralel o, acordos de energia de longo prazo com fontes firmes ganham prioridade. PPAs com nuclear existente e térmicas flexíveis de backup entram como ponte enquanto solar e eólica crescem com armazenamento. Ninguém gosta da conta, mas gosta menos ainda de fila de GPU parada por falta de megawatt.

Economia e risco: a curva de custo por token de inferência está em queda, porém volátil. A cadeia de HBM e packaging é concentrada e sensível — qualquer tropeço vira lead time de meses. Reguladores começam a olhar WUE e uso de água onde o clima cobra caro. Em telecom, 5G Advanced e satélite‑para‑celular prometem cobrir buracos de conectividade, abrindo espaço para edge distribuído em agricultura, mineração e logística. Mas a festa só acontece se a pilha for confiável: cibersegurança em OT, supply chain de firmware e atualização remota segura viram pré-requisito. Não adianta um robô brilhante se o switch sofre com um CVE esquecido.

Robótica na prática: depois de anos de “quase lá”, vemos automação modular: robôs móveis com câmeras estereoscópicas, braços com torque feedback e modelos VLA fazendo percepção e planejamento local. Treina-se offline com dados sintéticos e fine-tuning in situ. Latência de controle fica no edge; a nuvem coordena, avalia e reentreina. O impacto? Flexibilidade de linha sem precisar um exército de integradores a cada troca de SKU. E quando dá bug às 3 da manhã, o técnico resolve com rollback de política, não com fita isolante.

Oportunidades imediatas: reaproveitamento de calor para aquecimento distrital; contratos de resposta à demanda que monetizam flexibilidade; e “second life” para aceleradores — depois de treinarem SOTA, viram fazenda de inferência e RAG on-prem. No software, padronizar grafos de execução entre backends (CUDA, ROCm, DirectML, Metal) evita reescrita a cada GPU. No hardware, acompanhar PCIe 6/7 e CXL não é luxo: é o que separa clusters que escalam de clusters que engargalam em DMA.

Conclusão

Algumas apostas com cheiro de realidade:

Co-packaged optics deixa de ser piloto de laboratório e aparece em clusters de IA de produção, cortando pico de consumo por bit e liberando densidade por rack.
Até o próximo ciclo, ao menos um terço da inferência corporativa relevante roda em edge/endpoint com NPU, não por modismo, mas por custo, latência e conformidade.
PUE bonitinho perde relevância sozinho; WUE e fator de capacidade contratada viram KPI de diretoria. Heat reuse sai da nota de rodapé para o CAPEX.
Memória desagregada via CXL pega tração primeiro em analytics e inferência; treino pesado segue colado no HBM, mas com chiplets ganhando espaço.

Se a sua estratégia de IA não começa com uma pergunta chata — “de onde vêm os watts e por onde passam os bits?” — ela termina com respostas caras. Hora de colocar energia, óptica e resfriamento no mesmo backlog do modelo. E sim, vale auditar o firmware do switch antes do próximo fine-tuning.

CTA leve: mapeie hoje seu budget não‑algorítmico: energia, fibra, cooling, memória. Descubra onde estão os gargalos físicos antes que eles descubram você.

Shopping cart

Recent Posts

A conta secreta da IA:

A fatura por trás do

O mito do exactly-once: por