A GPU de $500 que treina IA — sem precisar da NVIDIA
Eu lembro de 2022, quando tentar rodar qualquer coisa de machine learning numa GPU AMD era como tentar fazer churrasco com um isqueiro. O ROCm existia, sim, mas era aquele tipo de “suporte” que te fazia questionar suas decisões de vida depois de 6 horas debugando drivers.
Três anos depois, o cenário mudou de um jeito que poucos previram. A AMD não só fechou um acordo de 6 gigawatts com a Meta para alimentar seus data centers de IA, como empatou com a NVIDIA no MLPerf Inference v6.0 — o benchmark mais respeitado da indústria. E o mais interessante? Agora você consegue instalar PyTorch com ROCm numa Radeon RX 9070 XT com um simples pip install.
A real é que a NVIDIA construiu um império com o CUDA. Um ecossistema tão dominante que virou sinônimo de computação GPU. Mas impérios caem. E o ROCm está batendo na porta com uma proposta que a NVIDIA não consegue oferecer: código aberto, hardware mais barato e — finalmente — performance competitiva.
O que é ROCm (e por que você deveria se importar agora)
ROCm significa Radeon Open Compute, e é a resposta da AMD ao CUDA. Enquanto o CUDA é proprietário e te prende ao ecossistema NVIDIA, o ROCm é totalmente open source (exceto firmware). Isso significa que qualquer desenvolvedor pode contribuir, auditar e otimizar o stack.
Na prática, ROCm é uma plataforma de computação GPU que inclui:
- HIP (Heterogeneous-compute Interface for Portability): Uma API quase idêntica ao CUDA. Se você sabe escrever código CUDA, sabe escrever HIP — a ferramenta HIPIFY converte automaticamente, com menos de 5% do código precisando de ajustes manuais.
- rocBLAS, rocFFT, MIOpen: Bibliotecas otimizadas equivalentes ao cuBLAS, cuFFT e cuDNN da NVIDIA.
- Suporte nativo a PyTorch, TensorFlow, JAX e ONNX Runtime.
O problema histórico nunca foi a ideia. Era a execução. Drivers quebravam, GPUs consumer não eram suportadas, e a documentação era… digamos, criativa na sua ausência. Isso mudou.
MLPerf Inference v6.0: o momento em que o jogo virou
Em 1º de abril de 2026, a AMD publicou seus resultados no MLPerf Inference v6.0. Não foi piada de primeiro de abril.
O AMD Instinct MI355X — construído na arquitetura CDNA 4, processo de 3nm, com 185 bilhões de transistores — entregou números que fizeram a indústria prestar atenção:
| Benchmark | MI355X vs B200 (NVIDIA) | Resultado |
|---|---|---|
| ———– | ———————— | ———– |
| Llama 2 70B (Offline) | Empate | MI355X igualou a B200 |
| Llama 2 70B (Server) | 97% da performance | Diferença de margem de erro |
| Llama 2 70B (Interactive) | 119% da performance | MI355X venceu |
| Tokens por segundo (single node) | 100.282 tok/s | 3.1x mais que MI325X anterior |
Leu certo. No benchmark interativo, o MI355X superou a B200 da NVIDIA. E no modo offline, empatou. A diferença no modo server foi de míseros 3%.
Pra quem acompanha, o MI355X também foi o primeiro chip a ultrapassar 1 milhão de tokens por segundo no Llama 2 70B em configuração multi-node (11 nós) e no GPT-OSS-120B (12 nós). Esses são números que simplesmente não existiam há um ano para GPUs AMD.
As especificações do hardware explicam parte da história:
- 288 GB de memória HBM3E (contra 192 GB da B200)
- 10 petaflops de performance em FP4/FP6
- Suporte a modelos de até 520 bilhões de parâmetros em uma única GPU
- Eficiência de escalonamento de 97-98% em configurações multi-node
O acordo de 6 gigawatts da Meta: quando o dinheiro fala
Em fevereiro de 2026, AMD e Meta anunciaram uma parceria estratégica expandida. Os números são absurdos: Meta vai implantar 6 gigawatts de GPUs AMD para alimentar sua infraestrutura de IA.
Para dimensionar: 6 gigawatts é mais energia do que toda a cidade de Salvador consome. É o tipo de compromisso que não se faz por caridade ou por “diversificar fornecedores”.
O deal tem algumas camadas interessantes:
Hardware customizado: A primeira fase usa GPUs AMD Instinct MI450 customizadas para a Meta, combinadas com CPUs EPYC de 6ª geração (codinome “Venice”), rodando o stack ROCm sobre a arquitetura rack-scale AMD Helios.
Compromisso financeiro da AMD: A AMD emitiu warrants para a Meta de até 160 milhões de ações, que vestam conforme marcos de entrega são atingidos. A primeira tranche vesta com o primeiro gigawatt de entregas.
Timeline: Entregas da primeira fase começam no segundo semestre de 2026.
O que isso sinaliza pro mercado? A Meta, que tem uma das maiores infraestruturas de ML do planeta e uma equipe de engenharia que não aceita risco de software stack levianamente, apostou bilhões no ROCm. Se o ROCm fosse o mesmo software precário de 2022, esse deal não existiria.
ROCm nas GPUs consumer: a revolução silenciosa
Aqui é onde a coisa fica interessante pra quem não tem orçamento de data center.
O ROCm 7.2 oficialmente suporta GPUs consumer pela primeira vez de verdade. Não é aquele “suporte experimental” com asterisco e reza. A página de requisitos do sistema lista explicitamente:
- Radeon RX 9070 XT
- Radeon RX 9070 GRE
- Radeon RX 9070
- Séries RX 7000 (com suporte preview)
Na prática, isso significa que você pode:
# Instalar PyTorch com suporte ROCm
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.3
E começar a treinar modelos na sua Radeon. Sem patches não oficiais, sem compilar drivers na mão, sem rituais.
O Windows também entrou na jogada. O ROCm 6.4.4 trouxe suporte oficial ao PyTorch no Windows para Radeon RX 9000, RX 7000 e APUs Ryzen AI. Quem trabalha com IA local não precisa mais de Linux obrigatoriamente.
Mas — e esse “mas” é importante — a performance consumer ainda não é a mesma coisa. Uma RX 9070 XT é significativamente mais lenta que uma RTX 4090 para treinamento. A vantagem está no custo: a RX 9070 XT custa em torno de R$ 3.500, enquanto uma RTX 4090 passa dos R$ 12.000. Para inferência local, fine-tuning de modelos menores e experimentação, a proposta é sólida.
CUDA vs ROCm: onde cada um ganha (e perde)
Vamos ser honestos. O CUDA ainda é o rei em vários cenários. Mas a distância encurtou dramaticamente.
| Aspecto | CUDA | ROCm |
|---|---|---|
| ——— | —— | —— |
| Performance bruta | 10-30% mais rápido em workloads pesados | Empata ou vence em inferência interativa |
| Ecossistema | Centenas de bibliotecas otimizadas | Crescendo, mas gaps em TensorRT e FlashAttention 3 |
| Custo de hardware | Premium (A100: ~$10k, H100: ~$25k) | 15-40% mais barato (MI250 vs A100) |
| Suporte a frameworks | Universal | PyTorch, TensorFlow, JAX (oficial) |
| GPUs consumer para IA | RTX 3060+ com CUDA funciona há anos | RX 9070+ com ROCm funciona desde 2026 |
| Código fonte | Proprietário | Open source |
| Cloud pricing | A100: ~$2/hr, H100: ~$3.5/hr | Emergindo, mas opções 15-40% mais baratas |
| Migração de código | N/A (padrão) | HIPIFY converte 95%+ automaticamente |
Os gaps reais do ROCm hoje:
- TensorRT-LLM: A stack de inferência otimizada da NVIDIA não tem equivalente direto no ROCm. Para deploy em produção com latência mínima, CUDA ainda vence.
- FlashAttention 3: Otimizado para Hopper (H100). Existem implementações para AMD, mas não tão maduras.
- NVIDIA NIM containers: O ecossistema de containers pré-otimizados da NVIDIA não tem paralelo.
- Custom CUDA kernels: Se seu pipeline depende de kernels CUDA customizados, a migração exige trabalho manual.
Onde o ROCm brilha:
- Custo-benefício: Hardware 15-40% mais barato com performance cada vez mais próxima.
- Memória HBM: MI355X tem 288 GB vs 192 GB da B200. Mais memória = modelos maiores sem multi-GPU.
- Open source: Auditable, customizável, sem vendor lock-in.
- Inferência interativa: Nos benchmarks MLPerf, ROCm superou CUDA neste cenário.
A ferramenta HIPIFY: migrando de CUDA para ROCm
Se você tem código CUDA e quer testar no ROCm, a AMD criou o HIPIFY — uma ferramenta que traduz automaticamente chamadas CUDA para HIP.
# Converter um arquivo CUDA para HIP
hipify-perl cuda_code.cu > hip_code.cpp
# Ou usar a versão clang (mais precisa)
hipify-clang cuda_code.cu -o hip_code.cpp
Na maioria dos casos, a conversão é mecânica:
// CUDA
cudaMalloc(&d_ptr, size);
cudaMemcpy(d_ptr, h_ptr, size, cudaMemcpyHostToDevice);
kernel<<<grid, block>>>(d_ptr);
cudaFree(d_ptr);
// HIP (gerado automaticamente)
hipMalloc(&d_ptr, size);
hipMemcpy(d_ptr, h_ptr, size, hipMemcpyHostToDevice);
kernel<<<grid, block>>>(d_ptr);
hipFree(d_ptr);
A API é quase idêntica por design. A AMD estima que aplicações típicas requerem mudanças em menos de 5% do código. O trabalho real aparece quando você depende de bibliotecas proprietárias como cuDNN ou TensorRT — essas precisam ser substituídas pelos equivalentes AMD (MIOpen, etc.), e a paridade de features nem sempre é 1:1.
O efeito dominó: o que acontece quando a NVIDIA perde o monopólio
A dominância do CUDA não é apenas técnica — é econômica. A NVIDIA pode cobrar margens de 70%+ em GPUs de data center porque não existe alternativa viável. Ou não existia.
Com o ROCm se tornando competitivo, três coisas tendem a acontecer:
1. Preços vão cair. Competição real força a NVIDIA a ser mais agressiva em pricing. Já estamos vendo isso: a B200 teve um preço de lançamento mais comedido que o esperado.
2. O ecossistema vai se abrir. Frameworks vão investir mais em backends agnósticos de hardware. O PyTorch já está nessa direção com o torch.compile e backends plugáveis.
3. Cloud providers vão diversificar. AWS, Azure e Google Cloud já oferecem instâncias com GPUs AMD. À medida que a performance se equipara, a pressão por preços menores beneficia todo mundo.
A Intel, com suas GPUs Gaudi, também entra nessa equação. Mas enquanto a Intel ainda está tentando encontrar seu lugar, a AMD já sentou à mesa principal.
Rodando um LLM local com ROCm: guia rápido
Se você tem uma RX 9070 XT e quer testar, aqui vai o caminho mais direto:
# 1. Instalar ROCm (Ubuntu 22.04+)
sudo apt update
sudo apt install rocm-dev rocm-libs
# 2. Verificar se a GPU é detectada
rocm-smi
# 3. Instalar PyTorch com ROCm
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.3
# 4. Testar
python -c "import torch; print(torch.cuda.is_available())"
# Sim, o PyTorch usa 'cuda' na API mesmo pra ROCm — é compatível por design
# 5. Rodar um modelo com Hugging Face
pip install transformers accelerate
python -c "
from transformers import pipeline
pipe = pipeline('text-generation', model='microsoft/phi-2', device='cuda')
print(pipe('The future of GPU computing is', max_new_tokens=50))
"
Para modelos maiores, o llama.cpp tem suporte ROCm nativo via backend HIP. Modelos quantizados em GGUF rodam bem em GPUs com 16 GB de VRAM.
Os números que importam: custo por token
No fim, o que define a escolha de infraestrutura de IA é custo por token ou custo por operação. E é aqui que o ROCm começa a ficar atraente para empresas.
| Configuração | Custo/hora (cloud) | Tokens/segundo (Llama 70B) | Custo por milhão de tokens |
|---|---|---|---|
| ————- | ——————- | ————————— | ————————— |
| NVIDIA H100 (80GB) | ~$3.50/hr | ~2,800 tok/s | ~$0.35 |
| NVIDIA B200 (192GB) | ~$5.50/hr | ~4,200 tok/s | ~$0.36 |
| AMD MI355X (288GB) | ~$3.80/hr* | ~4,100 tok/s | ~$0.26 |
*Estimativa baseada em preços early-access. Pode variar.
A diferença não é enorme, mas escala. Se você processa bilhões de tokens por dia — como a Meta — essa diferença se traduz em milhões de dólares economizados por ano.
O que esperar daqui pra frente
O roadmap da AMD é agressivo. O MI450, previsto para o segundo semestre de 2026, vai ser o chip customizado para a Meta — e certamente terá otimizações que beneficiam o ecossistema todo.
No lado consumer, a tendência é clara: as próximas gerações de Radeon vão ter suporte ROCm de primeira classe desde o dia 1. A AMD entendeu que capturar desenvolvedores na fase de aprendizado (com GPUs de $500) é o caminho para capturá-los no data center (com GPUs de $25.000).
O CUDA não vai morrer. É maduro demais, entranhado demais no ecossistema. Mas o monopólio? Esse está com os dias contados. E quem ganha com isso somos nós — os desenvolvedores que finalmente têm uma escolha real.
Se você está começando um projeto novo de IA em 2026 e não precisa de TensorRT, vale a pena considerar o ROCm. O hardware é mais barato, a performance é competitiva, e você não fica preso a um vendor. E se der errado? O HIPIFY faz o caminho de volta em minutos.















