GenCAD: A IA do MIT que Transforma Uma Foto em Projeto CAD Editável

Uma imagem. Um clique. Um projeto CAD completo.

Imagina pegar a foto de uma peça mecânica — um suporte de motor, um encaixe de tubulação, qualquer coisa — e em segundos ter o projeto CAD paramétrico pronto, com todas as operações de sketch e extrusão editáveis no seu SolidWorks ou Fusion 360. Parece ficção? O pessoal do MIT discorda.

O GenCAD é um framework de inteligência artificial desenvolvido no Massachusetts Institute of Technology que faz exatamente isso: recebe uma imagem 2D de um objeto e gera o programa CAD completo — não uma malha 3D tosca, não uma nuvem de pontos, mas a sequência inteira de comandos paramétricos que um engenheiro usaria para modelar a peça do zero.

E o mais perturbador? Ele acerta o comando certo 99,5% das vezes.

Por que isso é diferente de tudo que já existia

Ferramentas de IA para 3D não são exatamente novidade. Temos o Meshy, o Tripo, o Rodin — todos geram modelos tridimensionais a partir de texto ou imagens. Mas aqui mora o problema que qualquer engenheiro mecânico conhece: meshes não são CAD.

Uma mesh é uma aproximação visual. É ótima para games, renders, visualização. Mas tenta pegar uma mesh e mandar pro chão de fábrica. Não dá. Faltam cotas, tolerâncias, a árvore de features, os sketches. Falta tudo que torna um modelo manufaturável.

Representação	Editável?	Manufaturável?	Precisa?	Uso típico
—	—	—	—	—
Mesh (STL/OBJ)	Não	Parcialmente	Baixa	Visualização, impressão 3D
Nuvem de pontos	Não	Não	Média	Escaneamento, metrologia
Voxels	Não	Não	Baixa	Simulação, análise
B-rep / CAD paramétrico	Sim	Sim	Alta	Engenharia, manufatura

O GenCAD opera nessa última linha da tabela. Ele não cospe uma casca 3D — ele gera a receita completa para construir a peça. Cada operação de sketch (linha, arco, círculo), cada extrusão, com todos os parâmetros numéricos. Você pode abrir o resultado, mexer numa cota e a peça inteira se adapta.

Isso é o que separa uma curiosidade acadêmica de algo que pode realmente mudar o fluxo de trabalho de engenharia.

Como o GenCAD funciona por dentro

A arquitetura é elegante — e complexa. São quatro módulos trabalhando em cascata:

1. O Codificador de Sequências CAD (CSR)

Primeiro, o sistema precisa entender a linguagem do CAD. Cada modelo é convertido numa sequência de vetores de 17 dimensões: 1 para o tipo do comando (linha, arco, círculo, extrusão) e 16 para os parâmetros (coordenadas, raios, ângulos, profundidade).

Um transformer autogressivo com 4 camadas de self-attention e 8 attention heads aprende a comprimir essas sequências num espaço latente de 256 dimensões. O modelo tem 6,72 milhões de parâmetros — surpreendentemente compacto.


Sequência CAD → [line(x1,y1,x2,y2), arc(cx,cy,r,θ1,θ2), extrude(d,s)]
             → Vetor 17D por comando
             → Encoder Transformer
             → Latente z (256D)

2. O Alinhamento Contrastivo Imagem-CAD (CCIP)

Aqui entra a mágica da multimodalidade. O sistema usa aprendizado contrastivo (sim, a mesma técnica do CLIP que revolucionou texto-imagem) para alinhar dois mundos: o espaço das imagens e o espaço dos programas CAD.

Um ResNet-18 processa a imagem. O encoder CAD do passo anterior processa a sequência. Uma loss contrastiva com temperatura normalizada empurra os pares corretos (imagem ↔ CAD correspondente) para perto e os pares incorretos para longe no espaço latente.

O resultado? O sistema entende que aquela foto de uma peça em L corresponde a um sketch retangular com extrusão, e não a um cilindro com furos.

3. O Modelo de Difusão (CDP)

Com o espaço latente alinhado, entra a difusão. Um modelo baseado em ResNet-MLP aprende a gerar representações latentes de programas CAD condicionadas na imagem de entrada.

São 500 timesteps de difusão. A cada passo, o modelo concatena o latente ruidoso com o latente da imagem e remove progressivamente o ruído. No final, sobra um vetor limpo no espaço CAD.

4. O Decodificador

O vetor latente volta para o espaço de comandos CAD. O decoder reconstrói a sequência completa: cada sketch, cada operação, cada parâmetro numérico.

Todo o pipeline foi treinado numa NVIDIA A100 de 80GB com o dataset DeepCAD: 168.674 modelos CAD, gerando 840.947 imagens de treinamento (5 variações de escala por modelo).

Os números que impressionam

Vou ser direto com as métricas porque elas falam por si:

Métrica	GenCAD	DeepCAD (baseline)	SkexGen
—	—	—	—
Precisão de comando	99,51%	99,36%	—
Precisão de parâmetros	97,78%	97,59%	—
Distância Chamfer média	0,762	0,783	—
Taxa de formas inválidas	3,32%	3,44%	—
Cobertura (diversidade)	81,37%	78,13%	78,17%

A precisão de comando de 99,51% significa que, em cada 200 operações CAD geradas, apenas uma está errada. Para parâmetros é um pouco menor (97,78%), mas ainda impressionante considerando que estamos falando de coordenadas, raios e ângulos específicos.

A cobertura de 81,37% na geração condicional mostra que o modelo não está simplesmente decorando — ele gera variedade real. Dada a mesma imagem de entrada, pode produzir múltiplas soluções CAD válidas (como um engenheiro faria: existem várias formas de modelar a mesma peça).

No retrieval (busca de modelos similares), o GenCAD atinge 98,49% de acurácia em batches de 10 — ou seja, quase sempre encontra o programa CAD correto numa coleção. Mesmo em batches de 2.048 modelos, mantém 60,77%, sendo 15 vezes mais preciso que busca por similaridade visual direta.

Diversidade de soluções: a IA pensa como engenheiro

Um detalhe que passa despercebido nos benchmarks mas que é crucial na prática: o GenCAD gera múltiplas soluções válidas para a mesma imagem de entrada. Isso não é bug — é feature.

Qualquer engenheiro sabe que existem várias formas de modelar a mesma peça. Você pode começar pelo perfil frontal e extrudar, ou pelo perfil lateral e fazer um corte. Pode usar um sketch único complexo ou múltiplos sketches simples com operações booleanas. O resultado visual é idêntico, mas a árvore de features é completamente diferente.

O GenCAD, graças ao modelo de difusão estocástico, captura exatamente essa ambiguidade. A cada execução com a mesma imagem, ele pode propor uma sequência de operações diferente — todas produzindo geometrias válidas e consistentes com a entrada visual. O modelo determinístico (sem a componente de difusão) produz sempre a mesma saída, mas com qualidade inferior nos benchmarks. A aleatoriedade controlada é justamente o que dá flexibilidade ao sistema.

Na prática, isso significa que um engenheiro poderia gerar 5 variações, avaliar qual árvore de features é mais conveniente para as modificações que pretende fazer, e partir dali. Economiza não só o tempo de modelagem, mas o tempo de planejamento da modelagem — que muitas vezes é a parte mais demorada.

O que o GenCAD NÃO faz (ainda)

Antes de sair correndo para aposentar sua licença de SolidWorks, algumas limitações importantes:

Vocabulário CAD limitado. O modelo atual suporta apenas linhas, arcos, círculos e extrusões. Não tem revolve, fillet, chamfer, shell, pattern. Peças com furos cilíndricos, chanfros ou features de revolução ainda estão fora do alcance.

Imagens “limpas” apenas. O sistema foi treinado com renderizações isométricas em fundo branco. Pegou uma foto real de uma peça com sombras, reflexos e fundo bagunçado? Não vai funcionar bem. Pelo menos por enquanto.

Peças relativamente simples. O dataset DeepCAD tem modelos que, sejamos honestos, são básicos comparados ao que um engenheiro de produto lida no dia a dia. Estamos falando de brackets, suportes, encaixes — não de um bloco de motor completo.

A taxa de falha não é zero. 3,32% dos modelos gerados são geometricamente inválidos. Em ambiente de produção, isso significaria que a cada ~30 peças, uma precisaria de revisão manual.

O cenário maior: IA no CAD em 2026

O GenCAD não existe no vácuo. Toda a indústria de CAD está correndo para integrar IA, e o ritmo acelerou absurdamente neste ano.

A Autodesk já tem o Automated Drawings no Fusion 360, que usa IA para gerar conjuntos de desenhos técnicos automaticamente. A Siemens lançou o Design Copilot para o Solid Edge e o NX. A PTC integrou assistentes de IA no Creo. Até a Onshape tem o AI Advisor respondendo dúvidas de modelagem.

Mas todas essas são ferramentas de assistência — ajudam o engenheiro, mas não substituem o ato de modelar. O GenCAD ataca um problema fundamentalmente diferente: a geração autônoma de geometria paramétrica.

Empresas como a Leo AI (eleita #1 em AI Software pela G2 em 2026, certificada SOC-2, treinada em mais de um milhão de páginas de normas industriais) já fazem busca inteligente em vaults de CAD existentes. O nTopology e o Altair Inspire fazem otimização topológica. Mas nenhum deles pega uma imagem e gera um programa CAD editável do zero.

Existe também o GenCAD-3D, uma evolução do mesmo grupo do MIT que trabalha com alinhamento multimodal de espaços latentes entre CAD e geometria 3D, publicado no Journal of Mechanical Design da ASME. O roadmap é claro: expandir o vocabulário de operações, processar imagens reais e lidar com assemblies completos.

O impacto para quem trabalha com engenharia

Eu já vi projetos de engenharia reversa onde uma equipe gastou semanas escaneando peças antigas, limpando nuvens de pontos, e reconstruindo manualmente cada feature no CAD. Com um GenCAD maduro, esse processo poderia cair para horas.

Pensa nos cenários práticos:

Engenharia reversa: foto da peça → modelo CAD editável. Fim das semanas de reconstrução manual.
Prototipagem rápida: sketch no papel → foto → CAD → impressão 3D. O ciclo de ideação a protótipo em minutos.
Catálogos de peças: digitalização em massa de peças legadas que só existem como desenhos 2D ou fotos em manuais antigos.
Educação: estudantes de engenharia podendo visualizar a relação entre representações 2D e operações 3D de forma interativa.

O mercado de manufatura aditiva deve ultrapassar US$ 40 bilhões nos próximos anos. Empresas que já adotam IA no fluxo de design reportam ciclos de projeto 60% mais rápidos. E a automação de tarefas repetitivas de CAD já cobre entre 20% e 30% do trabalho rotineiro em firmas de ponta.

A pergunta não é se a IA vai gerar CAD. É quando ela vai fazer isso bem o suficiente para a produção real.

Comparando com outras abordagens de IA para 3D

Para situar o GenCAD no ecossistema atual, vale comparar as abordagens disponíveis:

Ferramenta/Abordagem	Input	Output	Editável?	Paramétrico?	Pronto pra manufatura?
—	—	—	—	—	—
GenCAD (MIT)	Imagem 2D	Programa CAD	Sim	Sim	Parcialmente
Meshy / Tripo	Texto ou imagem	Mesh 3D	Limitado	Não	Não
Autodesk Generative Design	Constraints	Geometria otimizada	Parcialmente	Não	Requer cleanup
nTopology	Constraints	Geometria otimizada	Parcialmente	Não	Sim (aditiva)
Leo AI	Texto / geometria	Busca em vault	N/A	N/A	Depende do vault
Siemens Design Copilot	Texto / assistência	Sugestões	N/A	N/A	N/A

A diferença fundamental é que GenCAD, nTopology e Autodesk Generative Design atacam problemas diferentes. Generative design parte de restrições de engenharia (cargas, materiais, volume) e otimiza a forma. GenCAD parte de uma representação visual e reconstrói o processo de modelagem. São complementares, não concorrentes.

O mais próximo do GenCAD em termos de proposta é o Point2Sequence e o DeepCAD, ambos acadêmicos. Mas o GenCAD supera os dois em todas as métricas publicadas, especialmente na geração condicional por imagem — que é justamente o caso de uso mais prático.

Como testar o GenCAD

O código do GenCAD está disponível no GitHub e o paper completo está no arXiv. Você vai precisar de:

Python 3.8+
PyTorch com suporte CUDA
Uma GPU com pelo menos 16GB de VRAM para inferência (treinamento requer A100 80GB)
O dataset DeepCAD (disponível publicamente)


# Clone o repositório
git clone https://github.com/AlamFerdworking/GenCAD.git
cd GenCAD

# Instale dependências
pip install -r requirements.txt

# Baixe os pesos pré-treinados
# (instruções no README do repositório)

# Gere um modelo CAD a partir de uma imagem
python generate.py --image input.png --output output_cad.json

O output é uma sequência de comandos CAD que pode ser convertida para formatos padrão. Não espere milagres no primeiro teste — lembre-se das limitações com imagens reais — mas é funcional o suficiente para entender o potencial.

Onde isso vai parar?

Os pesquisadores do MIT — Md Ferdous Alam e Faez Ahmed — já publicaram o GenCAD-3D, que adiciona alinhamento multimodal com geometria 3D e uma estratégia de aumento de dados sintéticos (SynthBal) para melhorar a representação de geometrias complexas.

O próximo passo lógico é expandir o vocabulário de operações (revolve, fillet, chamfer, boolean operations), treinar com imagens do mundo real (com fundos complexos, iluminação variada) e escalar para assemblies multi-peça.

Se a trajetória de evolução da IA generativa em imagens e texto servir de referência — e em apenas 3 anos fomos do DALL-E 2 para geradores que enganam qualquer pessoa — eu apostaria que em 2028 teremos sistemas que pegam a foto de qualquer peça mecânica e entregam um modelo STEP pronto para usinagem.

E quando isso acontecer, o papel do engenheiro mecânico não desaparece. Muda. Em vez de gastar 80% do tempo modelando e 20% projetando, a proporção se inverte. Mais tempo pensando em função, materiais, tolerâncias, montagem — e menos tempo desenhando geometria.

Que é, no fim das contas, o que todo engenheiro sempre quis.

—

Fonte de inspiração: GenCAD — MIT | Paper no arXiv

Shopping cart

Recent Posts

LongCat-2.0: O Modelo que Enganou

shadcn/ui Trocou o Radix pelo

A IA Matou as Vagas