Uma imagem. Um clique. Um projeto CAD completo.
Imagina pegar a foto de uma peça mecânica — um suporte de motor, um encaixe de tubulação, qualquer coisa — e em segundos ter o projeto CAD paramétrico pronto, com todas as operações de sketch e extrusão editáveis no seu SolidWorks ou Fusion 360. Parece ficção? O pessoal do MIT discorda.
O GenCAD é um framework de inteligência artificial desenvolvido no Massachusetts Institute of Technology que faz exatamente isso: recebe uma imagem 2D de um objeto e gera o programa CAD completo — não uma malha 3D tosca, não uma nuvem de pontos, mas a sequência inteira de comandos paramétricos que um engenheiro usaria para modelar a peça do zero.
E o mais perturbador? Ele acerta o comando certo 99,5% das vezes.
Por que isso é diferente de tudo que já existia
Ferramentas de IA para 3D não são exatamente novidade. Temos o Meshy, o Tripo, o Rodin — todos geram modelos tridimensionais a partir de texto ou imagens. Mas aqui mora o problema que qualquer engenheiro mecânico conhece: meshes não são CAD.
Uma mesh é uma aproximação visual. É ótima para games, renders, visualização. Mas tenta pegar uma mesh e mandar pro chão de fábrica. Não dá. Faltam cotas, tolerâncias, a árvore de features, os sketches. Falta tudo que torna um modelo manufaturável.
| Representação | Editável? | Manufaturável? | Precisa? | Uso típico |
|---|---|---|---|---|
| — | — | — | — | — |
| Mesh (STL/OBJ) | Não | Parcialmente | Baixa | Visualização, impressão 3D |
| Nuvem de pontos | Não | Não | Média | Escaneamento, metrologia |
| Voxels | Não | Não | Baixa | Simulação, análise |
| B-rep / CAD paramétrico | Sim | Sim | Alta | Engenharia, manufatura |
O GenCAD opera nessa última linha da tabela. Ele não cospe uma casca 3D — ele gera a receita completa para construir a peça. Cada operação de sketch (linha, arco, círculo), cada extrusão, com todos os parâmetros numéricos. Você pode abrir o resultado, mexer numa cota e a peça inteira se adapta.
Isso é o que separa uma curiosidade acadêmica de algo que pode realmente mudar o fluxo de trabalho de engenharia.
Como o GenCAD funciona por dentro
A arquitetura é elegante — e complexa. São quatro módulos trabalhando em cascata:
1. O Codificador de Sequências CAD (CSR)
Primeiro, o sistema precisa entender a linguagem do CAD. Cada modelo é convertido numa sequência de vetores de 17 dimensões: 1 para o tipo do comando (linha, arco, círculo, extrusão) e 16 para os parâmetros (coordenadas, raios, ângulos, profundidade).
Um transformer autogressivo com 4 camadas de self-attention e 8 attention heads aprende a comprimir essas sequências num espaço latente de 256 dimensões. O modelo tem 6,72 milhões de parâmetros — surpreendentemente compacto.
Sequência CAD → [line(x1,y1,x2,y2), arc(cx,cy,r,θ1,θ2), extrude(d,s)]
→ Vetor 17D por comando
→ Encoder Transformer
→ Latente z (256D)
2. O Alinhamento Contrastivo Imagem-CAD (CCIP)
Aqui entra a mágica da multimodalidade. O sistema usa aprendizado contrastivo (sim, a mesma técnica do CLIP que revolucionou texto-imagem) para alinhar dois mundos: o espaço das imagens e o espaço dos programas CAD.
Um ResNet-18 processa a imagem. O encoder CAD do passo anterior processa a sequência. Uma loss contrastiva com temperatura normalizada empurra os pares corretos (imagem ↔ CAD correspondente) para perto e os pares incorretos para longe no espaço latente.
O resultado? O sistema entende que aquela foto de uma peça em L corresponde a um sketch retangular com extrusão, e não a um cilindro com furos.
3. O Modelo de Difusão (CDP)
Com o espaço latente alinhado, entra a difusão. Um modelo baseado em ResNet-MLP aprende a gerar representações latentes de programas CAD condicionadas na imagem de entrada.
São 500 timesteps de difusão. A cada passo, o modelo concatena o latente ruidoso com o latente da imagem e remove progressivamente o ruído. No final, sobra um vetor limpo no espaço CAD.
4. O Decodificador
O vetor latente volta para o espaço de comandos CAD. O decoder reconstrói a sequência completa: cada sketch, cada operação, cada parâmetro numérico.
Todo o pipeline foi treinado numa NVIDIA A100 de 80GB com o dataset DeepCAD: 168.674 modelos CAD, gerando 840.947 imagens de treinamento (5 variações de escala por modelo).
Os números que impressionam
Vou ser direto com as métricas porque elas falam por si:
| Métrica | GenCAD | DeepCAD (baseline) | SkexGen |
|---|---|---|---|
| — | — | — | — |
| Precisão de comando | 99,51% | 99,36% | — |
| Precisão de parâmetros | 97,78% | 97,59% | — |
| Distância Chamfer média | 0,762 | 0,783 | — |
| Taxa de formas inválidas | 3,32% | 3,44% | — |
| Cobertura (diversidade) | 81,37% | 78,13% | 78,17% |
A precisão de comando de 99,51% significa que, em cada 200 operações CAD geradas, apenas uma está errada. Para parâmetros é um pouco menor (97,78%), mas ainda impressionante considerando que estamos falando de coordenadas, raios e ângulos específicos.
A cobertura de 81,37% na geração condicional mostra que o modelo não está simplesmente decorando — ele gera variedade real. Dada a mesma imagem de entrada, pode produzir múltiplas soluções CAD válidas (como um engenheiro faria: existem várias formas de modelar a mesma peça).
No retrieval (busca de modelos similares), o GenCAD atinge 98,49% de acurácia em batches de 10 — ou seja, quase sempre encontra o programa CAD correto numa coleção. Mesmo em batches de 2.048 modelos, mantém 60,77%, sendo 15 vezes mais preciso que busca por similaridade visual direta.
Diversidade de soluções: a IA pensa como engenheiro
Um detalhe que passa despercebido nos benchmarks mas que é crucial na prática: o GenCAD gera múltiplas soluções válidas para a mesma imagem de entrada. Isso não é bug — é feature.
Qualquer engenheiro sabe que existem várias formas de modelar a mesma peça. Você pode começar pelo perfil frontal e extrudar, ou pelo perfil lateral e fazer um corte. Pode usar um sketch único complexo ou múltiplos sketches simples com operações booleanas. O resultado visual é idêntico, mas a árvore de features é completamente diferente.
O GenCAD, graças ao modelo de difusão estocástico, captura exatamente essa ambiguidade. A cada execução com a mesma imagem, ele pode propor uma sequência de operações diferente — todas produzindo geometrias válidas e consistentes com a entrada visual. O modelo determinístico (sem a componente de difusão) produz sempre a mesma saída, mas com qualidade inferior nos benchmarks. A aleatoriedade controlada é justamente o que dá flexibilidade ao sistema.
Na prática, isso significa que um engenheiro poderia gerar 5 variações, avaliar qual árvore de features é mais conveniente para as modificações que pretende fazer, e partir dali. Economiza não só o tempo de modelagem, mas o tempo de planejamento da modelagem — que muitas vezes é a parte mais demorada.
O que o GenCAD NÃO faz (ainda)
Antes de sair correndo para aposentar sua licença de SolidWorks, algumas limitações importantes:
Vocabulário CAD limitado. O modelo atual suporta apenas linhas, arcos, círculos e extrusões. Não tem revolve, fillet, chamfer, shell, pattern. Peças com furos cilíndricos, chanfros ou features de revolução ainda estão fora do alcance.
Imagens “limpas” apenas. O sistema foi treinado com renderizações isométricas em fundo branco. Pegou uma foto real de uma peça com sombras, reflexos e fundo bagunçado? Não vai funcionar bem. Pelo menos por enquanto.
Peças relativamente simples. O dataset DeepCAD tem modelos que, sejamos honestos, são básicos comparados ao que um engenheiro de produto lida no dia a dia. Estamos falando de brackets, suportes, encaixes — não de um bloco de motor completo.
A taxa de falha não é zero. 3,32% dos modelos gerados são geometricamente inválidos. Em ambiente de produção, isso significaria que a cada ~30 peças, uma precisaria de revisão manual.
O cenário maior: IA no CAD em 2026
O GenCAD não existe no vácuo. Toda a indústria de CAD está correndo para integrar IA, e o ritmo acelerou absurdamente neste ano.
A Autodesk já tem o Automated Drawings no Fusion 360, que usa IA para gerar conjuntos de desenhos técnicos automaticamente. A Siemens lançou o Design Copilot para o Solid Edge e o NX. A PTC integrou assistentes de IA no Creo. Até a Onshape tem o AI Advisor respondendo dúvidas de modelagem.
Mas todas essas são ferramentas de assistência — ajudam o engenheiro, mas não substituem o ato de modelar. O GenCAD ataca um problema fundamentalmente diferente: a geração autônoma de geometria paramétrica.
Empresas como a Leo AI (eleita #1 em AI Software pela G2 em 2026, certificada SOC-2, treinada em mais de um milhão de páginas de normas industriais) já fazem busca inteligente em vaults de CAD existentes. O nTopology e o Altair Inspire fazem otimização topológica. Mas nenhum deles pega uma imagem e gera um programa CAD editável do zero.
Existe também o GenCAD-3D, uma evolução do mesmo grupo do MIT que trabalha com alinhamento multimodal de espaços latentes entre CAD e geometria 3D, publicado no Journal of Mechanical Design da ASME. O roadmap é claro: expandir o vocabulário de operações, processar imagens reais e lidar com assemblies completos.
O impacto para quem trabalha com engenharia
Eu já vi projetos de engenharia reversa onde uma equipe gastou semanas escaneando peças antigas, limpando nuvens de pontos, e reconstruindo manualmente cada feature no CAD. Com um GenCAD maduro, esse processo poderia cair para horas.
Pensa nos cenários práticos:
- Engenharia reversa: foto da peça → modelo CAD editável. Fim das semanas de reconstrução manual.
- Prototipagem rápida: sketch no papel → foto → CAD → impressão 3D. O ciclo de ideação a protótipo em minutos.
- Catálogos de peças: digitalização em massa de peças legadas que só existem como desenhos 2D ou fotos em manuais antigos.
- Educação: estudantes de engenharia podendo visualizar a relação entre representações 2D e operações 3D de forma interativa.
O mercado de manufatura aditiva deve ultrapassar US$ 40 bilhões nos próximos anos. Empresas que já adotam IA no fluxo de design reportam ciclos de projeto 60% mais rápidos. E a automação de tarefas repetitivas de CAD já cobre entre 20% e 30% do trabalho rotineiro em firmas de ponta.
A pergunta não é se a IA vai gerar CAD. É quando ela vai fazer isso bem o suficiente para a produção real.
Comparando com outras abordagens de IA para 3D
Para situar o GenCAD no ecossistema atual, vale comparar as abordagens disponíveis:
| Ferramenta/Abordagem | Input | Output | Editável? | Paramétrico? | Pronto pra manufatura? |
|---|---|---|---|---|---|
| — | — | — | — | — | — |
| GenCAD (MIT) | Imagem 2D | Programa CAD | Sim | Sim | Parcialmente |
| Meshy / Tripo | Texto ou imagem | Mesh 3D | Limitado | Não | Não |
| Autodesk Generative Design | Constraints | Geometria otimizada | Parcialmente | Não | Requer cleanup |
| nTopology | Constraints | Geometria otimizada | Parcialmente | Não | Sim (aditiva) |
| Leo AI | Texto / geometria | Busca em vault | N/A | N/A | Depende do vault |
| Siemens Design Copilot | Texto / assistência | Sugestões | N/A | N/A | N/A |
A diferença fundamental é que GenCAD, nTopology e Autodesk Generative Design atacam problemas diferentes. Generative design parte de restrições de engenharia (cargas, materiais, volume) e otimiza a forma. GenCAD parte de uma representação visual e reconstrói o processo de modelagem. São complementares, não concorrentes.
O mais próximo do GenCAD em termos de proposta é o Point2Sequence e o DeepCAD, ambos acadêmicos. Mas o GenCAD supera os dois em todas as métricas publicadas, especialmente na geração condicional por imagem — que é justamente o caso de uso mais prático.
Como testar o GenCAD
O código do GenCAD está disponível no GitHub e o paper completo está no arXiv. Você vai precisar de:
- Python 3.8+
- PyTorch com suporte CUDA
- Uma GPU com pelo menos 16GB de VRAM para inferência (treinamento requer A100 80GB)
- O dataset DeepCAD (disponível publicamente)
# Clone o repositório
git clone https://github.com/AlamFerdworking/GenCAD.git
cd GenCAD
# Instale dependências
pip install -r requirements.txt
# Baixe os pesos pré-treinados
# (instruções no README do repositório)
# Gere um modelo CAD a partir de uma imagem
python generate.py --image input.png --output output_cad.json
O output é uma sequência de comandos CAD que pode ser convertida para formatos padrão. Não espere milagres no primeiro teste — lembre-se das limitações com imagens reais — mas é funcional o suficiente para entender o potencial.
Onde isso vai parar?
Os pesquisadores do MIT — Md Ferdous Alam e Faez Ahmed — já publicaram o GenCAD-3D, que adiciona alinhamento multimodal com geometria 3D e uma estratégia de aumento de dados sintéticos (SynthBal) para melhorar a representação de geometrias complexas.
O próximo passo lógico é expandir o vocabulário de operações (revolve, fillet, chamfer, boolean operations), treinar com imagens do mundo real (com fundos complexos, iluminação variada) e escalar para assemblies multi-peça.
Se a trajetória de evolução da IA generativa em imagens e texto servir de referência — e em apenas 3 anos fomos do DALL-E 2 para geradores que enganam qualquer pessoa — eu apostaria que em 2028 teremos sistemas que pegam a foto de qualquer peça mecânica e entregam um modelo STEP pronto para usinagem.
E quando isso acontecer, o papel do engenheiro mecânico não desaparece. Muda. Em vez de gastar 80% do tempo modelando e 20% projetando, a proporção se inverte. Mais tempo pensando em função, materiais, tolerâncias, montagem — e menos tempo desenhando geometria.
Que é, no fim das contas, o que todo engenheiro sempre quis.
—
Fonte de inspiração: GenCAD — MIT | Paper no arXiv













