Shopping cart

Subtotal $0.00

View cartCheckout

Building better devs

TnewsTnews
  • Home
  • IA
  • GenCAD: A IA do MIT que Transforma Uma Foto em Projeto CAD Editável
IA

GenCAD: A IA do MIT que Transforma Uma Foto em Projeto CAD Editável

Email : 11

Uma imagem. Um clique. Um projeto CAD completo.

Imagina pegar a foto de uma peça mecânica — um suporte de motor, um encaixe de tubulação, qualquer coisa — e em segundos ter o projeto CAD paramétrico pronto, com todas as operações de sketch e extrusão editáveis no seu SolidWorks ou Fusion 360. Parece ficção? O pessoal do MIT discorda.

O GenCAD é um framework de inteligência artificial desenvolvido no Massachusetts Institute of Technology que faz exatamente isso: recebe uma imagem 2D de um objeto e gera o programa CAD completo — não uma malha 3D tosca, não uma nuvem de pontos, mas a sequência inteira de comandos paramétricos que um engenheiro usaria para modelar a peça do zero.

E o mais perturbador? Ele acerta o comando certo 99,5% das vezes.

Por que isso é diferente de tudo que já existia

Ferramentas de IA para 3D não são exatamente novidade. Temos o Meshy, o Tripo, o Rodin — todos geram modelos tridimensionais a partir de texto ou imagens. Mas aqui mora o problema que qualquer engenheiro mecânico conhece: meshes não são CAD.

Uma mesh é uma aproximação visual. É ótima para games, renders, visualização. Mas tenta pegar uma mesh e mandar pro chão de fábrica. Não dá. Faltam cotas, tolerâncias, a árvore de features, os sketches. Falta tudo que torna um modelo manufaturável.

Representação Editável? Manufaturável? Precisa? Uso típico
Mesh (STL/OBJ) Não Parcialmente Baixa Visualização, impressão 3D
Nuvem de pontos Não Não Média Escaneamento, metrologia
Voxels Não Não Baixa Simulação, análise
B-rep / CAD paramétrico Sim Sim Alta Engenharia, manufatura

O GenCAD opera nessa última linha da tabela. Ele não cospe uma casca 3D — ele gera a receita completa para construir a peça. Cada operação de sketch (linha, arco, círculo), cada extrusão, com todos os parâmetros numéricos. Você pode abrir o resultado, mexer numa cota e a peça inteira se adapta.

Isso é o que separa uma curiosidade acadêmica de algo que pode realmente mudar o fluxo de trabalho de engenharia.

Como o GenCAD funciona por dentro

A arquitetura é elegante — e complexa. São quatro módulos trabalhando em cascata:

1. O Codificador de Sequências CAD (CSR)

Primeiro, o sistema precisa entender a linguagem do CAD. Cada modelo é convertido numa sequência de vetores de 17 dimensões: 1 para o tipo do comando (linha, arco, círculo, extrusão) e 16 para os parâmetros (coordenadas, raios, ângulos, profundidade).

Um transformer autogressivo com 4 camadas de self-attention e 8 attention heads aprende a comprimir essas sequências num espaço latente de 256 dimensões. O modelo tem 6,72 milhões de parâmetros — surpreendentemente compacto.


Sequência CAD → [line(x1,y1,x2,y2), arc(cx,cy,r,θ1,θ2), extrude(d,s)]
             → Vetor 17D por comando
             → Encoder Transformer
             → Latente z (256D)

2. O Alinhamento Contrastivo Imagem-CAD (CCIP)

Aqui entra a mágica da multimodalidade. O sistema usa aprendizado contrastivo (sim, a mesma técnica do CLIP que revolucionou texto-imagem) para alinhar dois mundos: o espaço das imagens e o espaço dos programas CAD.

Um ResNet-18 processa a imagem. O encoder CAD do passo anterior processa a sequência. Uma loss contrastiva com temperatura normalizada empurra os pares corretos (imagem ↔ CAD correspondente) para perto e os pares incorretos para longe no espaço latente.

O resultado? O sistema entende que aquela foto de uma peça em L corresponde a um sketch retangular com extrusão, e não a um cilindro com furos.

3. O Modelo de Difusão (CDP)

Com o espaço latente alinhado, entra a difusão. Um modelo baseado em ResNet-MLP aprende a gerar representações latentes de programas CAD condicionadas na imagem de entrada.

São 500 timesteps de difusão. A cada passo, o modelo concatena o latente ruidoso com o latente da imagem e remove progressivamente o ruído. No final, sobra um vetor limpo no espaço CAD.

4. O Decodificador

O vetor latente volta para o espaço de comandos CAD. O decoder reconstrói a sequência completa: cada sketch, cada operação, cada parâmetro numérico.

Todo o pipeline foi treinado numa NVIDIA A100 de 80GB com o dataset DeepCAD: 168.674 modelos CAD, gerando 840.947 imagens de treinamento (5 variações de escala por modelo).

Os números que impressionam

Vou ser direto com as métricas porque elas falam por si:

Métrica GenCAD DeepCAD (baseline) SkexGen
Precisão de comando 99,51% 99,36%
Precisão de parâmetros 97,78% 97,59%
Distância Chamfer média 0,762 0,783
Taxa de formas inválidas 3,32% 3,44%
Cobertura (diversidade) 81,37% 78,13% 78,17%

A precisão de comando de 99,51% significa que, em cada 200 operações CAD geradas, apenas uma está errada. Para parâmetros é um pouco menor (97,78%), mas ainda impressionante considerando que estamos falando de coordenadas, raios e ângulos específicos.

A cobertura de 81,37% na geração condicional mostra que o modelo não está simplesmente decorando — ele gera variedade real. Dada a mesma imagem de entrada, pode produzir múltiplas soluções CAD válidas (como um engenheiro faria: existem várias formas de modelar a mesma peça).

No retrieval (busca de modelos similares), o GenCAD atinge 98,49% de acurácia em batches de 10 — ou seja, quase sempre encontra o programa CAD correto numa coleção. Mesmo em batches de 2.048 modelos, mantém 60,77%, sendo 15 vezes mais preciso que busca por similaridade visual direta.

Diversidade de soluções: a IA pensa como engenheiro

Um detalhe que passa despercebido nos benchmarks mas que é crucial na prática: o GenCAD gera múltiplas soluções válidas para a mesma imagem de entrada. Isso não é bug — é feature.

Qualquer engenheiro sabe que existem várias formas de modelar a mesma peça. Você pode começar pelo perfil frontal e extrudar, ou pelo perfil lateral e fazer um corte. Pode usar um sketch único complexo ou múltiplos sketches simples com operações booleanas. O resultado visual é idêntico, mas a árvore de features é completamente diferente.

O GenCAD, graças ao modelo de difusão estocástico, captura exatamente essa ambiguidade. A cada execução com a mesma imagem, ele pode propor uma sequência de operações diferente — todas produzindo geometrias válidas e consistentes com a entrada visual. O modelo determinístico (sem a componente de difusão) produz sempre a mesma saída, mas com qualidade inferior nos benchmarks. A aleatoriedade controlada é justamente o que dá flexibilidade ao sistema.

Na prática, isso significa que um engenheiro poderia gerar 5 variações, avaliar qual árvore de features é mais conveniente para as modificações que pretende fazer, e partir dali. Economiza não só o tempo de modelagem, mas o tempo de planejamento da modelagem — que muitas vezes é a parte mais demorada.

O que o GenCAD NÃO faz (ainda)

Antes de sair correndo para aposentar sua licença de SolidWorks, algumas limitações importantes:

Vocabulário CAD limitado. O modelo atual suporta apenas linhas, arcos, círculos e extrusões. Não tem revolve, fillet, chamfer, shell, pattern. Peças com furos cilíndricos, chanfros ou features de revolução ainda estão fora do alcance.

Imagens “limpas” apenas. O sistema foi treinado com renderizações isométricas em fundo branco. Pegou uma foto real de uma peça com sombras, reflexos e fundo bagunçado? Não vai funcionar bem. Pelo menos por enquanto.

Peças relativamente simples. O dataset DeepCAD tem modelos que, sejamos honestos, são básicos comparados ao que um engenheiro de produto lida no dia a dia. Estamos falando de brackets, suportes, encaixes — não de um bloco de motor completo.

A taxa de falha não é zero. 3,32% dos modelos gerados são geometricamente inválidos. Em ambiente de produção, isso significaria que a cada ~30 peças, uma precisaria de revisão manual.

O cenário maior: IA no CAD em 2026

O GenCAD não existe no vácuo. Toda a indústria de CAD está correndo para integrar IA, e o ritmo acelerou absurdamente neste ano.

A Autodesk já tem o Automated Drawings no Fusion 360, que usa IA para gerar conjuntos de desenhos técnicos automaticamente. A Siemens lançou o Design Copilot para o Solid Edge e o NX. A PTC integrou assistentes de IA no Creo. Até a Onshape tem o AI Advisor respondendo dúvidas de modelagem.

Mas todas essas são ferramentas de assistência — ajudam o engenheiro, mas não substituem o ato de modelar. O GenCAD ataca um problema fundamentalmente diferente: a geração autônoma de geometria paramétrica.

Empresas como a Leo AI (eleita #1 em AI Software pela G2 em 2026, certificada SOC-2, treinada em mais de um milhão de páginas de normas industriais) já fazem busca inteligente em vaults de CAD existentes. O nTopology e o Altair Inspire fazem otimização topológica. Mas nenhum deles pega uma imagem e gera um programa CAD editável do zero.

Existe também o GenCAD-3D, uma evolução do mesmo grupo do MIT que trabalha com alinhamento multimodal de espaços latentes entre CAD e geometria 3D, publicado no Journal of Mechanical Design da ASME. O roadmap é claro: expandir o vocabulário de operações, processar imagens reais e lidar com assemblies completos.

O impacto para quem trabalha com engenharia

Eu já vi projetos de engenharia reversa onde uma equipe gastou semanas escaneando peças antigas, limpando nuvens de pontos, e reconstruindo manualmente cada feature no CAD. Com um GenCAD maduro, esse processo poderia cair para horas.

Pensa nos cenários práticos:

  • Engenharia reversa: foto da peça → modelo CAD editável. Fim das semanas de reconstrução manual.
  • Prototipagem rápida: sketch no papel → foto → CAD → impressão 3D. O ciclo de ideação a protótipo em minutos.
  • Catálogos de peças: digitalização em massa de peças legadas que só existem como desenhos 2D ou fotos em manuais antigos.
  • Educação: estudantes de engenharia podendo visualizar a relação entre representações 2D e operações 3D de forma interativa.

O mercado de manufatura aditiva deve ultrapassar US$ 40 bilhões nos próximos anos. Empresas que já adotam IA no fluxo de design reportam ciclos de projeto 60% mais rápidos. E a automação de tarefas repetitivas de CAD já cobre entre 20% e 30% do trabalho rotineiro em firmas de ponta.

A pergunta não é se a IA vai gerar CAD. É quando ela vai fazer isso bem o suficiente para a produção real.

Comparando com outras abordagens de IA para 3D

Para situar o GenCAD no ecossistema atual, vale comparar as abordagens disponíveis:

Ferramenta/Abordagem Input Output Editável? Paramétrico? Pronto pra manufatura?
GenCAD (MIT) Imagem 2D Programa CAD Sim Sim Parcialmente
Meshy / Tripo Texto ou imagem Mesh 3D Limitado Não Não
Autodesk Generative Design Constraints Geometria otimizada Parcialmente Não Requer cleanup
nTopology Constraints Geometria otimizada Parcialmente Não Sim (aditiva)
Leo AI Texto / geometria Busca em vault N/A N/A Depende do vault
Siemens Design Copilot Texto / assistência Sugestões N/A N/A N/A

A diferença fundamental é que GenCAD, nTopology e Autodesk Generative Design atacam problemas diferentes. Generative design parte de restrições de engenharia (cargas, materiais, volume) e otimiza a forma. GenCAD parte de uma representação visual e reconstrói o processo de modelagem. São complementares, não concorrentes.

O mais próximo do GenCAD em termos de proposta é o Point2Sequence e o DeepCAD, ambos acadêmicos. Mas o GenCAD supera os dois em todas as métricas publicadas, especialmente na geração condicional por imagem — que é justamente o caso de uso mais prático.

Como testar o GenCAD

O código do GenCAD está disponível no GitHub e o paper completo está no arXiv. Você vai precisar de:

  • Python 3.8+
  • PyTorch com suporte CUDA
  • Uma GPU com pelo menos 16GB de VRAM para inferência (treinamento requer A100 80GB)
  • O dataset DeepCAD (disponível publicamente)


# Clone o repositório
git clone https://github.com/AlamFerdworking/GenCAD.git
cd GenCAD

# Instale dependências
pip install -r requirements.txt

# Baixe os pesos pré-treinados
# (instruções no README do repositório)

# Gere um modelo CAD a partir de uma imagem
python generate.py --image input.png --output output_cad.json

O output é uma sequência de comandos CAD que pode ser convertida para formatos padrão. Não espere milagres no primeiro teste — lembre-se das limitações com imagens reais — mas é funcional o suficiente para entender o potencial.

Onde isso vai parar?

Os pesquisadores do MIT — Md Ferdous Alam e Faez Ahmed — já publicaram o GenCAD-3D, que adiciona alinhamento multimodal com geometria 3D e uma estratégia de aumento de dados sintéticos (SynthBal) para melhorar a representação de geometrias complexas.

O próximo passo lógico é expandir o vocabulário de operações (revolve, fillet, chamfer, boolean operations), treinar com imagens do mundo real (com fundos complexos, iluminação variada) e escalar para assemblies multi-peça.

Se a trajetória de evolução da IA generativa em imagens e texto servir de referência — e em apenas 3 anos fomos do DALL-E 2 para geradores que enganam qualquer pessoa — eu apostaria que em 2028 teremos sistemas que pegam a foto de qualquer peça mecânica e entregam um modelo STEP pronto para usinagem.

E quando isso acontecer, o papel do engenheiro mecânico não desaparece. Muda. Em vez de gastar 80% do tempo modelando e 20% projetando, a proporção se inverte. Mais tempo pensando em função, materiais, tolerâncias, montagem — e menos tempo desenhando geometria.

Que é, no fim das contas, o que todo engenheiro sempre quis.

Fonte de inspiração: GenCAD — MIT | Paper no arXiv

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Posts