3D é um problema industrial, não basta o modelo ter um bom desempenho visual, ele também precisa atender a padrões industriais específicos, como a representação de materiais, planejamento de faces e estrutura racional. Se não puder se alinhar aos padrões industriais humanos, os resultados gerados exigirão muitos ajustes e serão difíceis de aplicar na produção.
Assim como os grandes modelos de linguagem (LLMs) precisam se alinhar aos valores humanos, os modelos de IA de geração 3D precisam se alinhar aos complexos padrões industriais 3D.
Uma solução mais prática já surgiu: 3D nativo
Um dos trabalhos do laboratório MARS da Universidade de Ciência e Tecnologia de Shanghai que recebeu uma indicação ao melhor artigo - CLAY - mostrou à indústria uma abordagem viável para resolver os problemas mencionados acima, ou seja, o 3D nativo.
Sabemos que nos últimos dois anos, as rotas técnicas para geração 3D podem ser amplamente divididas em duas categorias: elevação 2D e 3D nativo.
A elevação 2D é o processo de reconstrução tridimensional através de modelos de difusão 2D combinados com métodos como NeRF. Como podem utilizar grandes quantidades de dados de imagens 2D para treinamento, esses modelos geralmente podem gerar resultados diversificados. Mas devido à capacidade limitada de prioridade 3D dos modelos de difusão 2D, esses modelos têm uma capacidade limitada de compreensão do mundo 3D e tendem a gerar resultados com estruturas geométricas irracionais (como pessoas ou animais com múltiplas cabeças).
Uma série de trabalhos recentes de reconstrução multi-view aliviaram esse problema até certo ponto, adicionando imagens 2D multi-view de ativos 3D aos dados de treinamento do modelo de difusão 2D. No entanto, a limitação está no fato de que o ponto de partida desses métodos são imagens 2D, portanto eles se concentram na qualidade da geração de imagens, em vez de tentar manter a fidelidade geométrica, então as formas geométricas geradas frequentemente têm problemas de incompletude e falta de detalhes.
Em outras palavras, os dados 2D só registram um aspecto ou projeção do mundo real, e mesmo imagens de múltiplos ângulos não podem descrever completamente um conteúdo tridimensional, então o que o modelo aprende ainda tem muita informação faltando, os resultados gerados ainda precisam de muitas correções e é difícil atender aos padrões industriais.
Considerando essas limitações, ### a equipe de pesquisa do CLAY escolheu outro caminho - o 3D nativo.
Esta abordagem treina modelos generativos diretamente a partir de conjuntos de dados 3D, extraindo prioridades 3D ricas de várias formas geométricas 3D. Portanto, o modelo pode "entender" e preservar melhor as características geométricas.
No entanto, esses modelos também precisam ser grandes o suficiente para "emergir" com poderosas capacidades generativas, e modelos maiores precisam ser treinados em conjuntos de dados maiores. Como é bem sabido, conjuntos de dados 3D de alta qualidade são muito escassos e caros, este é o primeiro problema que a abordagem 3D nativa precisa resolver.
No artigo CLAY, os pesquisadores adotaram um fluxo de processamento de dados personalizado para explorar vários conjuntos de dados 3D e propuseram técnicas eficazes para escalar o modelo generativo.
Especificamente, seu fluxo de processamento de dados começa com um algoritmo de reconstrução de malha personalizado, convertendo dados 3D em malhas estanques, preservando cuidadosamente características geométricas importantes como bordas duras e superfícies planas. Além disso, eles também usaram o GPT-4V para criar anotações detalhadas, destacando características geométricas importantes.
Após passar pelo fluxo de processamento acima, muitos conjuntos de dados se fundiram no conjunto de dados de modelos 3D em grande escala usado para treinar o modelo CLAY. Anteriormente, devido a formatos diferentes e falta de consistência, esses conjuntos de dados nunca haviam sido usados juntos para treinar modelos generativos 3D. O conjunto de dados combinado processado mantém uma representação consistente e anotações coerentes, o que pode melhorar muito a generalização do modelo generativo.
O CLAY treinado usando este conjunto de dados inclui um modelo generativo 3D com até 1,5 bilhão de parâmetros. Para garantir que a perda de informação entre a conversão do conjunto de dados para representação implícita e saída seja a menor possível, eles passaram muito tempo selecionando e refinando, e finalmente exploraram um conjunto totalmente novo e eficiente de métodos de representação 3D. Especificamente, eles adotaram o design de campo neural do 3DShape2VecSet para descrever superfícies contínuas e completas, e combinaram com um VAE geométrico multi-resolução personalizado para processar nuvens de pontos em diferentes resoluções, permitindo que ele se adapte ao tamanho do vetor latente.
Para facilitar a expansão do modelo, o CLAY adotou um Transformer de difusão latente (DiT) minimalista. É composto por Transformers, pode se adaptar ao tamanho do vetor latente e tem capacidade de escalabilidade de grandes modelos. Além disso, o CLAY também introduziu um esquema de treinamento progressivo, treinando através do aumento gradual do tamanho do vetor latente e dos parâmetros do modelo.
Por fim, o CLAY alcançou um controle preciso sobre a geometria, permitindo que os usuários controlem a complexidade, estilo e até personagens da geração geométrica ajustando as palavras-chave. Comparado com métodos anteriores, o CLAY pode gerar rapidamente geometrias detalhadas, garantindo bem características geométricas importantes como superfícies planas e integridade estrutural.
Alguns resultados no artigo demonstram plenamente as vantagens da abordagem 3D nativa. A figura abaixo mostra as três amostras mais próximas recuperadas do conjunto de dados pelos pesquisadores. As geometrias de alta qualidade geradas pelo CLAY correspondem às palavras-chave, mas são diferentes das amostras no conjunto de dados, demonstrando riqueza suficiente e características de capacidades emergentes de grandes modelos.
Para que os ativos digitais gerados possam ser usados diretamente nos pipelines de produção CG existentes, os pesquisadores continuaram a