SIGGRAPH首个中国团队使用人工智能实时创建3D世界获得双项提名

3D是一个工业问题，模型仅仅在视觉上表现好是不够的，还需要符合特定的工业标准，比如材质如何表现，面片规划、结构如何合理。如果不能和人类工业标准对齐，那生成结果就需要大量调整，难以应用于生产端。

就像大语言模型（LLM）需要对齐人类的价值观，3D生成的AI模型需要对齐复杂的3D工业标准。

更实用的方案已经出现：3D原生

上科大MARS实验室获得最佳论文提名的工作之一——CLAY让行业看到了上述问题的一个可行的解决思路，即3D原生。

我们知道，最近两年，3D生成的技术路线大致可以分为两类：2D升维和原生3D。

2D升维是通过2D扩散模型，结合NeRF等方法实现三维重建的过程。由于可以利用大量的2D图像数据进行训练，这类模型往往能够生成多样化的结果。但又因为2D扩散模型的3D先验能力不足，这类模型对3D世界的理解能力有限，容易生成几何结构不合理的结果（比如有多个头的人或动物）。

近期的一系列多视角重建工作通过把3D资产的多视角2D图像加入2D扩散模型的训练数据，在一定程度上缓解了这一问题。但局限性在于，这类方法的起点是2D图像，因此它们关注的都是生成图像的质量，而不是试图保持几何保真度，所以生成的几何图形经常存在不完整和缺乏细节的问题。

换句话说，2D数据终究只记录了真实世界的一个侧面，或者说投影，再多角度的图像也无法完整描述一个三维内容，因此模型学到的东西依旧存在很多信息缺失，生成结果还是需要大量修正，难以满足工业标准。

考虑到这些局限，### CLAY的研究团队选择了另一条路——3D原生。

这一路线直接从3D数据集训练生成模型，从各种3D几何形状中提取丰富的3D先验。因此，模型可以更好地"理解"并保留几何特征。

不过，这类模型也要足够大才能"涌现"出强大的生成能力，而更大的模型需要在更大的数据集上进行训练。众所周知，高质量的3D数据集是非常稀缺且昂贵的，这是原生3D路线首先要解决的问题。

在CLAY这篇论文中，研究者采用定制的数据处理流程来挖掘多种3D数据集，并提出了有效的技术来扩展（scale up）生成模型。

具体来说，他们的数据处理流程从一个定制的网格重构（remeshing）算法开始，将3D数据转换为水密性网格（watertight meshes），细致地保留了诸如硬边和平整表面等重要几何特征。此外，他们还利用GPT-4V创建了细致的标注，突出显示重要的几何特性。

众多数据集经过上述处理流程后，汇成了CLAY模型训练所使用的超大型3D模型数据集。此前，由于格式不同，缺乏一致性，这些数据集从来没有一起用于训练3D生成模型。处理后的组合数据集保持了一致的表示和连贯的注释，可以极大地提高生成模型的泛化性。

利用该数据集训练出的CLAY包含一个参数量高达15亿的3D生成模型。为了保证从数据集转化到隐式表达再到输出之间，信息损失尽可能小，他们花了很长时间去筛选、改良，最终探索出了一套全新、高效的3D表达方式。具体来说，他们采用了3DShape2VecSet中的神经场设计来描述连续完整的表面，并结合了一个特制的多分辨率几何VAE，用于处理不同分辨率的点云，让它能够自适应隐向量尺寸（latent size）。

为了便于模型的扩展，CLAY采用了一个极简的潜在扩散Transformer（DiT）。它由Transformer构成，能够自适应隐向量尺寸，具有大模型化能力（scalability）。此外，CLAY还引入了一种渐进式训练方案，通过逐步增加隐向量尺寸和模型参数来训练。

最终，CLAY实现了对几何的精确控制，使用者可以通过调整提示词控制几何生成的复杂度、风格等（甚至角色）。与以往的方法相比，CLAY能迅速地生成细致的几何，很好地保证了诸如平整表面和结构完整性等重要几何特征。

论文中的一些结果充分展示了原生3D路径的优势。下图展示了研究者从数据集中检索到的前三个最邻近样本。CLAY生成的高质量几何体与提示词匹配，但与数据集中的样本有所不同，展现出了足够的丰富度，具备大模型涌现能力的特点。

为了使生成的数字资产能够直接用于现有的CG生产管线，研究者进一

SIGGRAPH首个中国团队使用人工智能实时创建3D世界 获得双项提名

上海科技大学创新团队推动3D生成技术商业化，加快其实际应用进程。

3D是一个工业问题，模型仅仅在视觉上表现好是不够的，还需要符合特定的工业标准，比如材质如何表现，面片规划、结构如何合理。如果不能和人类工业标准对齐，那生成结果就需要大量调整，难以应用于生产端。

更实用的方案已经出现：3D原生

SIGGRAPH首个中国团队使用人工智能实时创建3D世界获得双项提名