3D是一个工业问题,模型仅仅在视觉上表现好是不够的,还需要符合特定的工业标准,比如材质如何表现,面片规划、结构如何合理。如果不能和人类工业标准对齐,那生成结果就需要大量调整,难以应用于生产端。
就像大语言模型(LLM)需要对齐人类的价值观,3D生成的AI模型需要对齐复杂的3D工业标准。
更实用的方案已经出现:3D原生
上科大MARS实验室获得最佳论文提名的工作之一——CLAY让行业看到了上述问题的一个可行的解决思路,即3D原生。
我们知道,最近两年,3D生成的技术路线大致可以分为两类:2D升维和原生3D。
2D升维是通过2D扩散模型,结合NeRF等方法实现三维重建的过程。由于可以利用大量的2D图像数据进行训练,这类模型往往能够生成多样化的结果。但又因为2D扩散模型的3D先验能力不足,这类模型对3D世界的理解能力有限,容易生成几何结构不合理的结果(比如有多个头的人或动物)。
近期的一系列多视角重建工作通过把3D资产的多视角2D图像加入2D扩散模型的训练数据,在一定程度上缓解了这一问题。但局限性在于,这类方法的起点是2D图像,因此它们关注的都是生成图像的质量,而不是试图保持几何保真度,所以生成的几何图形经常存在不完整和缺乏细节的问题。
换句话说,2D数据终究只记录了真实世界的一个侧面,或者说投影,再多角度的图像也无法完整描述一个三维内容,因此模型学到的东西依旧存在很多信息缺失,生成结果还是需要大量修正,难以满足工业标准。
考虑到这些局限,### CLAY的研究团队选择了另一条路——3D原生。
这一路线直接从3D数据集训练生成模型,从各种3D几何形状中提取丰富的3D先验。因此,模型可以更好地"理解"并保留几何特征。
不过,这类模型也要足够大才能"涌现"出强大的生成能力,而更大的模型需要在更大的数据集上进行训练。众所周知,高质量的3D数据集是非常稀缺且昂贵的,这是原生3D路线首先要解决的问题。
在CLAY这篇论文中,研究者采用定制的数据处理流程来挖掘多种3D数据集,并提出了有效的技术来扩展(scale up)生成模型。
具体来说,他们的数据处理流程从一个定制的网格重构(remeshing)算法开始,将3D数据转换为水密性网格(watertight meshes),细致地保留了诸如硬边和平整表面等重要几何特征。此外,他们还利用GPT-4V创建了细致的标注,突出显示重要的几何特性。
众多数据集经过上述处理流程后,汇成了CLAY模型训练所使用的超大型3D模型数据集。此前,由于格式不同,缺乏一致性,这些数据集从来没有一起用于训练3D生成模型。处理后的组合数据集保持了一致的表示和连贯的注释,可以极大地提高生成模型的泛化性。
利用该数据集训练出的CLAY包含一个参数量高达15亿的3D生成模型。为了保证从数据集转化到隐式表达再到输出之间,信息损失尽可能小,他们花了很长时间去筛选、改良,最终探索出了一套全新、高效的3D表达方式。具体来说,他们采用了3DShape2VecSet中的神经场设计来描述连续完整的表面,并结合了一个特制的多分辨率几何VAE,用于处理不同分辨率的点云,让它能够自适应隐向量尺寸(latent size)。
为了便于模型的扩展,CLAY采用了一个极简的潜在扩散Transformer(DiT)。它由Transformer构成,能够自适应隐向量尺寸,具有大模型化能力(scalability)。此外,CLAY还引入了一种渐进式训练方案,通过逐步增加隐向量尺寸和模型参数来训练。
最终,CLAY实现了对几何的精确控制,使用者可以通过调整提示词控制几何生成的复杂度、风格等(甚至角色)。与以往的方法相比,CLAY能迅速地生成细致的几何,很好地保证了诸如平整表面和结构完整性等重要几何特征。
论文中的一些结果充分展示了原生3D路径的优势。下图展示了研究者从数据集中检索到的前三个最邻近样本。CLAY生成的高质量几何体与提示词匹配,但与数据集中的样本有所不同,展现出了足够的丰富度,具备大模型涌现能力的特点。
为了使生成的数字资产能够直接用于现有的CG生产管线,研究者进一