SIGGRAPH首個中國團隊用AI即時創建3D世界獲雙項提名

3D 是一個工業問題，模型僅僅在視覺上表現好是不夠的，還需要符合特定的工業標準，比如材質如何表現，面片規劃、結構如何合理。如果不能和人類工業標準對齊，那生成結果就需要大量調整，難以應用於生產端。

就像大語言模型（LLM）需要對齊人類的價值觀，3D 生成的 AI 模型需要對齊複雜的 3D 工業標準。

更實用的方案已經出現：3D 原生

上科大 MARS 實驗室獲得最佳論文提名的工作之一——CLAY 讓行業看到了上述問題的一個可行的解決思路，即 3D 原生。

我們知道，最近兩年，3D 生成的技術路線大致可以分為兩類：2D 升維和原生 3D。

2D 升維是通過 2D 擴散模型，結合 NeRF 等方法實現三維重建的過程。由於可以利用大量的 2D 圖像數據進行訓練，這類模型往往能夠生成多樣化的結果。但又因為 2D 擴散模型的 3D 先驗能力不足，這類模型對 3D 世界的理解能力有限，容易生成幾何結構不合理的結果（比如有多個頭的人或動物）。

近期的一系列多視角重建工作通過把 3D 資產的多視角 2D 圖像加入 2D 擴散模型的訓練數據，在一定程度上緩解了這一問題。但局限性在於，這類方法的起點是 2D 圖像，因此它們關注的都是生成圖像的質量，而不是試圖保持幾何保真度，所以生成的幾何圖形經常存在不完整和缺乏細節的問題。

換句話說，2D 數據終究只記錄了真實世界的一個側面，或者說投影，再多角度的圖像也無法完整描述一個三維內容，因此模型學到的東西依舊存在很多信息缺失，生成結果還是需要大量修正，難以滿足工業標準。

考慮到這些局限，### CLAY 的研究團隊選擇了另一條路 ——3D 原生。

這一路線直接從 3D 數據集訓練生成模型，從各種 3D 幾何形狀中提取豐富的 3D 先驗。因此，模型可以更好地「理解」並保留幾何特徵。

不過，這類模型也要足夠大才能「湧現」出強大的生成能力，而更大的模型需要在更大的數據集上進行訓練。眾所周知，高質量的 3D 數據集是非常稀缺且昂貴的，這是原生 3D 路線首先要解決的問題。

在 CLAY 這篇論文中，研究者採用定制的數據處理流程來挖掘多種 3D 數據集，並提出了有效的技術來擴展（scale up）生成模型。

具體來說，他們的數據處理流程從一個定制的網格重構（remeshing）算法開始，將 3D 數據轉換為水密性網格（watertight meshes），細緻地保留了諸如硬邊和平整表面等重要幾何特徵。此外，他們還利用 GPT-4V 創建了細緻的標註，突出顯示重要的幾何特性。

眾多數據集經過上述處理流程後，匯成了 CLAY 模型訓練所使用的超大型 3D 模型數據集。此前，由於格式不同，缺乏一致性，這些數據集從來沒有一起用於訓練 3D 生成模型。處理後的組合數據集保持了一致的表示和連貫的註釋，可以極大地提高生成模型的泛化性。

利用該數據集訓練出的 CLAY 包含一個參數量高達 15 億的 3D 生成模型。為了保證從數據集轉化到隱式表達再到輸出之間，信息損失盡可能小，他們花了很長時間去篩選、改良，最終探索出了一套全新、高效的 3D 表達方式。具體來說，他們採用了 3DShape2VecSet 中的神經場設計來描述連續完整的表面，並結合了一個特製的多分辨率幾何 VAE，用於處理不同分辨率的點雲，讓它能夠自適應隱向量尺寸（latent size）。

為了便於模型的擴展，CLAY 採用了一個極簡的潛在擴散 Transformer（DiT）。它由 Transformer 構成，能夠自適應隱向量尺寸，具有大模型化能力（scalability）。此外，CLAY 還引入了一種漸進式訓練方案，通過逐步增加隱向量尺寸和模型參數來訓練。

最終，CLAY 實現了對幾何的精確控制，使用者可以通過調整提示詞控制幾何生成的複雜度、風格等（甚至角色）。與以往的方法相比，CLAY 能迅速地生成細緻的幾何，很好地保證了諸如平整表面和結構完整性等重要幾何特徵。

論文中的一些結果充分展示了原生 3D 路徑的優勢。下圖展示了研究者從數據集中檢索到的前三個最鄰近樣本。CLAY 生成的高質量幾何體與提示詞匹配，但與數據集中的樣本有所不同，展現出了足夠的豐富度，具備大模型湧現能力的特點。

為了使生成的數字資產能夠直接用於現有的 CG 生產管線，研究者進一

SIGGRAPH首個中國團隊用AI即時創建3D世界 獲雙項提名

上海科技大學創新團隊推動3D生成技術商業化，加快其實際應用進程。

3D 是一個工業問題，模型僅僅在視覺上表現好是不夠的，還需要符合特定的工業標準，比如材質如何表現，面片規劃、結構如何合理。如果不能和人類工業標準對齊，那生成結果就需要大量調整，難以應用於生產端。

更實用的方案已經出現：3D 原生

SIGGRAPH首個中國團隊用AI即時創建3D世界獲雙項提名