3D 是一個工業問題,模型僅僅在視覺上表現好是不夠的,還需要符合特定的工業標準,比如材質如何表現,面片規劃、結構如何合理。如果不能和人類工業標準對齊,那生成結果就需要大量調整,難以應用於生產端。
就像大語言模型(LLM)需要對齊人類的價值觀,3D 生成的 AI 模型需要對齊複雜的 3D 工業標準。
更實用的方案已經出現:3D 原生
上科大 MARS 實驗室獲得最佳論文提名的工作之一——CLAY 讓行業看到了上述問題的一個可行的解決思路,即 3D 原生。
我們知道,最近兩年,3D 生成的技術路線大致可以分為兩類:2D 升維和原生 3D。
2D 升維是通過 2D 擴散模型,結合 NeRF 等方法實現三維重建的過程。由於可以利用大量的 2D 圖像數據進行訓練,這類模型往往能夠生成多樣化的結果。但又因為 2D 擴散模型的 3D 先驗能力不足,這類模型對 3D 世界的理解能力有限,容易生成幾何結構不合理的結果(比如有多個頭的人或動物)。
近期的一系列多視角重建工作通過把 3D 資產的多視角 2D 圖像加入 2D 擴散模型的訓練數據,在一定程度上緩解了這一問題。但局限性在於,這類方法的起點是 2D 圖像,因此它們關注的都是生成圖像的質量,而不是試圖保持幾何保真度,所以生成的幾何圖形經常存在不完整和缺乏細節的問題。
換句話說,2D 數據終究只記錄了真實世界的一個側面,或者說投影,再多角度的圖像也無法完整描述一個三維內容,因此模型學到的東西依舊存在很多信息缺失,生成結果還是需要大量修正,難以滿足工業標準。
考慮到這些局限,### CLAY 的研究團隊選擇了另一條路 ——3D 原生。
這一路線直接從 3D 數據集訓練生成模型,從各種 3D 幾何形狀中提取豐富的 3D 先驗。因此,模型可以更好地「理解」並保留幾何特徵。
不過,這類模型也要足夠大才能「湧現」出強大的生成能力,而更大的模型需要在更大的數據集上進行訓練。眾所周知,高質量的 3D 數據集是非常稀缺且昂貴的,這是原生 3D 路線首先要解決的問題。
在 CLAY 這篇論文中,研究者採用定制的數據處理流程來挖掘多種 3D 數據集,並提出了有效的技術來擴展(scale up)生成模型。
具體來說,他們的數據處理流程從一個定制的網格重構(remeshing)算法開始,將 3D 數據轉換為水密性網格(watertight meshes),細緻地保留了諸如硬邊和平整表面等重要幾何特徵。此外,他們還利用 GPT-4V 創建了細緻的標註,突出顯示重要的幾何特性。
眾多數據集經過上述處理流程後,匯成了 CLAY 模型訓練所使用的超大型 3D 模型數據集。此前,由於格式不同,缺乏一致性,這些數據集從來沒有一起用於訓練 3D 生成模型。處理後的組合數據集保持了一致的表示和連貫的註釋,可以極大地提高生成模型的泛化性。
利用該數據集訓練出的 CLAY 包含一個參數量高達 15 億的 3D 生成模型。為了保證從數據集轉化到隱式表達再到輸出之間,信息損失盡可能小,他們花了很長時間去篩選、改良,最終探索出了一套全新、高效的 3D 表達方式。具體來說,他們採用了 3DShape2VecSet 中的神經場設計來描述連續完整的表面,並結合了一個特製的多分辨率幾何 VAE,用於處理不同分辨率的點雲,讓它能夠自適應隱向量尺寸(latent size)。
為了便於模型的擴展,CLAY 採用了一個極簡的潛在擴散 Transformer(DiT)。它由 Transformer 構成,能夠自適應隱向量尺寸,具有大模型化能力(scalability)。此外,CLAY 還引入了一種漸進式訓練方案,通過逐步增加隱向量尺寸和模型參數來訓練。
最終,CLAY 實現了對幾何的精確控制,使用者可以通過調整提示詞控制幾何生成的複雜度、風格等(甚至角色)。與以往的方法相比,CLAY 能迅速地生成細緻的幾何,很好地保證了諸如平整表面和結構完整性等重要幾何特徵。
論文中的一些結果充分展示了原生 3D 路徑的優勢。下圖展示了研究者從數據集中檢索到的前三個最鄰近樣本。CLAY 生成的高質量幾何體與提示詞匹配,但與數據集中的樣本有所不同,展現出了足夠的豐富度,具備大模型湧現能力的特點。
為了使生成的數字資產能夠直接用於現有的 CG 生產管線,研究者進一