3Dは産業的な問題であり、モデルが視覚的に良好なだけでは不十分で、特定の産業基準に適合する必要があります。例えば、材質の表現方法、ポリゴンの計画、構造の合理性などです。人間の産業基準に合わせられない場合、生成結果は大幅な調整が必要となり、生産現場での応用が困難になります。
大規模言語モデル(LLM)が人間の価値観に合わせる必要があるように、3D生成AIモデルは複雑な3D産業基準に合わせる必要があります。
より実用的なアプローチが登場:3Dネイティブ
上海科技大学MARSラボの最優秀論文候補の1つであるCLAYは、上記の問題に対する実行可能な解決策を業界に示しました。それが3Dネイティブです。
ここ2年間、3D生成の技術的アプローチは大きく2つに分類できます:2Dから3Dへの拡張と、ネイティブ3Dです。
2Dから3Dへの拡張は、2D拡散モデルとNeRFなどの手法を組み合わせて3次元再構築を行うプロセスです。大量の2D画像データを使用してトレーニングできるため、これらのモデルは多様な結果を生成できることが多いです。しかし、2D拡散モデルの3D事前知識能力が不足しているため、これらのモデルの3D世界の理解能力は限られており、幾何学的構造が不合理な結果(複数の頭を持つ人や動物など)を生成しやすいです。
最近の一連の多視点再構築作業では、3Dアセットの多視点2D画像を2D拡散モデルのトレーニングデータに追加することで、この問題をある程度緩和しています。しかし、これらの方法の出発点は2D画像であるため、生成される画像の品質に焦点が当てられており、幾何学的忠実度の維持を試みていないため、生成される幾何学的形状はしばしば不完全で詳細に欠けるという限界があります。
言い換えれば、2Dデータは結局のところ現実世界の一側面、つまり投影を記録しているだけであり、多角度の画像でも3次元コンテンツを完全に記述することはできません。そのため、モデルが学習したものには依然として多くの情報が欠落しており、生成結果は大幅な修正が必要で、産業基準を満たすのは困難です。
これらの制限を考慮して、### CLAYの研究チームは別のアプローチを選択しました - 3Dネイティブです。
このアプローチは3Dデータセットから直接生成モデルをトレーニングし、様々な3D幾何学的形状から豊富な3D事前知識を抽出します。そのため、モデルは幾何学的特徴をより良く「理解」し、保持することができます。
しかし、このようなモデルも十分に大きくなければ強力な生成能力を「創発」することはできず、より大きなモデルにはより大きなデータセットでのトレーニングが必要です。周知の通り、高品質の3Dデータセットは非常に希少で高価であり、これはネイティブ3Dアプローチが最初に解決しなければならない問題です。
CLAYの論文では、研究者たちはカスタマイズされたデータ処理パイプラインを採用して複数の3Dデータセットを活用し、生成モデルをスケールアップするための効果的な技術を提案しました。
具体的には、彼らのデータ処理パイプラインはカスタマイズされたリメッシュアルゴリズムから始まり、3Dデータをウォータータイトメッシュに変換し、硬いエッジや平らな表面などの重要な幾何学的特徴を細かく保持しています。さらに、GPT-4Vを使用して詳細なアノテーションを作成し、重要な幾何学的特性を強調しています。
多くのデータセットがこの処理パイプラインを経て、CLAYモデルのトレーニングに使用される超大規模3Dモデルデータセットとなりました。これまで、フォーマットの違いや一貫性の欠如により、これらのデータセットが一緒に3D生成モデルのトレーニングに使用されたことはありませんでした。処理後の組み合わせデータセットは一貫した表現と一貫したアノテーションを維持し、生成モデルの汎化性を大幅に向上させることができます。
このデータセットを使用してトレーニングされたCLAYには、15億パラメータの3D生成モデルが含まれています。データセットから暗黙的表現への変換、そして出力までの間の情報損失を可能な限り小さくするために、彼らは長い時間をかけてスクリーニングと改良を行い、最終的に全く新しく効率的な3D表現方法を探索しました。具体的には、3DShape2VecSetのニューラルフィールド設計を採用して連続的で完全な表面を記述し、異なる解像度の点群を処理するためのカスタマイズされたマルチレゾリューション幾何学的VAEと組み合わせ、潜在ベクトルサイズに適応できるようにしました。
モデルのスケーラビリティを容易にするために、CLAYは極めてシンプルな潜在拡散Transformer(DiT)を採用しています。これはTransformerで構成され、潜在ベクトルサイズに適応でき、大規模モデル化能力(スケーラビリティ)を持っています。さらに、CLAYは段階的なトレーニング方式を導入し、潜在ベクトルサイズとモデルパラメータを徐々に増やしてトレーニングを行います。
最終的に、CLAYは幾何学的形状の正確な制御を実現し、ユーザーはプロンプトを調整することで幾何学的生成の複雑さ、スタイルなど(さらにはキャラクターまで)を制御できます。従来の方法と比較して、CLAYは細かい幾何学的形状を迅速に生成し、平らな表面や構造の完全性などの重要な幾何学的特徴を十分に保証します。
論文のいくつかの結果は、ネイティブ3Dアプローチの利点を十分に示しています。下の図は、研究者がデータセットから検索した上位3つの最近傍サンプルを示しています。CLAYが生成した高品質の幾何学的形状はプロンプトと一致していますが、データセット内のサンプルとは異なり、十分な豊かさを示し、大規模モデルの創発能力の特徴を持っています。
生成されたデジタルアセットを既存のCG制作パイプラインで直接使用できるようにするために、研究者はさらに