La 3D est un problème industriel, il ne suffit pas que les modèles soient visuellement bons, ils doivent également répondre à des normes industrielles spécifiques, comme la façon dont les matériaux sont représentés, la planification des faces et la structure rationnelle. Si les résultats générés ne s'alignent pas sur les normes industrielles humaines, ils nécessiteront des ajustements importants et seront difficiles à appliquer en production.
Tout comme les grands modèles de langage (LLM) doivent s'aligner sur les valeurs humaines, les modèles d'IA générant de la 3D doivent s'aligner sur les normes industrielles 3D complexes.
Une solution plus pratique est apparue : la 3D native
L'un des travaux du laboratoire MARS de l'Université de Shanghai des Sciences et Technologies nominé pour le meilleur article - CLAY - a montré à l'industrie une approche viable pour résoudre les problèmes mentionnés ci-dessus, à savoir la 3D native.
Nous savons que ces deux dernières années, les approches techniques de génération 3D peuvent être grossièrement divisées en deux catégories : l'augmentation dimensionnelle 2D et la 3D native.
L'augmentation dimensionnelle 2D est le processus de reconstruction tridimensionnelle utilisant des modèles de diffusion 2D combinés à des méthodes telles que NeRF. Comme ils peuvent être entraînés sur de grandes quantités de données d'images 2D, ces modèles peuvent souvent générer des résultats diversifiés. Cependant, en raison des capacités limitées des modèles de diffusion 2D en matière de connaissances préalables 3D, ces modèles ont une compréhension limitée du monde 3D et ont tendance à générer des résultats géométriquement incohérents (comme des personnes ou des animaux avec plusieurs têtes).
Une série de travaux récents sur la reconstruction multi-vues ont atténué ce problème dans une certaine mesure en ajoutant des images 2D multi-vues d'actifs 3D aux données d'entraînement des modèles de diffusion 2D. Cependant, la limitation réside dans le fait que le point de départ de ces méthodes est l'image 2D, elles se concentrent donc toutes sur la qualité de l'image générée plutôt que d'essayer de maintenir la fidélité géométrique, ce qui entraîne souvent des géométries incomplètes et manquant de détails.
En d'autres termes, les données 2D ne capturent finalement qu'un aspect, ou une projection, du monde réel, et même les images sous de multiples angles ne peuvent pas décrire complètement un contenu tridimensionnel. Par conséquent, ce que le modèle apprend comporte encore beaucoup d'informations manquantes, les résultats générés nécessitent toujours des corrections importantes et il est difficile de répondre aux normes industrielles.
Compte tenu de ces limitations, ### l'équipe de recherche de CLAY a choisi une autre voie - la 3D native.
Cette approche entraîne directement des modèles génératifs à partir d'ensembles de données 3D, extrayant de riches connaissances préalables 3D à partir de diverses formes géométriques 3D. Ainsi, le modèle peut mieux "comprendre" et préserver les caractéristiques géométriques.
Cependant, ces modèles doivent également être suffisamment grands pour "faire émerger" de puissantes capacités génératives, et des modèles plus grands nécessitent un entraînement sur des ensembles de données plus importants. Comme on le sait, les ensembles de données 3D de haute qualité sont très rares et coûteux, c'est le premier problème que l'approche 3D native doit résoudre.
Dans l'article CLAY, les chercheurs ont utilisé un pipeline de traitement de données personnalisé pour exploiter divers ensembles de données 3D et ont proposé des techniques efficaces pour étendre (scale up) le modèle génératif.
Plus précisément, leur pipeline de traitement des données commence par un algorithme de remaillage personnalisé qui convertit les données 3D en maillages étanches (watertight meshes), préservant soigneusement les caractéristiques géométriques importantes telles que les arêtes vives et les surfaces planes. De plus, ils ont utilisé GPT-4V pour créer des annotations détaillées mettant en évidence les caractéristiques géométriques importantes.
Après avoir été traités par ce pipeline, de nombreux ensembles de données ont été fusionnés pour former le très grand ensemble de données de modèles 3D utilisé pour entraîner le modèle CLAY. Auparavant, en raison de formats différents et d'un manque de cohérence, ces ensembles de données n'avaient jamais été utilisés ensemble pour entraîner des modèles génératifs 3D. L'ensemble de données combiné traité maintient une représentation cohérente et des annotations cohérentes, ce qui peut grandement améliorer la généralisation du modèle génératif.
CLAY, entraîné sur cet ensemble de données, comprend un modèle génératif 3D avec pas moins de 1,5 milliard de paramètres. Pour garantir une perte d'information minimale entre la conversion de l'ensemble de données en représentation implicite et la sortie, ils ont passé beaucoup de temps à filtrer et à améliorer, explorant finalement un tout nouveau mode de représentation 3D efficace. Plus précisément, ils ont adopté la conception de champ neuronal de 3DShape2VecSet pour décrire des surfaces continues et complètes, combinée à un VAE géométrique multi-résolution personnalisé pour traiter les nuages de points à différentes résolutions, lui permettant d'adapter la taille du vecteur latent.
Pour faciliter l'extension du modèle, CLAY utilise un Transformer de diffusion latente (DiT) minimaliste. Il est composé de Transformers, peut adapter la taille du vecteur latent et a la capacité de devenir un grand modèle (scalability). De plus, CLAY introduit un schéma d'entraînement progressif, entraînant en augmentant progressivement la taille du vecteur latent et les paramètres du modèle.
Finalement, CLAY a réalisé un contrôle précis de la géométrie, permettant aux utilisateurs de contrôler la complexité, le style et même les personnages de la génération géométrique en ajustant les mots-clés. Par rapport aux méthodes précédentes, CLAY peut rapidement générer une géométrie détaillée, garantissant bien des caractéristiques géométriques importantes telles que les surfaces planes et l'intégrité structurelle.
Certains résultats de l'article démontrent pleinement les avantages de l'approche 3D native. La figure ci-dessous montre les trois échantillons les plus proches récupérés dans l'ensemble de données par les chercheurs. Les géométries de haute qualité générées par CLAY correspondent aux mots-clés mais diffèrent des échantillons de l'ensemble de données, montrant une richesse suffisante et les caractéristiques des capacités émergentes des grands modèles.
Afin de rendre les actifs numériques générés directement utilisables dans les pipelines de production CG existants, les chercheurs ont