El 3D es un problema industrial, no es suficiente que los modelos se desempeñen bien visualmente, también deben cumplir con estándares industriales específicos, como la representación de materiales, la planificación de superficies y la estructura racional. Si no se alinean con los estándares industriales humanos, los resultados generados requerirán muchos ajustes y serán difíciles de aplicar en la producción.
Al igual que los modelos de lenguaje grande (LLM) necesitan alinearse con los valores humanos, los modelos de IA para generación 3D necesitan alinearse con los complejos estándares industriales 3D.
Una solución más práctica ha surgido: 3D nativo
Uno de los trabajos nominados al mejor artículo del laboratorio MARS de la Universidad de Shanghái para Ciencia y Tecnología - CLAY - mostró a la industria un enfoque viable para resolver los problemas mencionados anteriormente, es decir, el 3D nativo.
Sabemos que en los últimos dos años, las rutas técnicas para la generación 3D se pueden dividir aproximadamente en dos categorías: elevación 2D a 3D y 3D nativo.
La elevación 2D a 3D es el proceso de reconstrucción tridimensional mediante modelos de difusión 2D combinados con métodos como NeRF. Debido a que pueden aprovechar grandes cantidades de datos de imágenes 2D para el entrenamiento, estos modelos a menudo pueden generar resultados diversos. Sin embargo, debido a la capacidad limitada de los modelos de difusión 2D para el conocimiento previo 3D, estos modelos tienen una comprensión limitada del mundo 3D y tienden a generar resultados con estructuras geométricas irracionales (como personas o animales con múltiples cabezas).
Una serie de trabajos recientes de reconstrucción multi-vista han aliviado este problema en cierta medida al agregar imágenes 2D multi-vista de activos 3D a los datos de entrenamiento de los modelos de difusión 2D. Sin embargo, la limitación es que el punto de partida de estos métodos son imágenes 2D, por lo que se centran en la calidad de las imágenes generadas en lugar de intentar mantener la fidelidad geométrica, por lo que las geometrías generadas a menudo tienen problemas de incompletitud y falta de detalles.
En otras palabras, los datos 2D solo registran un aspecto o proyección del mundo real, y ninguna cantidad de imágenes desde múltiples ángulos puede describir completamente un contenido tridimensional, por lo que lo que el modelo aprende sigue teniendo mucha información faltante, los resultados generados aún requieren muchas correcciones y es difícil cumplir con los estándares industriales.
Considerando estas limitaciones, ### el equipo de investigación de CLAY eligió otro camino - el 3D nativo.
Esta ruta entrena modelos generativos directamente a partir de conjuntos de datos 3D, extrayendo ricos conocimientos previos 3D de diversas formas geométricas 3D. Por lo tanto, el modelo puede "comprender" y preservar mejor las características geométricas.
Sin embargo, estos modelos también necesitan ser lo suficientemente grandes para "emerger" con poderosas capacidades generativas, y los modelos más grandes requieren entrenamiento en conjuntos de datos más grandes. Como es bien sabido, los conjuntos de datos 3D de alta calidad son muy escasos y costosos, este es el primer problema que debe resolverse en la ruta 3D nativa.
En este artículo CLAY, los investigadores adoptaron un flujo de procesamiento de datos personalizado para explotar diversos conjuntos de datos 3D y propusieron técnicas efectivas para escalar los modelos generativos.
Específicamente, su flujo de procesamiento de datos comienza con un algoritmo de remallado personalizado que convierte los datos 3D en mallas herméticas, preservando cuidadosamente características geométricas importantes como bordes duros y superficies planas. Además, utilizaron GPT-4V para crear anotaciones detalladas que resaltan características geométricas importantes.
Después de que numerosos conjuntos de datos pasaron por este flujo de procesamiento, se combinaron en el conjunto de datos de modelos 3D a gran escala utilizado para entrenar el modelo CLAY. Anteriormente, debido a los diferentes formatos y falta de consistencia, estos conjuntos de datos nunca se habían utilizado juntos para entrenar modelos generativos 3D. El conjunto de datos combinado procesado mantiene una representación consistente y anotaciones coherentes, lo que puede mejorar enormemente la generalización del modelo generativo.
CLAY, entrenado con este conjunto de datos, incluye un modelo generativo 3D con hasta 1.5 mil millones de parámetros. Para garantizar que la pérdida de información entre la conversión del conjunto de datos a la representación implícita y la salida sea lo más pequeña posible, pasaron mucho tiempo seleccionando y refinando, y finalmente exploraron un conjunto completamente nuevo y eficiente de métodos de representación 3D. Específicamente, adoptaron el diseño de campo neural de 3DShape2VecSet para describir superficies continuas completas, y lo combinaron con un VAE geométrico multi-resolución personalizado para procesar nubes de puntos de diferentes resoluciones, permitiéndole adaptarse al tamaño del vector latente.
Para facilitar la escalabilidad del modelo, CLAY adoptó un Transformer de difusión latente (DiT) minimalista. Está compuesto por Transformers, puede adaptarse al tamaño del vector latente y tiene capacidad de escalabilidad. Además, CLAY también introdujo un esquema de entrenamiento progresivo, entrenando gradualmente aumentando el tamaño del vector latente y los parámetros del modelo.
Finalmente, CLAY logró un control preciso sobre la geometría, permitiendo a los usuarios controlar la complejidad, el estilo e incluso los personajes de la generación geométrica ajustando las palabras clave. En comparación con métodos anteriores, CLAY puede generar rápidamente geometrías detalladas, garantizando bien características geométricas importantes como superficies planas e integridad estructural.
Algunos resultados en el artículo demuestran plenamente las ventajas de la ruta 3D nativa. La siguiente figura muestra las tres muestras más cercanas recuperadas del conjunto de datos por los investigadores. Las geometrías de alta calidad generadas por CLAY coinciden con las palabras clave, pero son diferentes de las muestras en el conjunto de datos, mostrando suficiente riqueza y características de capacidades emergentes de modelos grandes.
Para que los activos digitales generados puedan usarse directamente en las líneas de producción CG existentes, los investigadores también