3D ist ein industrielles Problem, bei dem es nicht ausreicht, dass Modelle nur visuell gut aussehen. Sie müssen auch spezifische industrielle Standards erfüllen, wie zum Beispiel die Darstellung von Materialien, die Planung von Flächen und eine angemessene Struktur. Wenn sie nicht mit menschlichen Industriestandards übereinstimmen, erfordern die generierten Ergebnisse umfangreiche Anpassungen und sind schwer in der Produktion einsetzbar.
Ähnlich wie große Sprachmodelle (LLMs) mit menschlichen Werten abgestimmt werden müssen, müssen KI-Modelle zur 3D-Generierung mit komplexen 3D-Industriestandards in Einklang gebracht werden.
Eine praktischere Lösung ist bereits aufgetaucht: 3D-nativ
Eine der für den Best Paper Award nominierten Arbeiten des MARS-Labors der Shanghai Tech University - CLAY - hat der Branche einen praktikablen Lösungsansatz für die oben genannten Probleme aufgezeigt, nämlich den 3D-nativen Ansatz.
Wir wissen, dass sich die technischen Ansätze für die 3D-Generierung in den letzten zwei Jahren grob in zwei Kategorien einteilen lassen: 2D-Hochskalierung und natives 3D.
Die 2D-Hochskalierung ist ein Prozess der dreidimensionalen Rekonstruktion durch 2D-Diffusionsmodelle in Kombination mit Methoden wie NeRF. Da diese Modelle mit einer großen Menge an 2D-Bilddaten trainiert werden können, sind sie oft in der Lage, vielfältige Ergebnisse zu generieren. Aufgrund der mangelnden 3D-Vorkenntnisse der 2D-Diffusionsmodelle haben diese Modelle jedoch ein begrenztes Verständnis der 3D-Welt und neigen dazu, geometrisch unvernünftige Ergebnisse zu erzeugen (wie Menschen oder Tiere mit mehreren Köpfen).
Eine Reihe jüngster Arbeiten zur Rekonstruktion aus mehreren Blickwinkeln hat dieses Problem teilweise gelöst, indem sie Mehrwinkelbilder von 3D-Assets in die Trainingsdaten des 2D-Diffusionsmodells aufgenommen haben. Die Einschränkung besteht jedoch darin, dass der Ausgangspunkt dieser Methoden 2D-Bilder sind und sie sich daher auf die Qualität der generierten Bilder konzentrieren, anstatt zu versuchen, die geometrische Genauigkeit zu erhalten. Daher sind die erzeugten Geometrien oft unvollständig und es fehlt ihnen an Details.
Mit anderen Worten, 2D-Daten erfassen letztendlich nur eine Seite oder Projektion der realen Welt, und selbst Bilder aus mehreren Winkeln können einen dreidimensionalen Inhalt nicht vollständig beschreiben. Daher fehlen dem Modell immer noch viele Informationen, und die generierten Ergebnisse erfordern immer noch umfangreiche Korrekturen und können industrielle Standards nur schwer erfüllen.
Angesichts dieser Einschränkungen ### hat sich das Forschungsteam von CLAY für einen anderen Weg entschieden - den 3D-nativen Ansatz.
Dieser Ansatz trainiert Generierungsmodelle direkt aus 3D-Datensätzen und extrahiert reichhaltige 3D-Vorkenntnisse aus verschiedenen 3D-Geometrien. Dadurch können die Modelle geometrische Merkmale besser "verstehen" und erhalten.
Allerdings müssen diese Modelle auch groß genug sein, um starke Generierungsfähigkeiten zu "emergieren", und größere Modelle erfordern Training auf größeren Datensätzen. Bekanntlich sind hochwertige 3D-Datensätze sehr selten und teuer, was das erste Problem ist, das der native 3D-Ansatz lösen muss.
In der CLAY-Arbeit verwendeten die Forscher einen maßgeschneiderten Datenverarbeitungsablauf, um verschiedene 3D-Datensätze zu erschließen, und schlugen effektive Techniken vor, um das Generierungsmodell zu skalieren.
Konkret beginnt ihr Datenverarbeitungsablauf mit einem maßgeschneiderten Remeshing-Algorithmus, der 3D-Daten in wasserdichte Netze umwandelt und dabei wichtige geometrische Merkmale wie harte Kanten und ebene Oberflächen sorgfältig bewahrt. Darüber hinaus nutzten sie GPT-4V, um detaillierte Annotationen zu erstellen, die wichtige geometrische Eigenschaften hervorheben.
Nach der Verarbeitung durch den oben genannten Workflow wurden zahlreiche Datensätze zu einem sehr großen 3D-Modelldatensatz zusammengeführt, der für das Training des CLAY-Modells verwendet wurde. Zuvor wurden diese Datensätze aufgrund unterschiedlicher Formate und mangelnder Konsistenz nie gemeinsam zum Training von 3D-Generierungsmodellen verwendet. Der verarbeitete kombinierte Datensatz behält eine konsistente Darstellung und kohärente Annotationen bei, was die Generalisierbarkeit des Generierungsmodells erheblich verbessern kann.
Das mit diesem Datensatz trainierte CLAY umfasst ein 3D-Generierungsmodell mit 1,5 Milliarden Parametern. Um sicherzustellen, dass der Informationsverlust zwischen der Umwandlung vom Datensatz in implizite Darstellung und der Ausgabe so gering wie möglich ist, verbrachten sie viel Zeit mit der Auswahl und Verfeinerung und erforschten schließlich einen völlig neuen und effizienten 3D-Darstellungsansatz. Konkret verwendeten sie das neuronale Felddesign von 3DShape2VecSet, um kontinuierliche vollständige Oberflächen zu beschreiben, kombiniert mit einem speziell angefertigten multiresolution geometrischen VAE zur Verarbeitung von Punktwolken unterschiedlicher Auflösung, was eine adaptive Latent-Größe ermöglicht.
Um die Skalierbarkeit des Modells zu erleichtern, verwendet CLAY einen minimalistischen latenten Diffusions-Transformer (DiT). Er besteht aus Transformern, kann sich an die Latent-Größe anpassen und besitzt Skalierbarkeit für große Modelle. Darüber hinaus führt CLAY ein progressives Trainingsschema ein, bei dem die Latent-Größe und die Modellparameter schrittweise erhöht werden.
Letztendlich erreicht CLAY eine präzise Kontrolle über die Geometrie, wobei Benutzer die Komplexität, den Stil und sogar Charaktere der geometrischen Generierung durch Anpassung der Prompts steuern können. Im Vergleich zu früheren Methoden kann CLAY schnell detaillierte Geometrien generieren und wichtige geometrische Merkmale wie ebene Oberflächen und strukturelle Integrität gut gewährleisten.
Einige Ergebnisse in der Arbeit zeigen deutlich die Vorteile des nativen 3D-Ansatzes. Die folgende Abbildung zeigt die drei nächsten Nachbarn, die die Forscher aus dem Datensatz abgerufen haben. Die von CLAY generierten hochwertigen Geometrien stimmen mit den Prompts überein, unterscheiden sich aber von den Proben im Datensatz, was eine ausreichende Vielfalt und die Merkmale der emergenten Fähigkeiten großer Modelle zeigt.
Um die generierten digitalen Assets direkt in bestehende CG-Produktionspipelines einbinden zu können, haben die Forscher auch