3D - это промышленная проблема, недостаточно, чтобы модель просто хорошо выглядела визуально, она также должна соответствовать определенным промышленным стандартам, таким как представление материалов, планирование полигонов и рациональность структуры. Если результаты не соответствуют промышленным стандартам, созданным человеком, они потребуют значительной корректировки и будут трудны для применения в производстве.
Подобно тому, как большие языковые модели (LLM) должны соответствовать человеческим ценностям, AI-модели для генерации 3D должны соответствовать сложным промышленным 3D-стандартам.
Появилось более практичное решение: нативный 3D
Одна из работ лаборатории MARS Шанхайского научно-технического университета, номинированная на лучшую статью - CLAY, показала отрасли возможное решение вышеупомянутых проблем, а именно нативный 3D подход.
Мы знаем, что за последние два года технологические подходы к 3D-генерации можно разделить на две категории: повышение размерности 2D и нативный 3D.
Повышение размерности 2D - это процесс трехмерной реконструкции с использованием 2D диффузионных моделей в сочетании с методами, такими как NeRF. Благодаря возможности обучения на большом количестве 2D-изображений, эти модели часто могут генерировать разнообразные результаты. Однако из-за недостаточных 3D-априорных способностей 2D диффузионных моделей, такие модели имеют ограниченное понимание 3D-мира и склонны генерировать геометрически нерациональные результаты (например, людей или животных с несколькими головами).
Недавняя серия работ по многоракурсной реконструкции в некоторой степени смягчила эту проблему, добавив многоракурсные 2D-изображения 3D-активов в обучающие данные 2D диффузионных моделей. Однако ограничение заключается в том, что отправной точкой для этих методов являются 2D-изображения, поэтому они фокусируются на качестве генерируемых изображений, а не на сохранении геометрической точности, что часто приводит к неполной и недетализированной геометрии.
Другими словами, 2D-данные в конечном итоге фиксируют только один аспект или проекцию реального мира, и даже многоракурсные изображения не могут полностью описать трехмерный контент. Поэтому то, что изучает модель, все еще содержит много недостающей информации, и сгенерированные результаты все еще требуют значительной корректировки и с трудом соответствуют промышленным стандартам.
Учитывая эти ограничения, ### исследовательская группа CLAY выбрала другой путь - нативный 3D.
Этот подход напрямую обучает генеративные модели на 3D-наборах данных, извлекая богатые 3D-априорные знания из различных 3D-геометрических форм. Таким образом, модель может лучше "понимать" и сохранять геометрические характеристики.
Однако такие модели также должны быть достаточно большими, чтобы "проявить" мощные генеративные способности, а более крупные модели требуют обучения на больших наборах данных. Как известно, высококачественные 3D-наборы данных очень редки и дороги, и это первая проблема, которую необходимо решить для нативного 3D подхода.
В статье о CLAY исследователи использовали специальный процесс обработки данных для извлечения различных 3D-наборов данных и предложили эффективные методы для масштабирования генеративной модели.
Конкретно, их процесс обработки данных начинается с настраиваемого алгоритма перестроения сетки, который преобразует 3D-данные в водонепроницаемые сетки, тщательно сохраняя важные геометрические характеристики, такие как жесткие края и плоские поверхности. Кроме того, они использовали GPT-4V для создания подробных аннотаций, подчеркивающих важные геометрические особенности.
После обработки через вышеупомянутый процесс, многочисленные наборы данных были объединены в сверхбольшой набор данных 3D-моделей, используемый для обучения модели CLAY. Ранее, из-за различных форматов и отсутствия согласованности, эти наборы данных никогда не использовались вместе для обучения 3D-генеративных моделей. Обработанный комбинированный набор данных поддерживает согласованное представление и последовательные аннотации, что может значительно повысить обобщающую способность генеративной модели.
CLAY, обученная на этом наборе данных, включает 3D-генеративную модель с 1,5 миллиардами параметров. Чтобы обеспечить минимальную потерю информации при переходе от набора данных к неявному представлению и затем к выводу, они потратили много времени на отбор и улучшение, в конечном итоге разработав совершенно новый и эффективный способ 3D-представления. Конкретно, они приняли дизайн нейронного поля из 3DShape2VecSet для описания непрерывных полных поверхностей и объединили его со специальным многоразрешающим геометрическим VAE для обработки облаков точек разного разрешения, позволяя ему адаптироваться к размеру латентного вектора.
Для облегчения масштабирования модели CLAY использует минималистичный латентный диффузионный Transformer (DiT). Он состоит из Transformer'а, способного адаптироваться к размеру латентного вектора и обладающего способностью к масштабированию. Кроме того, CLAY вводит схему прогрессивного обучения, постепенно увеличивая размер латентного вектора и параметры модели во время обучения.
В итоге CLAY достигает точного контроля над геометрией, позволяя пользователям контролировать сложность, стиль и даже персонажей геометрической генерации путем настройки подсказок. По сравнению с предыдущими методами, CLAY может быстро генерировать детальную геометрию, хорошо сохраняя важные геометрические характеристики, такие как плоские поверхности и структурная целостность.
Некоторые результаты в статье полностью демонстрируют преимущества нативного 3D подхода. На рисунке ниже показаны три ближайших образца, извлеченных из набора данных. Высококачественная геометрия, сгенерированная CLAY, соответствует подсказкам, но отличается от образцов в наборе данных, демонстрируя достаточное разнообразие и характеристики возникающих способностей больших моделей.
Чтобы сделать сгенерированные цифровые активы непосредственно применимыми к существующим CG-производственным конвейерам, исследователи также