В эпоху ИИ данные действительно стали ключевым ресурсом. По мере истощения человеческих данных синтетические данные рассматриваются как направление будущего, но их использование требует осторожности.
Недавняя статья, опубликованная на обложке Nature, вызвала дискуссию. Исследование показало, что использование только контента, сгенерированного ИИ, в обучении может привести к краху модели. Это вызвало широкое обсуждение в сообществе ИИ, многие считают, что суть проблемы заключается в качестве данных, а не в самих синтетических данных.
Чтобы избежать краха модели, эксперты предлагают следующие рекомендации:
-
Использование смешанных данных. CEO Scale AI считает, что чисто синтетические данные не могут принести информационную выгоду, следует использовать сочетание реальных данных, участия экспертов-людей и формальных логических движков.
-
Применение методов усиленного обучения. Исследователи из Meta и других организаций предлагают восстанавливать и улучшать производительность модели с помощью метода "ранжирование-обрезка-обратная связь".
-
Использование человеческого надзора. Исследования показывают, что фильтрация высококачественных данных под наблюдением человека более эффективна и менее затратна, чем прямая ручная разметка.
-
Комбинирование с реальными данными. В экспериментах использование только сгенерированных данных приводило к снижению производительности, в то время как сочетание реальных данных и обратной связи могло улучшить производительность.
В целом, синтетические данные действительно имеют потенциал, но требуют осторожного использования и сочетания с другими методами, чтобы избежать краха модели и достичь улучшения производительности. Будущее направление может заключаться в сочетании смешанных данных и усиленного обучения.