В настоящее время в сфере искусственного интеллекта возник "нефтяной кризис", и практически каждая компания, занимающаяся ИИ, активно ищет новые источники языкового материала. Однако даже огромные объемы данных, похоже, не могут удовлетворить аппетит крупных моделей ИИ. Более того, все больше контент-платформ осознают ценность имеющихся у них данных и начинают их ревностно оберегать. В связи с этим "синтетические данные" стали новым направлением исследований для всей индустрии ИИ.
Однако в течение довольно длительного времени было неизвестно, можно ли вообще использовать синтетические данные, пока недавно доктор Томас Сциалом, исследователь ИИ из Meta, не дал ответ на этот вопрос. По его словам, открытая модель Llama 3 от Meta не использовала при обучении никаких ответов, написанных людьми, а полностью основывалась на синтетических данных, сгенерированных Llama 2.
Рассказывая о деталях обучения Llama 3, Томас Сциалом упомянул применение синтетических данных в различных сценариях для крупных моделей, таких как обратная связь при выполнении кода, перевод языков программирования, обратный перевод документов, вопросы и ответы по длинным текстам, резюмирование длинных документов, рассуждения о кодовых базах и т.д. Это также объясняет, как Meta удалось весной этого года выпустить модель Llama 3 с более чем 400 миллиардами параметров и в семь раз большим объемом обучающих данных по сравнению с Llama 2.
Синтетические данные обычно относятся к новым данным, созданным алгоритмами, имитирующими характеристики реальных данных. Как же работает этот процесс "подъема за шнурки"? Две статьи, опубликованные командами Meta и Microsoft, раскрывают секрет обучения крупных моделей с использованием синтетических данных. Meta называет модели, обученные на синтетических данных, "самовознаграждающимися языковыми моделями", то есть сама крупная модель генерирует обучающие данные, оценивает их качество, а затем использует эти данные для самообучения.
Самовознаграждающиеся языковые модели фактически являются применением так называемого обучения с подкреплением с обратной связью от ИИ (RLAIF). Конкретный подход Meta заключается в предварительном обучении исходной модели на небольшом количестве данных с ручной разметкой, затем позволении исходной модели генерировать несколько вариантов ответов на основе вопросов, и использовании метода LLM-as-a-Judge, предложенного доктором Эндрю Ыном, чтобы крупная языковая модель оценивала свои собственные сгенерированные ответы и формировала новые обучающие данные на основе этих оценок для дальнейшего обучения модели.
В этом процессе наиболее важно, чтобы крупная модель могла генерировать и оценивать новые инструкции по примеру, а затем добавлять их в свой обучающий набор. Поскольку двоичный язык, используемый компьютерами, отличается от человеческого языка, исследователям необходимо преобразовать человеческий язык в форму, понятную компьютерам, что называется "текстовым вложением". Например, исследовательская группа Microsoft определила ряд задач текстового вложения и разработала специфические подсказки для этих задач, чтобы направлять крупную языковую модель в генерации конкретных данных.
Специфические подсказки, созданные исследователями, включают два ключевых элемента: вопрос и роль, которые затем комбинируются. Например, сочетание водителя и математической задачи может генерировать задачи для начальной и средней школы, направляя крупную языковую модель на синтез данных с соответствующей точки зрения - в этом и заключается секрет самовознаграждающихся языковых моделей. Затем исследователям нужно только очистить и отформатировать сгенерированные данные, удалив повторяющийся контент и исправив ошибки форматирования, чтобы убедиться, что они соответствуют требованиям обучения.
Преимущество синтетических данных заключается в том, что они могут отражать свойства реальных данных в математическом и физическом смысле, и, поскольку не требуют ручной разметки, значительно снижают человеческие ошибки, вызванные процессами сбора и передачи данных, а также несогласованностью человеческих стандартов. Возникает вопрос: если синтетические данные могут решить проблему нехватки обучающих данных и связанные с этим проблемы высоких затрат, почему многие компании, занимающиеся ИИ, все еще предпочитают добывать или покупать данные, созданные людьми?
Ключевая причина заключается в том, что, несмотря на тщательно разработанные подсказки и контролируемое обучение, присущие крупным языковым моделям предвзятости и галлюцинации все еще могут вносить шум в набор данных. Крупные языковые модели, обученные на ошибочных, галлюцинирующих или предвзятых синтетических данных, не смогут обобщаться на реальные сценарии. Крупные языковые модели, основанные на синтетических данных, должны избегать "загрязнения" машинным обучением, и чем выше доля синтетических данных в обучающем наборе, тем труднее улучшить способность к пониманию естественного языка.
Например, профессор Стэнфордского университета Перси Лян отметил, что синтетическим данным не хватает ценной "человечности", из-за чего крупные модели, обученные на синтетических данных, недостаточны для достижения AGI (искусственного общего интеллекта). Что еще более важно, синтетические данные можно использовать для проверки или расширения уже известных человеку областей, но они не могут раскрыть области, не существующие в исходном наборе данных - их границы являются границами исходного набора данных.
Таким образом, теоретически возможно, что Meta обучила Llama 3 на синтетических данных, сгенерированных Llama 2, но они не сообщили, сколько человеческих ресурсов и времени это потребовало. Хотя синтетические данные действительно дешевле реальных данных, все еще неизвестно, сколько будет стоить отсеивание некачественных синтетических данных.
Если бы синтетические данные действительно были дешевле реальных данных во всех аспектах, крупные компании, занимающиеся ИИ, не имели бы причин продолжать фокусироваться на данных, созданных людьми, даже несмотря на проблемы галлюцинаций и этики ИИ.