Семейство Llama 3.1, запуск завтра
Согласно утечке информации из карточки модели, Llama 3.1 будет выпущена 23-го числа.
Лицензия - "Пользовательская коммерческая лицензия" и "Общественная лицензия Llama 3.1".
В частности, серия Llama 3.1 многоязычных больших языковых моделей представляет собой набор предварительно обученных и настроенных на инструкции генеративных моделей, включая масштабы параметров 8B, 70B и 405B.
Настроенные на инструкции текстовые модели Llama 3.1 (8B, 70B, 405B) оптимизированы для многоязычных разговорных сценариев использования.
Помимо английского, она поддерживает 7 языков, включая немецкий, французский, итальянский, португальский, хинди, испанский и тайский.
Согласно введению, новые возможности Llama 3.1 включают более длинный контекст, поддержку многоязычного ввода и вывода, а также интеграцию с инструментами разработчиков и сторонними инструментами.
Эталонные тесты
Диаграмма эталонных тестов на GitHub (сейчас 404) показывает отличные результаты Llama 3.1 в эталонных тестах.
В частности, в эталонных оценках предварительно обученных моделей Llama 3.1 405B установила новые рекорды в общих задачах, логических рассуждениях и понимании прочитанного.
Наиболее заметные улучшения были в подтестах MMLU и SQuAD.
Между тем, версии Llama 3.1 с 8B и 70B параметрами показали небольшие улучшения по сравнению с Llama 3. Однако по некоторым показателям Llama 3.1 70B все еще уступала своему предшественнику.
Кроме того, среди моделей, настроенных на инструкции, Llama 3.1 405B явно сильнее предварительно обученной модели. Она значительно превосходит настроенные версии 8B и 70B в рассуждениях, кодировании, математике, использовании инструментов и многоязычных тестах.
Настроенные модели Llama 3.1 8B и 70B также показывают существенное улучшение производительности в нескольких задачах на способности.
Некоторые пользователи сети составили эталонные тесты других ведущих моделей, показав путем сравнения, что Claude 3.5 Sonnet является чемпионом по всем эталонным тестам.
Настроенная версия Llama 3.1 405B показывает лучшие результаты только в математическом тесте MMLU Pro, превосходя все большие модели с результатом 73,3%.
Кроме того, 405B находится на одном уровне с GPT-4o в тестах GPQA (профессиональные знания и рассуждения на уровне выпускников), математике, DROP (понимание прочитанного), MGSM (многоязычная математика), HumanEval (программирование) и BBH (оценка знаний).
Более того, 405B значительно превосходит последнюю мини-модель GPT-4o.
Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру Transformer. Скорректированные версии используют SFT и RLHF для согласования с человеческими предпочтениями безопасности.
Для моделей серии Llama 3.1 количество токенов относится только к данным предварительного обучения.
Все версии модели используют групповое внимание запросов (GQA) для улучшения масштабируемости вывода.
15T токенов обучающих данных
Как и Llama 3, Llama 3.1 была предварительно обучена на примерно 15 триллионах токенов из общедоступных источников.
Данные для тонкой настройки включают общедоступные наборы инструкций, а также более 25 миллионов синтетических образцов, с данными предварительного обучения, обрезанными в декабре 2023 года.
Доступно как для коммерческого, так и для исследовательского использования
Llama 3.1 поддерживает как коммерческое, так и исследовательское использование в многоязычных средах.
Настроенные на инструкции текстовые модели подходят для чат-ассистентов, в то время как предварительно обученные модели могут адаптироваться к различным задачам генерации естественного языка. Коллекция моделей Llama 3.1 также поддерживает использование выходных данных своей модели для улучшения других моделей, включая генерацию синтетических данных и дистилляцию моделей.
Использование, нарушающее законы и правила, политики использования и Общественную лицензию Llama 3.1, или использование за пределами поддерживаемых языков, выходит за рамки допустимого.
Команда подчеркивает, что Llama 3.1 была обучена на более широком наборе языков, помимо 8 поддерживаемых. Разработчики могут настроить ее для использования на других языках при условии соблюдения политик, таких как общественная лицензия, и обеспечения безопасного и ответственного использования.
39,3 миллиона GPU-часов обучения
Для предварительного обучения Meta использовала собственные библиотеки обучения, собственные GPU-кластеры Meta и производственную инфраструктуру. Тонкая настройка, аннотирование и оценка также проводились на производственной инфраструктуре.
Обучение в общей сложности использовало 39,3 миллиона GPU-часов вычислительного времени, с H100-80GB (700W TDP) в качестве типа оборудования.
Время обучения - это общее время GPU, необходимое для обучения каждой модели, а потребление энергии - это пиковая мощность каждого GPU-устройства, скорректированная с учетом эффективности использования энергии.