Llama 3.1 утечка: производительность превосходит GPT-4, а стоимость всего одна десятая?

Meta, принадлежащая AI-модель Llama, снова столкнулась с утечкой, что привлекло внимание сообщества открытого исходного кода. Несмотря на неоднократные утечки, Llama продолжает придерживаться курса на открытый исходный код, но эта стратегия сталкивается с проблемами. Инцидент подчеркивает противоречие между открытостью и безопасностью технологий искусственного интеллекта, а также вызывает размышления об управлении и защите моделей с открытым исходным кодом.

Производительность Llama 3.1 сопоставима с GPT-4o от OpenAI!

Некоторые блогеры в сфере ИИ заявили, что выпуск Llama 3.1 станет еще одним днем, который изменит судьбу мира ИИ.

Утечка результатов тестирования показывает, что Llama 3.1 выпускается в размерах 8B, 70B и 405B. Даже модель 70B с наименьшим количеством параметров во многих аспектах работает на уровне GPT-4o.

Некоторые пользователи сети отметили, что согласно этому тесту, Llama 3.1 405B ≈ GPT-4o, в то время как Llama 3.1 70B станет первой легкой моделью, превзошедшей OpenAI, мини-версией GPT-4o.

Однако многие, кто скачал модель для тестирования, обнаружили, что утекшая Llama 3.1 405B имеет общий размер файла около 820 ГБ, требуя почти в 3 раза больше памяти, чем Llama 2 (около 280 ГБ) для сохранения полной точности.

Это означает, что если у вас нет дома майнинговой установки и вы не можете позволить себе достаточное количество GPU, отдельным разработчикам будет сложно запустить Llama 3.1 на своих компьютерах. Некоторые пользователи предполагают, что Llama 3.1 ориентирована не на отдельных лиц, а на учреждения и предприятия.

Еще не анонсированная Llama 3.1 также столкнулась с некоторой критикой. Многие пользователи жаловались, что требования Llama 3.1 к GPU слишком высоки, делая мини-версию GPT-4o от OpenAI более экономически эффективной в сравнении.

Согласно утекшей информации о модели, Llama 3.1 имеет больше итераций в функциональности по сравнению с Llama 3, выпущенной 19 апреля 2024 года, включая более длинные контекстные окна, многоязычный ввод и вывод, а также возможную интеграцию с разработчиками и инструментами третьих сторон.

Данные для обучения: Llama 3.1 была обучена на 15T+ токенах из публичных источников, с данными для тонкой настройки, включающими общедоступные наборы данных для обучения инструкциям (в отличие от Llama-3!) и более 25 миллионов синтетически сгенерированных примеров.

Многоязычное общение: Llama 3.1 поддерживает 8 языков: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Хотя китайский, к сожалению, не включен, разработчики могут настроить модель Llama 3.1 для языков, выходящих за рамки 8 поддерживаемых.

Контекстное окно: Длина контекста для каждой версии была расширена с 8k до 128k, что примерно эквивалентно способности модели запоминать, понимать и обрабатывать около 96 000 слов одновременно, почти целую оригинальную книгу о Гарри Поттере.

Многие пользователи сети стремятся сравнить Llama 3.1 с ее "предшественниками", обнаруживая, что не только значительно улучшились показатели, но и сэкономлены вычислительные ресурсы.

На основе тестирования пользователей, Llama 3.1 показывает значительные улучшения в возможностях по сравнению с Llama 3. В частности, заметно улучшились возможности human_eval и truthfulqa_mc1, что означает более сильные способности генерации кода и более правдивые ответы на вопросы.

В то же время, инструктивная модель Llama 3 показывает явные улучшения по сравнению с базовой моделью в таких показателях, как обучение по подсказкам, контекстное обучение и эффективная тонкая настройка параметров.

Это разумно, так как базовые модели обычно не настраиваются для конкретных задач, в то время как инструктивные модели специально обучены следовать инструкциям или выполнять конкретные задачи. Обычно инструктивные модели показывают лучшие результаты по метрикам.

Это делает людей еще более взволнованными в ожидании официального выпуска Llama 3.1. Текущие тесты утекшей модели Llama 3.1 нацелены только на базовую модель, в то время как инструктивная модель может работать еще лучше!

Удивительно, но в результатах тестирования модель Llama 3.1 70B соответствует или превосходит GPT-4o, в то время как модель Llama 3.1 8B работает близко к модели Llama 3 70B. Некоторые пользователи предполагают, что это могло использовать методы дистилляции модели, где модели 8B и 70B являются упрощенными версиями, полученными из самой большой модели 405B, делая большую модель "меньше".

Дистилляцию модели можно рассматривать как обучение учеников у учителей. Большая и мощная модель (модель учителя) является учителем, в то время как меньшая и более простая модель (модель ученика) является учеником. Модель ученика учится, "имитируя" модель учителя, пытаясь сделать свой вывод как можно ближе к выводу модели учителя, тем самым изучая аналогичные знания и возможности.

После дистилляционного обучения модель ученика может уменьшить размер модели и требования к вычислительным ресурсам, сохраняя при этом высокую производительность и сопоставимую точность.

Пока неизвестно, будет ли Llama 3.1 открыта для общего доступа, как надеялись. Но даже если она будет открыта, вам все равно понадобятся глубокие карманы, чтобы позволить себе использовать Llama 3.1.

Базовый входной билет для запуска Llama 3.1 - достаточное количество GPU.

Утекшие файлы показывают, что время обучения для Llama 3.1 405B на оборудовании типа H100-80GB составляет 30,84 млн GPU-часов. Это означает, что если предположить, что используется только один H100-80GB в час, запуск Llama 3.1 405B займет 30,84 млн часов - потребуется 3500 лет для работы модели!

Для частного развертывания, если компания хочет успешно запустить Llama 3.1 405B в течение месяца, ей потребуется запастись как минимум 43 000 H100-80GB. При стоимости $40 000 за H100, ### входной билет для использования вычислительной мощности Llama 3.1 405B будет составлять целых $17 миллиардов, что эквивалентно 125 миллиардам юаней.

Хорошая новость заключается в том, что затраты на вывод Llama 3.1 могут быть дешевле.

Согласно прогнозам Artificial Analysis, стоимость обработки 1 миллиона токенов с помощью Llama 3.1 405B будет дешевле, чем у аналогичных по качеству передовых моделей (GPT-4o и Claude 3.5 Sonnet), предлагая лучшую экономическую эффективность.

Кроме того, некоторые пользователи сети предполагают из исходного кода, что Llama 3.1 405B может стать продуктом с платным членством. Однако реальная ситуация остается неизвестной до официального выпуска.