Apple неожиданно опубликовала крупную языковую модель размером 7 миллиардов параметров, выпустив ее вместе с обучающими данными. Это вызвало удивление пользователей сети: такая открытость не соответствует стилю Apple.

Apple вышла на арену открытых крупных языковых моделей с более открытым подходом, чем у других компаний. Они выпустили модель с 7 миллиардами параметров, которая работает сопоставимо с Llama 3 8B, при этом сделав открытым весь процесс обучения и ресурсы.

Этот шаг последовал за недавней критикой редактора Nature Элизабет Гибни о том, что многим якобы открытым моделям ИИ не хватает прозрачности в данных и методах обучения, что не соответствует истинным потребностям научных исследований. Релиз Apple напрямую решает эти проблемы.

Специалист по NLP и создатель AutoAWQ выразил удивление, отметив, что Apple не только выпустила модель, превосходящую Mistral 7B, но и сделала открытым исходным кодом все, включая набор данных для предварительного обучения.

Значимость этого открытого релиза была подчеркнута членом сообщества:

Для всех, кто хочет обучать модели с нуля или дообучать существующие, процесс управления данными необходимо изучить.

Помимо релиза Apple, Mistral AI в партнерстве с NVIDIA запустили малую модель с 12 миллиардами параметров на прошлой неделе. Основатель HuggingFace объявил это "неделей малых моделей".

Новая малая модель Apple демонстрирует впечатляющие возможности:

Базовая модель 7B, обученная на открытых наборах данных с использованием 2,5 триллиона токенов
Преимущественно английские данные с контекстным окном в 2048 токенов
Наборы данных включают DCLM-BASELINE, StarCoder и ProofPile2
Оценка MMLU приближается к Llama 3 8B
Обучена с использованием фреймворков PyTorch и OpenLM

Исследовательская команда представила новый эталон сравнения данных языковых моделей под названием DCLM. Они обнаружили, что автоматическая фильтрация и отбор высококачественных данных из больших наборов данных с помощью моделей машинного обучения может быть ключом к созданию высококачественных обучающих наборов.

Используя DCLM, они разработали высококачественный набор данных DCLM-BASELINE для обучения модели DCLM-7B с 7 миллиардами параметров с нуля.

DCLM-7B достигла 64% точности при 5-shot оценке на эталоне MMLU, что сопоставимо с Mistral-7B-v0.3 (63%) и Llama 3 8B (66%). Она также сравнялась со средней производительностью Llama 3 8B по 53 задачам понимания естественного языка, требуя при этом только 1/6 вычислительных ресурсов.

По сравнению с другими моделями аналогичного размера, оценка MMLU модели DCLM-7B превзошла Mistral-7B и приблизилась к Llama 3 8B.

Чтобы проверить эффективность нового набора данных, специалист из индустрии обучил GPT-2 1.5B с использованием llm.c для сравнения DCLM-Baseline с FineWeb-Edu. Результаты показали, что DCLM-Baseline достиг более высоких средних оценок, показав лучшие результаты в таких задачах, как ARC, HellaSwag и MMLU.

Тенденция к меньшим моделям набирает обороты:

HuggingFace запустила семейство малых моделей "SmolLM" (135M, 360M, 1.7B)
OpenAI выпустила GPT-4o mini, приближающуюся к возможностям GPT-4 при меньших затратах
Mistral AI и NVIDIA выпустили модель Mistral NeMo с 12 миллиардами параметров

Переход к меньшим моделям обусловлен их способностью достигать сопоставимой производительности с более крупными моделями при значительном снижении затрат. Как продемонстрировал основатель smol AI, модели вроде GPT-4o mini предлагают более низкую общую стоимость по сравнению с более крупными альтернативами.

Производительность сопоставима с моделью Llama 3 8B