Apple вышла на арену открытых крупных языковых моделей с более открытым подходом, чем у других компаний. Они выпустили модель с 7 миллиардами параметров, которая работает сопоставимо с Llama 3 8B, при этом сделав открытым весь процесс обучения и ресурсы.
Этот шаг последовал за недавней критикой редактора Nature Элизабет Гибни о том, что многим якобы открытым моделям ИИ не хватает прозрачности в данных и методах обучения, что не соответствует истинным потребностям научных исследований. Релиз Apple напрямую решает эти проблемы.
Специалист по NLP и создатель AutoAWQ выразил удивление, отметив, что Apple не только выпустила модель, превосходящую Mistral 7B, но и сделала открытым исходным кодом все, включая набор данных для предварительного обучения.
Значимость этого открытого релиза была подчеркнута членом сообщества:
Для всех, кто хочет обучать модели с нуля или дообучать существующие, процесс управления данными необходимо изучить.
Помимо релиза Apple, Mistral AI в партнерстве с NVIDIA запустили малую модель с 12 миллиардами параметров на прошлой неделе. Основатель HuggingFace объявил это "неделей малых моделей".
Новая малая модель Apple демонстрирует впечатляющие возможности:
- Базовая модель 7B, обученная на открытых наборах данных с использованием 2,5 триллиона токенов
- Преимущественно английские данные с контекстным окном в 2048 токенов
- Наборы данных включают DCLM-BASELINE, StarCoder и ProofPile2
- Оценка MMLU приближается к Llama 3 8B
- Обучена с использованием фреймворков PyTorch и OpenLM
Исследовательская команда представила новый эталон сравнения данных языковых моделей под названием DCLM. Они обнаружили, что автоматическая фильтрация и отбор высококачественных данных из больших наборов данных с помощью моделей машинного обучения может быть ключом к созданию высококачественных обучающих наборов.
Используя DCLM, они разработали высококачественный набор данных DCLM-BASELINE для обучения модели DCLM-7B с 7 миллиардами параметров с нуля.
DCLM-7B достигла 64% точности при 5-shot оценке на эталоне MMLU, что сопоставимо с Mistral-7B-v0.3 (63%) и Llama 3 8B (66%). Она также сравнялась со средней производительностью Llama 3 8B по 53 задачам понимания естественного языка, требуя при этом только 1/6 вычислительных ресурсов.
По сравнению с другими моделями аналогичного размера, оценка MMLU модели DCLM-7B превзошла Mistral-7B и приблизилась к Llama 3 8B.
Чтобы проверить эффективность нового набора данных, специалист из индустрии обучил GPT-2 1.5B с использованием llm.c для сравнения DCLM-Baseline с FineWeb-Edu. Результаты показали, что DCLM-Baseline достиг более высоких средних оценок, показав лучшие результаты в таких задачах, как ARC, HellaSwag и MMLU.
Тенденция к меньшим моделям набирает обороты:
- HuggingFace запустила семейство малых моделей "SmolLM" (135M, 360M, 1.7B)
- OpenAI выпустила GPT-4o mini, приближающуюся к возможностям GPT-4 при меньших затратах
- Mistral AI и NVIDIA выпустили модель Mistral NeMo с 12 миллиардами параметров
Переход к меньшим моделям обусловлен их способностью достигать сопоставимой производительности с более крупными моделями при значительном снижении затрат. Как продемонстрировал основатель smol AI, модели вроде GPT-4o mini предлагают более низкую общую стоимость по сравнению с более крупными альтернативами.