Эра малых моделей наступила, и крупные игроки, такие как OpenAI, Mistral AI, HuggingFace, а теперь и Apple, выпускают компактные языковые модели.
Apple вошла в сферу малых моделей со своей новой серией DCLM (Data-Centric Language Model), которая включает версии с 7 миллиардами и 1,4 миллиардами параметров. Модель 7B превосходит Mistral-7B и приближается по возможностям к Llama 3 и Gemma.
По словам исследователя машинного обучения Apple Вайшаала Шанкара, DCLM является лучшей на сегодняшний день "действительно открытой" моделью, с публично доступными весами, кодом обучения и открытым набором данных. Этот полностью открытый подход получил высокую оценку AI-сообщества.
Модель DCLM-7B использует архитектуру только с декодером и была обучена на 2,5T токенов, отфильтрованных из набора данных в 4T токенов. Она имеет длину контекста 2048 токенов. Оценки производительности показывают, что она превосходит другие модели с открытыми данными аналогичного размера по нескольким критериям.
Хотя производительность DCLM-7B сопоставима с такими моделями, как Mistral-7B и Gemma 8B, она отстает от некоторых моделей с закрытыми данными, таких как Phi-3. Однако исследователи обнаружили дальнейшие улучшения при расширении обучающих данных и длины контекста.
Версия DCLM-1.4B показывает особенно сильные результаты для своего размера, превосходя такие модели, как SmolLM, Qwen-1.5B и Phi-1.5B по некоторым показателям.
Модели DCLM построены на основе эталона DataComp, который фокусируется на курировании высококачественных обучающих данных, а не просто на увеличении размера модели. Это соответствует растущему акценту многих технологических гигантов на обучающих данных, а не на архитектуре модели.
В то время как большие языковые модели продолжают развиваться, растет интерес к меньшим, более эффективным моделям со стороны крупных AI-лабораторий. Вход Apple в эту сферу с полностью открытыми моделями может помочь ускорить прогресс в создании компактных, но мощных языковых моделей.