La era de los modelos pequeños ha llegado, con actores principales como OpenAI, Mistral AI, HuggingFace y ahora Apple lanzando modelos de lenguaje compactos.
Apple ha entrado en la arena de los modelos pequeños con su nueva serie DCLM (Modelo de Lenguaje Centrado en Datos), que incluye versiones de 7 mil millones y 1.4 mil millones de parámetros. El modelo de 7B supera a Mistral-7B y se acerca a las capacidades de Llama 3 y Gemma.
Según el investigador de ML de Apple, Vaishaal Shankar, DCLM es el modelo de "código abierto verdadero" con mejor rendimiento hasta la fecha, con pesos, código de entrenamiento y un conjunto de datos abierto disponibles públicamente. Este enfoque completamente abierto ha recibido elogios de la comunidad de IA.
El modelo DCLM-7B utiliza una arquitectura solo de decodificador y fue entrenado con 2.5T tokens filtrados de un conjunto de datos de 4T tokens. Tiene una longitud de contexto de 2048 tokens. Las evaluaciones de rendimiento muestran que supera a otros modelos de datos abiertos de tamaño similar en múltiples puntos de referencia.
Aunque el rendimiento de DCLM-7B es comparable al de modelos como Mistral-7B y Gemma 8B, se queda atrás de algunos modelos de datos cerrados como Phi-3. Sin embargo, los investigadores encontraron mejoras adicionales al extender los datos de entrenamiento y la longitud del contexto.
La versión de 1.4B de DCLM muestra resultados particularmente sólidos para su tamaño, superando a modelos como SmolLM, Qwen-1.5B y Phi-1.5B en algunas métricas.
Los modelos DCLM se basan en el punto de referencia DataComp, que se centra en curar datos de entrenamiento de alta calidad en lugar de simplemente aumentar el tamaño del modelo. Esto se alinea con el creciente énfasis que muchos gigantes tecnológicos están poniendo en los datos de entrenamiento sobre la arquitectura del modelo.
Mientras los modelos de lenguaje grandes continúan avanzando, hay un creciente interés en modelos más pequeños y eficientes por parte de los principales laboratorios de IA. La entrada de Apple en este espacio con modelos de código abierto completo podría ayudar a acelerar el progreso en modelos de lenguaje compactos pero capaces.