Apple ha entrado en el ámbito de los modelos de lenguaje grande de código abierto con un enfoque más abierto que otras empresas. Lanzaron un modelo de 7B parámetros que funciona de manera comparable a Llama 3 8B, mientras que hacen de código abierto todo el proceso de entrenamiento y los recursos.
Este movimiento se produce después de las recientes críticas de Elizabeth Gibney, editora de Nature, de que muchos modelos de IA supuestamente de código abierto carecen de transparencia en los datos y métodos de entrenamiento, no cumpliendo con las verdaderas necesidades de la investigación científica. El lanzamiento de Apple aborda estas preocupaciones de frente.
Un científico de NLP y creador de AutoAWQ expresó asombro, señalando que Apple no solo lanzó un modelo que supera a Mistral 7B, sino que también hizo de código abierto todo, incluyendo el conjunto de datos de pre-entrenamiento.
La importancia de este lanzamiento de código abierto fue destacada por un miembro de la comunidad:
Para cualquiera que busque entrenar modelos desde cero o ajustar los existentes, el proceso de gestión de datos es esencial para estudiar.
Además del lanzamiento de Apple, Mistral AI se asoció con NVIDIA para lanzar un modelo pequeño de 12B parámetros la semana pasada. El fundador de HuggingFace lo declaró "la semana del modelo pequeño".
El nuevo modelo pequeño de Apple muestra capacidades impresionantes:
- Modelo base de 7B entrenado en conjuntos de datos abiertos usando 2.5T tokens
- Datos principalmente en inglés con ventana de contexto de 2048 tokens
- Los conjuntos de datos incluyen DCLM-BASELINE, StarCoder y ProofPile2
- Puntuación MMLU cercana a Llama 3 8B
- Entrenado usando frameworks PyTorch y OpenLM
El equipo de investigación introdujo un nuevo punto de referencia de comparación de datos de modelos de lenguaje llamado DCLM. Descubrieron que filtrar y seleccionar automáticamente datos de alta calidad de conjuntos de datos más grandes usando modelos de aprendizaje automático puede ser clave para construir conjuntos de entrenamiento de alta calidad.
Usando DCLM, diseñaron un conjunto de datos de alta calidad DCLM-BASELINE para entrenar el modelo DCLM-7B de 7B parámetros desde cero.
DCLM-7B logró una precisión del 64% en 5 intentos en el punto de referencia MMLU, comparable a Mistral-7B-v0.3 (63%) y Llama 3 8B (66%). También igualó el rendimiento promedio de Llama 3 8B en 53 tareas de comprensión del lenguaje natural mientras requería solo 1/6 del cómputo.
Comparado con otros modelos de tamaño similar, la puntuación MMLU de DCLM-7B superó a Mistral-7B y se acercó a Llama 3 8B.
Para probar la efectividad del nuevo conjunto de datos, un profesional de la industria entrenó GPT-2 1.5B usando llm.c para comparar DCLM-Baseline con FineWeb-Edu. Los resultados mostraron que DCLM-Baseline logró puntuaciones promedio más altas, funcionando mejor en tareas como ARC, HellaSwag y MMLU.
La tendencia hacia modelos más pequeños ha ido ganando impulso:
- HuggingFace lanzó la familia de modelos pequeños "SmolLM" (135M, 360M, 1.7B)
- OpenAI lanzó GPT-4o mini, acercándose a las capacidades de GPT-4 a un costo menor
- Mistral AI y NVIDIA lanzaron el modelo Mistral NeMo de 12B parámetros
El cambio hacia modelos más pequeños está impulsado por su capacidad para lograr un rendimiento comparable a los modelos más grandes mientras reducen significativamente los costos. Como lo demostró el fundador de smol AI, modelos como GPT-4o mini ofrecen precios generales más bajos en comparación con alternativas más grandes.