Die Ära der kleinen Modelle ist angebrochen, wobei große Akteure wie OpenAI, Mistral AI, HuggingFace und jetzt auch Apple kompakte Sprachmodelle veröffentlichen.
Apple ist mit seiner neuen DCLM-Serie (Data-Centric Language Model) in den Bereich der kleinen Modelle eingestiegen, die Versionen mit 7 Milliarden und 1,4 Milliarden Parametern umfasst. Das 7B-Modell übertrifft Mistral-7B und nähert sich den Fähigkeiten von Llama 3 und Gemma an.
Laut Apple ML-Forscher Vaishaal Shankar ist DCLM das bisher leistungsfähigste "wirklich Open-Source"-Modell, bei dem Gewichte, Trainingscode und ein offener Datensatz öffentlich verfügbar sind. Dieser vollständig offene Ansatz hat in der KI-Gemeinschaft Lob geerntet.
Das DCLM-7B-Modell verwendet eine Decoder-Only-Architektur und wurde mit 2,5 Billionen Tokens trainiert, die aus einem 4 Billionen Token-Datensatz gefiltert wurden. Es hat eine Kontextlänge von 2048 Tokens. Leistungsbewertungen zeigen, dass es andere Open-Data-Modelle ähnlicher Größe in mehreren Benchmarks übertrifft.
Während die Leistung von DCLM-7B mit Modellen wie Mistral-7B und Gemma 8B vergleichbar ist, bleibt es hinter einigen Closed-Data-Modellen wie Phi-3 zurück. Forscher stellten jedoch weitere Verbesserungen fest, wenn Trainingsdaten und Kontextlänge erweitert wurden.
Die 1,4B-Version von DCLM zeigt für ihre Größe besonders starke Ergebnisse und übertrifft Modelle wie SmolLM, Qwen-1,5B und Phi-1,5B in einigen Metriken.
Die DCLM-Modelle basieren auf dem DataComp-Benchmark, der sich auf die Kuratierung hochwertiger Trainingsdaten konzentriert, anstatt nur die Modellgröße zu skalieren. Dies entspricht der wachsenden Betonung, die viele Tech-Giganten auf Trainingsdaten statt auf Modellarchitektur legen.
Während große Sprachmodelle weiterhin Fortschritte machen, wächst das Interesse an kleineren, effizienteren Modellen von großen KI-Laboren. Apples Einstieg in diesen Bereich mit vollständig quelloffenen Modellen könnte dazu beitragen, den Fortschritt bei kompakten, aber leistungsfähigen Sprachmodellen zu beschleunigen.