OpenAI löst heftigen Wettbewerb um kleine Modelle aus, Apples DCLM taucht unerwartet auf und übertrifft Mistral 7B in allen Bereichen bei vollständiger Open-Source-Verfügbarkeit

Der Wettbewerb um kleine KI-Modelle wird immer intensiver. Große Technologieunternehmen und Start-ups investieren gleichermaßen in diesen Bereich und beeilen sich, ihre eigenen leichtgewichtigen KI-Lösungen auf den Markt zu bringen. Dieser heftige Wettstreit dreht sich nicht nur um technologische Innovationen, sondern auch um Marktanteile und kommerzielle Anwendungen. Mit der Verschärfung des Wettbewerbs werden wir wahrscheinlich die Einführung von mehr effizienten und kostengünstigen KI-Produkten erleben, die neue Möglichkeiten für verschiedene Branchen eröffnen.

Die Ära der kleinen Modelle ist angebrochen, wobei große Akteure wie OpenAI, Mistral AI, HuggingFace und jetzt auch Apple kompakte Sprachmodelle veröffentlichen.

Apple ist mit seiner neuen DCLM-Serie (Data-Centric Language Model) in den Bereich der kleinen Modelle eingestiegen, die Versionen mit 7 Milliarden und 1,4 Milliarden Parametern umfasst. Das 7B-Modell übertrifft Mistral-7B und nähert sich den Fähigkeiten von Llama 3 und Gemma an.

Laut Apple ML-Forscher Vaishaal Shankar ist DCLM das bisher leistungsfähigste "wirklich Open-Source"-Modell, bei dem Gewichte, Trainingscode und ein offener Datensatz öffentlich verfügbar sind. Dieser vollständig offene Ansatz hat in der KI-Gemeinschaft Lob geerntet.

Das DCLM-7B-Modell verwendet eine Decoder-Only-Architektur und wurde mit 2,5 Billionen Tokens trainiert, die aus einem 4 Billionen Token-Datensatz gefiltert wurden. Es hat eine Kontextlänge von 2048 Tokens. Leistungsbewertungen zeigen, dass es andere Open-Data-Modelle ähnlicher Größe in mehreren Benchmarks übertrifft.

Während die Leistung von DCLM-7B mit Modellen wie Mistral-7B und Gemma 8B vergleichbar ist, bleibt es hinter einigen Closed-Data-Modellen wie Phi-3 zurück. Forscher stellten jedoch weitere Verbesserungen fest, wenn Trainingsdaten und Kontextlänge erweitert wurden.

Die 1,4B-Version von DCLM zeigt für ihre Größe besonders starke Ergebnisse und übertrifft Modelle wie SmolLM, Qwen-1,5B und Phi-1,5B in einigen Metriken.

Die DCLM-Modelle basieren auf dem DataComp-Benchmark, der sich auf die Kuratierung hochwertiger Trainingsdaten konzentriert, anstatt nur die Modellgröße zu skalieren. Dies entspricht der wachsenden Betonung, die viele Tech-Giganten auf Trainingsdaten statt auf Modellarchitektur legen.

Während große Sprachmodelle weiterhin Fortschritte machen, wächst das Interesse an kleineren, effizienteren Modellen von großen KI-Laboren. Apples Einstieg in diesen Bereich mit vollständig quelloffenen Modellen könnte dazu beitragen, den Fortschritt bei kompakten, aber leistungsfähigen Sprachmodellen zu beschleunigen.