Apple ist in den Bereich der Open-Source-Sprachmodelle mit einem offeneren Ansatz als andere Unternehmen eingetreten. Sie veröffentlichten ein Modell mit 7 Milliarden Parametern, das vergleichbar mit Llama 3 8B ist, und machten den gesamten Trainingsprozess und die Ressourcen öffentlich zugänglich.
Dieser Schritt erfolgt nach kürzlicher Kritik von Nature-Redakteurin Elizabeth Gibney, dass vielen angeblich quelloffenen KI-Modellen die Transparenz bei Daten und Trainingsmethoden fehle und sie den wahren Bedürfnissen der wissenschaftlichen Forschung nicht gerecht würden. Apples Veröffentlichung geht diese Bedenken direkt an.
Ein NLP-Wissenschaftler und AutoAWQ-Entwickler äußerte sich erstaunt und merkte an, dass Apple nicht nur ein Modell veröffentlicht hat, das Mistral 7B übertrifft, sondern auch alles einschließlich des Vortrainingsdatensatzes quelloffen gemacht hat.
Die Bedeutung dieser Open-Source-Veröffentlichung wurde von einem Community-Mitglied hervorgehoben:
Für jeden, der Modelle von Grund auf trainieren oder bestehende feinabstimmen möchte, ist der Datenmanagementprozess essenziell zu studieren.
Zusätzlich zu Apples Veröffentlichung hat Mistral AI in Partnerschaft mit NVIDIA letzte Woche ein kleines Modell mit 12 Milliarden Parametern auf den Markt gebracht. Der HuggingFace-Gründer erklärte es zur "Woche der kleinen Modelle".
Apples neues kleines Modell zeigt beeindruckende Fähigkeiten:
- 7B-Basismodell, trainiert auf offenen Datensätzen mit 2,5 Billionen Tokens
- Hauptsächlich englische Daten mit 2048 Token Kontextfenster
- Datensätze umfassen DCLM-BASELINE, StarCoder und ProofPile2
- MMLU-Ergebnis nähert sich Llama 3 8B an
- Trainiert mit PyTorch und OpenLM Frameworks
Das Forschungsteam führte einen neuen Sprachmodell-Datenvergleichsmaßstab namens DCLM ein. Sie fanden heraus, dass die automatische Filterung und Auswahl hochwertiger Daten aus größeren Datensätzen mithilfe von maschinellen Lernmodellen der Schlüssel zum Aufbau hochwertiger Trainingssets sein könnte.
Mit DCLM entwickelten sie einen hochwertigen Datensatz DCLM-BASELINE, um das 7B-Parameter-DCLM-7B-Modell von Grund auf zu trainieren.
DCLM-7B erreichte 64% 5-Shot-Genauigkeit im MMLU-Benchmark, vergleichbar mit Mistral-7B-v0.3 (63%) und Llama 3 8B (66%). Es erreichte auch die durchschnittliche Leistung von Llama 3 8B über 53 Aufgaben zum Verständnis natürlicher Sprache, benötigte dabei aber nur 1/6 der Rechenleistung.
Im Vergleich zu anderen Modellen ähnlicher Größe übertraf der MMLU-Score von DCLM-7B Mistral-7B und näherte sich Llama 3 8B an.
Um die Effektivität des neuen Datensatzes zu testen, trainierte ein Branchenexperte GPT-2 1.5B mit llm.c, um DCLM-Baseline mit FineWeb-Edu zu vergleichen. Die Ergebnisse zeigten, dass DCLM-Baseline höhere Durchschnittswerte erzielte und bei Aufgaben wie ARC, HellaSwag und MMLU besser abschnitt.
Der Trend zu kleineren Modellen gewinnt an Dynamik:
- HuggingFace lancierte die "SmolLM"-Familie kleiner Modelle (135M, 360M, 1,7B)
- OpenAI veröffentlichte GPT-4o mini, das sich den Fähigkeiten von GPT-4 zu geringeren Kosten annähert
- Mistral AI und NVIDIA veröffentlichten das 12B-Parameter-Modell Mistral NeMo
Die Verlagerung zu kleineren Modellen wird durch ihre Fähigkeit vorangetrieben, vergleichbare Leistungen wie größere Modelle zu erzielen und dabei die Kosten erheblich zu reduzieren. Wie der Gründer von smol AI demonstrierte, bieten Modelle wie GPT-4o mini im Vergleich zu größeren Alternativen insgesamt niedrigere Preise.