"Größer und stärker machen", aber auch intensiv "kleiner und feiner machen".
Die Überwindung von GPT-4 ist nicht mehr die einzige KPI. Große Modelle treten in eine entscheidende Phase des Wettbewerbs um den Markt ein. Um Nutzer zu beeindrucken, reicht es nicht aus, nur mit technischer Stärke zu prahlen. Es muss auch bewiesen werden, dass das eigene Modell ein besseres Preis-Leistungs-Verhältnis bietet - ### kleinere Modelle bei gleicher Leistung, höhere Leistung und Kosteneffizienz bei gleicher Parameterzahl.
Tatsächlich begann dieser Trend zur "Verkleinerung großer Modelle" bereits in der zweiten Hälfte des letzten Jahres.
Die Spielregeln wurden von zwei Unternehmen geändert. Eines ist das französische KI-Startup Mistral AI, das im September letzten Jahres mit einem 7-Milliarden-Parameter-Modell das 13-Milliarden-Parameter-Modell Llama 2 überraschend schlug und in der Entwicklergemeinschaft berühmt wurde. Das andere ist das chinesische KI-Startup Walled Intelligence, das im Februar dieses Jahres das noch kompaktere Edge-Modell MiniCPM vorstellte, das mit nur 2,4 Milliarden Parametern die Leistung von Llama 2 13B übertraf.
Beide Startups genießen einen guten Ruf in der Entwicklergemeinschaft, und mehrere ihrer Modelle stehen an der Spitze der Open-Source-Ranglisten. Insbesondere Walled Intelligence, das aus dem Natural Language Processing Labor der Tsinghua Universität hervorgegangen ist, sorgte dieses Jahr für Aufsehen, als sein multimodales Modell von einem Top-Universitätsteam in den USA "geklont" wurde. Die Originalität der Arbeit von Walled Intelligence wurde in akademischen Kreisen im In- und Ausland anerkannt und verhalf chinesischen Open-Source-KI-Modellen zu Ansehen.
Apple begann letztes Jahr ebenfalls mit der Erforschung von Edge-Modellen, die besser für Smartphones geeignet sind. OpenAI, das bisher einen extensiven Expansionskurs verfolgte, ist ein relativ unerwarteter Neueinsteiger. Mit der Einführung des Leichtgewichtsmodells GPT-4 mini letzte Woche signalisiert der Marktführer für große Modelle, dass er von seinem "Thron" herabsteigt, dem Branchentrend folgt und versucht, mit kostengünstigeren und leichter zugänglichen Modellen einen breiteren Markt zu erschließen.
2024 wird ein entscheidendes Jahr für die "Miniaturisierung" großer Modelle sein!
I. Das "Moore'sche Gesetz" im Zeitalter der großen Modelle: Effizienz ist der Schlüssel zur Nachhaltigkeit
Die aktuelle Entwicklung großer Modelle steckt in einer Trägheit fest: ### Große Kraft bringt Wunder hervor.
2020 bestätigte ein Artikel von OpenAI eine starke Korrelation zwischen Modellleistung und Größe. Einfach mehr hochwertige Daten zu verarbeiten und größere Modelle zu trainieren, führte zu höherer Leistung.
Diesem einfachen, aber effektiven Pfad folgend, entfachte in den letzten zwei Jahren ein rasanter Wettlauf um immer größere Modelle weltweit. Dies legte den Grundstein für eine algorithmische Hegemonie, bei der nur Teams mit ausreichend Kapital und Rechenleistung langfristig am Wettbewerb teilnehmen können.
Letztes Jahr enthüllte OpenAI-CEO Sam Altman, dass die Trainingskosten für GPT-4 mindestens ### 100 Millionen Dollar betrugen. Ohne ein hochprofitables Geschäftsmodell können selbst finanzstarke Technologieunternehmen kaum langfristig solche kostspieligen Investitionen tragen. Das Ökosystem kann ein solches Spiel mit unbegrenzten Ausgaben nicht tolerieren.
Die Leistungsunterschiede zwischen den Top-Sprachmodellen verringern sich sichtbar. GPT-4 bleibt zwar an der Spitze, aber der Abstand in den Benchmark-Scores zu Claude 3 Opus und Gemini 1.5 Pro ist nicht unüberwindbar. In einigen Fähigkeiten können Modelle mit Milliarden von Parametern sogar bessere Leistungen erzielen. Die Modellgröße ist nicht mehr der einzige entscheidende Faktor für die Leistung.
Es ist nicht so, dass Spitzenmodelle nicht attraktiv wären, aber leichtgewichtige Modelle bieten ein besseres Preis-Leistungs-Verhältnis.
Die folgende Abbildung ist ein Trend-Diagramm der KI-Inferenzkosten, das die KI-Ingenieurin Karina Ngugen Ende März dieses Jahres in sozialen Medien geteilt hat. Es zeigt deutlich die Beziehung zwischen der Leistung von großen Sprachmodellen auf dem MMLU-Benchmark und ihren Kosten seit 2022: Im Laufe der Zeit erreichen Sprachmodelle höhere MMLU-Genauigkeitswerte, während die damit verbundenen Kosten drastisch sinken. Neue Modelle erreichen eine Genauigkeit von etwa 80%, während die Kosten um mehrere Größenordnungen niedriger sind als vor einigen Jahren.
Die Welt verändert sich sehr schnell, und in den letzten Monaten wurde eine Welle neuer, wirtschaftlich effizienter Leichtgewichtsmodelle eingeführt.
"Der Wettbewerb um die Größe von großen Sprachmodellen verschärft sich - rückwärts!" wettet KI-Experte Andrej Karpathy. "Wir werden sehr, sehr kleine Modelle sehen, die sehr gut und zuverlässig 'denken'."
Modellfähigkeit ÷ Anzahl der Modellparameter = Wissensdichte, diese Dimension kann verwendet werden, um darzustellen, wie stark die Intelligenz bei gleicher Parametergröße sein kann. Das im Juni 2020 veröffentlichte GPT-3-Großmodell hatte 175 Milliarden Parameter. Im Februar dieses Jahres erreichte das MiniCPM-2.4B-Modell von Walled Intelligence mit nur 2,4 Milliarden Parametern die gleiche Leistung, was einer Steigerung der Wissensdichte um etwa ### 86-fach entspricht.
Basierend auf diesen Trends hat Liu Zhiyuan, außerordentlicher Professor an der Abteilung für Informatik der Tsinghua Universität und Chief Scientist bei Walled Intelligence, kürzlich eine interessante Theorie aufgestellt: ### Das Zeitalter der großen Modelle hat sein eigenes "Moore'sches Gesetz".
Konkret bedeutet dies, ### dass mit der koordinierten Entwicklung von Daten, Rechenleistung und Algorithmen die Wissensdichte großer Modelle kontinuierlich zunimmt und sich durchschnittlich alle 8 Monate verdoppelt.
Durch die Erhöhung der Schaltkreisdichte auf Chips entwickelten sich Rechengeräte mit gleicher Leistung von Supercomputern, die mehrere Räume füllten, zu Smartphones, die in die Tasche passen. Die Entwicklung großer Modelle wird einem ähnlichen Muster folgen. Liu Zhiyuan nannte dieses Leitprinzip das "Walled Law".
Wenn dieser Trend anhält, ### wird ein Modell mit 500 Milliarden Parametern in 8 Monaten die Fähigkeiten eines heutigen Modells mit 1 Billion Parametern erreichen, und nach weiteren 8 Monaten wird ein Modell mit 250 Milliarden Parametern dasselbe leisten können.
II. Geteilte Wege: Preiskampf bei geschlossenen Quellen in vollem Gange, Open Source in China, USA und Europa im Dreikampf
Derzeit teilen sich die Akteure im Wettbewerb um leichtgewichtige große Modelle in verschiedene Lager.
OpenAI, Google und Anthropic verfolgen einen Closed-Source-Ansatz. Ihre Flaggschiffmodelle GPT-4, Claude 3.5 Sonnet und Gemini 1.5 Pro kontrollieren die Spitzenleistungsklasse mit Parameterzahlen im Hunderte-Milliarden- bis Billionen-Bereich.
Leichtgewichtige Modelle sind vereinfachte Versionen ihrer Flaggschiffmodelle. Nach der Neueinführung von OpenAI letzte Woche wurde GPT-4 mini mit seiner Leistung, die Gemini Flash und Claude Haiku übertrifft, zur kostengünstigsten Option unter 10 Milliarden Parametern auf dem Markt. Es ersetzt GPT-3.5 für kostenlose Nutzung durch Endverbraucher und senkt die API-Preise für Unternehmen drastisch, wodurch die Einstiegshürde für die Nutzung großer Modelle gesenkt wird.
Andriy Burkov, Autor von "Machine Learning Engineering", schätzt anhand der Preise, dass GPT-4 mini etwa 7 Milliarden Parameter hat. Li Dahai, CEO von Walled Intelligence, vermutet, dass GPT-4 mini ein "breites MoE"-Modell mit vielen Experten ist und kein Edge-Modell, sondern als kostengünstiges Cloud-Modell positioniert ist, um die Industriekosten für den Einsatz großer Modelle erheblich zu senken.