Nicht die großen Modelle sind unerschwinglich, sondern die kleinen Modelle haben ein besseres Preis-Leistungs-Verhältnis
In der weiten Welt der KI haben kleine Modelle immer ihre eigene Legende.
Nach außen hin wurde das letztes Jahr überraschend erfolgreiche Mistral 7B direkt nach seiner Veröffentlichung als "bestes 7B-Modell" gefeiert. Es übertraf in mehreren Bewertungsmaßstäben das 13B-Parameter-Modell Llama 2 und überflügelte Llama 34B in Bereichen wie Inferenz, Mathematik und Codegenerierung.
Dieses Jahr hat Microsoft auch das stärkste kleine Sprachmodell phi-3-mini als Open Source veröffentlicht. Obwohl es nur 3,8 Milliarden Parameter hat, übertrifft es in Leistungstests bei weitem Modelle mit vergleichbarer Parameterzahl und kann sich mit größeren Modellen wie GPT-3.5 und Claude-3 Sonnet messen.
Nach innen blickend hat Mianbi Intelligence Anfang Februar das Sprachmodell Mianbi MiniCPM für Endgeräte mit nur 2 Milliarden Parametern eingeführt, das mit kleinerer Größe stärkere Leistung erzielt und das beliebte französische Großmodell Mistral-7B übertrifft. Es wird als "kleine Kanone" bezeichnet.
Vor kurzem übertraf MiniCPM-Llama3-V2.5 mit nur 8 Milliarden Parametern größere Modelle wie GPT-4V und Gemini Pro in multimodaler Gesamtleistung und OCR-Fähigkeiten, was auch zu Plagiatsvorwürfen durch das KI-Team der Stanford University führte.
Bis letzte Woche OpenAI mitten in der Nacht GPT-4o mini vorstellte, das als "leistungsstärkstes und kosteneffizientestes kleines Parametermodell" beschrieben wird und die Aufmerksamkeit wieder auf kleine Modelle lenkte.
Seit OpenAI die ganze Welt in die Vorstellung der generativen KI gezogen hat, dreht sich die Entwicklung im In- und Ausland immer um eine Logik - durch Kommerzialisierung am Tisch zu bleiben. Von der Erweiterung des Kontexts über die Erhöhung der Parameter und intelligente Agenten bis hin zum heutigen Preiskrieg.
Daher ist in der öffentlichen Meinung am auffälligsten, dass das preisreduzierte OpenAI anscheinend auch in den Preiskrieg einsteigen will.
Viele haben möglicherweise keine klare Vorstellung vom Preis von GPT-4o mini. GPT-4o mini kostet 15 Cent pro 100.000 Input-Token und 60 Cent pro 100.000 Output-Token, was über 60% günstiger ist als GPT-3.5 Turbo.
Das bedeutet, dass die Generierung eines 2500-seitigen Buches mit GPT-4o mini nur 60 Cent kostet.
OpenAI-CEO Sam Altman kommentierte auf X, dass das stärkste Modell vor zwei Jahren im Vergleich zu GPT-4o mini nicht nur einen enormen Leistungsunterschied aufweist, sondern auch 100-mal so teuer in der Nutzung war.
Während der Preiskrieg bei großen Modellen immer intensiver wird, ziehen einige effiziente und wirtschaftliche Open-Source-Kleinmodelle mehr Aufmerksamkeit auf sich. Schließlich sind es nicht die großen Modelle, die unerschwinglich sind, sondern die kleinen Modelle, die ein besseres Preis-Leistungs-Verhältnis haben.
Einerseits können Open-Source-Kleinmodelle mit niedrigeren Trainings- und Bereitstellungskosten allmählich die Oberhand gewinnen, da GPUs weltweit aufgekauft werden und knapp sind.
Zum Beispiel kann das von Mianbi Intelligence eingeführte MiniCPM aufgrund seiner geringen Parameterzahl die Inferenzkosten drastisch senken und sogar CPU-Inferenz ermöglichen. Es benötigt nur eine Maschine für kontinuierliches Parametertraining und eine Grafikkarte für Feinabstimmung, mit Raum für kontinuierliche Verbesserungen der Kosten.
Als erfahrener Entwickler könnten Sie sogar ein vertikales Modell für den Rechtsbereich trainieren, indem Sie Ihr eigenes kleines Modell aufbauen. Die Inferenzkosten könnten nur ein Tausendstel dessen betragen, was die Feinabstimmung eines großen Modells kosten würde.
Die Anwendung einiger "kleiner Modelle" auf Endgeräten lässt viele Hersteller den Anbruch der Rentabilität sehen. Zum Beispiel hat Mianbi Intelligence dem Mittleren Volksgericht von Shenzhen geholfen, ein KI-gestütztes Gerichtsunterstützungssystem einzuführen und damit den Wert der Technologie für den Markt bewiesen.
Genauer gesagt werden wir beginnen, eine Veränderung nicht von großen zu kleinen Modellen zu sehen, sondern von einzelnen Modellkategorien zu einer Kombination von Modellen. Die Wahl des geeigneten Modells hängt von den spezifischen Anforderungen der Organisation, der Komplexität der Aufgabe und den verfügbaren Ressourcen ab.
Andererseits sind kleine Modelle einfacher auf mobilen Geräten, eingebetteten Systemen oder in Umgebungen mit geringem Stromverbrauch zu implementieren und zu integrieren.
Kleine Modelle haben relativ wenige Parameter und benötigen im Vergleich zu großen Modellen weniger Rechenressourcen (wie KI-Rechenleistung, Speicher usw.), sodass sie auf ressourcenbeschränkten Endgeräten flüssiger laufen können. Außerdem haben Endgeräte in der Regel extremere Anforderungen an Energieverbrauch und Wärmeentwicklung, und speziell entwickelte kleine Modelle können die Einschränkungen von Endgeräten besser berücksichtigen.
Honor-CEO Zhao Ming sagte einmal, dass Endgeräte aufgrund von KI-Rechenleistungsproblemen möglicherweise Parameter zwischen 1 und 10 Milliarden haben, während die Cloud-Computing-Fähigkeit von Netzwerk-Großmodellen 10-100 Milliarden oder sogar höher erreichen kann. Diese Fähigkeit ist der Unterschied zwischen den beiden.
Ein Smartphone befindet sich in einem sehr begrenzten Raum, richtig? Es unterstützt 7 Milliarden unter begrenzter Batterie, begrenzter Wärmeableitung und begrenztem Speicher. Stellen Sie sich all diese Einschränkungen vor, es muss das Schwierigste sein.
Wir haben auch die Hintermänner enthüllt, die für den Betrieb von Apples KI verantwortlich sind. Darunter befindet sich ein feinabgestimmtes 3-Milliarden-Kleinmodell, das speziell für Aufgaben wie Zusammenfassung und Verfeinerung verwendet wird. Mit der Unterstützung von Adaptern übertrifft es Gemma-7B und eignet sich für den Betrieb auf Smartphones.
Daher sehen wir, dass der ehemalige OpenAI-Experte Andrej Karpathy kürzlich eine Einschätzung abgegeben hat: Der Wettbewerb um die Modellgröße wird sich "umkehren", nicht immer größer werden, sondern darum wetteifern, wer kleiner und flexibler ist.
Wie können kleine Modelle mit ihrer Kleinheit gewinnen?
Andrej Karpathys Vorhersage ist nicht aus der Luft gegriffen.
In diesem datenzentrischen Zeitalter werden Modelle schnell größer und komplexer. Die meisten der durch massive Datenmengen trainierten Supergroßmodelle (wie GPT-4) werden tatsächlich verwendet, um sich eine Menge unwichtiger Details zu merken, also um Informationen auswendig zu lernen.
Feinabgestimmte Modelle können jedoch bei bestimmten Aufgaben sogar "mit ihrer Kleinheit gewinnen" und in ihrer Nützlichkeit mit vielen "Supergroßmodellen" mithalten.
Hugging Face CEO Clem Delangue hat auch empfohlen, dass bis zu 99% der Anwendungsfälle durch die Verwendung kleiner Modelle gelöst werden können, und prognostiziert, dass 2024 das Jahr der kleinen Sprachmodelle sein wird.
Bevor wir die Gründe dafür untersuchen, müssen wir einige Kenntnisse vermitteln.
2020 stellte OpenAI in einem Papier ein berühmtes Gesetz vor: das Scaling Law, das besagt, dass mit zunehmender Modellgröße auch die Leistung zunimmt. Mit der Einführung von Modellen wie GPT-4 zeigten sich die Vorteile des Scaling Law allmählich.
KI-Forscher und -Ingenieure sind davon überzeugt, dass durch die Erhöhung der Parameteranzahl des Modells dessen Lern- und Generalisierungsfähigkeit weiter verbessert werden kann. So haben wir miterlebt, wie die Modellgröße von Dutzenden Milliarden Parametern auf Hunderte Milliarden anstieg und sogar in Richtung Billionen-Parameter-Modelle kletterte.
In der Welt der KI ist die Größe des Modells nicht der einzige Maßstab für seine Intelligenz.
Im Gegenteil, ein sorgfältig konzipiertes kleines Modell kann durch optimierte Algorithmen, verbesserte Datenqualität und fortschrittliche Kompressionstechniken oft eine Leistung zeigen, die mit großen Modellen vergleichbar oder sogar besser ist bei bestimmten Aufgaben.
Diese Strategie, mit Kleinheit zu gewinnen, wird zu einem neuen Trend in der KI-Branche. Eine Methode für kleine Modelle, mit ihrer Kleinheit zu gewinnen, ist die Verbesserung der Datenqualität.
Satish Jayanthi, CTO und Mitbegründer von Coalesce, beschrieb die Wirkung von Daten auf Modelle so:
Wenn es im 17. Jahrhundert LLMs gegeben hätte und wir ChatGPT gefragt hätten, ob die Erde rund oder flach ist, hätte es geantwortet, die Erde sei flach, weil die von uns bereitgestellten Daten es glauben ließen, dies sei eine Tatsache. Die Daten, die wir LLMs zur Verfügung stellen, und die Art und Weise, wie wir sie trainieren, werden ihre Ausgabe direkt beeinflussen.
Um qualitativ hochwertige Ergebnisse zu produzieren, müssen große Sprachmodelle mit hochwertigen, zielgerichteten Daten für bestimmte Themen und Bereiche trainiert werden. Genauso wie Schüler hochwertige Lehrbücher zum Lernen benötigen, brauchen auch LLMs hochwertige Datenquellen.