Wenn Gewalt keine Wunder mehr bewirkt, geraten große Modelle in den Fluch der Technologie
Absolute große Parameter sind möglicherweise nicht die einzige Lösung für die Umsetzung großer Modelle. Diese Aussage wird zunehmend zum Konsens in der Branche der großen Modelle.
Der erste Engpass auf dem Weg zu größeren Parametern ist der größte Gewinner dieses Festes - NVIDIA.
Kürzlich zeigte ein Forschungsbericht von Meta: Ihr neuestes Llama 3 405B-Parametermodell erlebte beim Training auf einem Cluster aus 16384 Nvidia H100 GPUs innerhalb von 54 Tagen 419 unerwartete Vorfälle, mit durchschnittlich einem Ausfall alle drei Stunden während des Trainings. Gleichzeitig unterbricht jeder einzelne GPU-Ausfall den gesamten Trainingsprozess und führt zu einem Neustart des Trainings.
Einfach ausgedrückt haben die aktuellen Parametermengen der großen Modelle bereits die Grenzen dessen erreicht, was die Hardware unterstützen kann. Selbst mit unendlich vielen GPUs können die Rechenleistungsprobleme beim Training großer Modelle nicht mehr gelöst werden. Wenn man weiterhin auf dem Weg der Parametererweiterung voranschreitet, wird der Trainingsprozess zu einem endlosen Neuanfang wie Sisyphos, der einen Stein den Berg hinaufrollt.
Die Hardware hat die Schwierigkeit der Expansion großer Modelle erhöht. In spezifischen Szenarien steht der Grad der Intelligenz nicht mehr im direkten Verhältnis zur Parametermenge, was aus praktischer Sicht ein großes Fragezeichen hinter diesen gewaltsamen Genuss setzt.
Die Szenarien für große Modelle werden zunehmend komplexer, spezialisierter und fragmentierter. Es ist fast utopisch zu denken, dass ein einziges Modell sowohl allgemeine Fragen beantworten als auch Probleme in Fachbereichen lösen kann.
Eine beliebte technische Vergleichsdimension bei inländischen Herstellern großer Modelle ist: Mit GPT4 in Gedichtanalyse und dummen Witzen zu konkurrieren. Fast ausnahmslos, unabhängig von der Modellgröße und ob es sich um ein verpacktes Open-Source-Modell handelt, schlagen die inländischen großen Modelle den "Weltbesten". Sogar bei grundlegenden literarischen Wissensfragen wie der Beziehung zwischen Lu Xun und Zhou Shuren schneiden die besten großen Modelle schlechter ab als eine traditionelle Suchmaschine.
Zurück zur praktischen Anwendung gießt das unmögliche Dreieck der Kommerzialisierung den Parametergläubigen einen Eimer kaltes Wasser über den Kopf.
In der praktischen Anwendung müssen Produktmanager neben dem Intelligenzgrad des Modells auch Geschwindigkeit und Kosten berücksichtigen. In der Regel sind eine Antwortzeit von unter einer Sekunde, 99% Genauigkeit und ein kostendeckendes Geschäftsmodell notwendige Bedingungen für das Überleben eines großen Modells.
Aber die Verwendung des Ansatzes großer Parameter zur Steigerung der Intelligenz bedeutet oft auch, dass je höher der Intelligenzgrad, desto langsamer die Antwortgeschwindigkeit des Produkts und desto höher die Kosten, und umgekehrt.
Wenn man die Parameter unbegrenzt expandieren lässt, wird KI unweigerlich zu einem Kapitalkrieg, aber die Kosten der Expansion übersteigen bei weitem jede vergleichbare Phase des geschäftlichen Wettbewerbs in der Geschichte... Für Spieler, die bereits Gas gegeben haben, besteht die einzige Möglichkeit, nicht zu sehr zu verlieren, darin, den Einsatz so weit zu erhöhen, dass die Konkurrenz nicht mithalten kann.
Angesichts der sich abzeichnenden Obergrenze beginnt sich die Branche der Frage zuzuwenden: Wenn es kein Universalmodell gibt und Gewalt keine Wunder bewirkt, wohin soll sich die Branche entwickeln?
Der T-Modell-Moment für große Modelle: CoE oder MoE?
Da die Machbarkeit, dass ein großes Modell gleichzeitig allgemeine und fachspezifische Aufgaben erfüllt, blockiert ist, wird die Arbeitsteilung mehrerer Modelle zur Hauptmelodie der zweiten Phase der Branche.
1913 führte Ford kreativ den Gedanken der Schlachtlinie in die Automobilindustrie ein und entwickelte die erste Fließbandproduktion der Welt. Die Autoproduktion ging von der Handmontage durch Meister in den industriellen Prozess über, die Produktionszeit eines Autos wurde um fast das 60-fache verkürzt, und der Verkaufspreis sank um mehr als die Hälfte. Die Automobilherstellung trat damit in eine neue Ära ein.
Der gleiche T-Modell-Moment ereignet sich auch in der Branche der großen Modelle.
Am typischsten Beispiel der Übersetzung sollte eine gute Übersetzung drei Ebenen erreichen: Treue, Verständlichkeit und Eleganz. In der Welt der großen Modelle können traditionelle Übersetzungsmodelle nur Treue erreichen, während Verständlichkeit und Eleganz von Schreibmodellen erreicht werden müssen.
Aber in Bezug darauf, wie die Arbeitsteilung mehrerer Modelle durchgeführt werden soll, teilt sich die Branche in zwei deutlich unterschiedliche Lager: die vertikale Integration und die horizontale Kooperation.
Der technische Ansatz der vertikalen Integration ist MoE.
MoE (Mixture-of-Experts) bedeutet auf Deutsch Mischung von Experten, bei der mehrere Expertenmodelle für spezifische Bereiche zu einem Supermodell kombiniert werden. Bereits 2022 stellte Google das MoE-Großmodell Switch Transformer vor, das mit 1571B Parametern bei Vortrainingsaufgaben eine höhere Probeneffizienz (genauer und ohne signifikante Erhöhung der Rechenkosten) als das T5-XXL-Modell (11B) zeigte.
Darüber hinaus haben der bekannte amerikanische Hacker George Hotz und der PyTorch-Gründer Soumith Chintala nacheinander erklärt, dass GPT4 auch aus acht MoE-Modellen mit 220B Parametern besteht, die zusammen ein 1760B-Parametermodell bilden, das nicht im strengen Sinne "ein" Billionen-Modell ist.
Dieser 8-in-1-Ansatz führt jedoch dazu, dass das Design und jedes Upgrade von MoE enorme Ressourcen erfordern. Ähnlich wie beim täglichen Bergsteigen ist die Schwierigkeit, den 8848 m hohen Mount Everest zu besteigen, bei weitem nicht die Summe des Kraftaufwands, achtmal den 1108 m hohen Yandang-Berg zu besteigen. Daher können in der Regel nur KI-Technologieführer mit absoluten Vorteilen in allen acht Bereichen daran teilnehmen.
Als MoE zunehmend zu einem Spiel der Oligarchen wurde, trat ein neuer technischer Ansatz in den Vordergrund - CoE der horizontalen Kooperation.
CoE (Collaboration-of-Experts) bedeutet Expertenkooperationsmodell. Einfach ausgedrückt greift ein Eingang gleichzeitig auf mehrere Modelle zu, wobei der Eingang vor der Modellanalyse eine Absichtserkennungsphase hinzufügt und dann die Aufgabe zuweist, um zu entscheiden, welches Modell wirksam wird oder welche Modelle zusammenarbeiten. Im Vergleich zu MoE besteht der größte Vorteil von CoE darin, dass die einzelnen Expertenmodelle miteinander zusammenarbeiten können, aber keine Bindung besteht.
Im Vergleich zu MoE haben die einzelnen Expertenmodelle in CoE mehr Zusammenarbeit, präzisere Arbeitsteilung und sind flexibler und spezialisierter. Dieser Ansatz hat im Vergleich zu MoE eine höhere Effizienz und niedrigere API-Schnittstellen- und Token-Nutzungskosten.
Welcher Ansatz wird also die Oberhand gewinnen, MoE oder CoE?
Ein anderer Lösungsansatz: Was bestimmt die Intelligenz-Erfahrung des Benutzers?
Als Zhou Hongyi im roten Gewand zum KI-Guru wurde, spielten sich innerhalb von 360 in den letzten anderthalb Jahren wiederholt Debatten darüber ab, wie man den CoE- und MoE-Ansatz verfolgen sollte.
Wenn man den MoE-Weg einschlägt, reicht die jahrelange technische Akkumulation von 360 aus, um diesen Kampf zu bestehen.
Der CoE-Weg würde bedeuten, den Kuchen mit mehr Herstellern großer Modelle zu teilen.
"Drei Schuster mit ihrem Verstand übertreffen Zhuge Liang" inspirierte Liang Zhihui, Vizepräsident der 360-Gruppe, auf CoE zu setzen:
Selbst wenn ein Unternehmen "acht Disziplinen" wie OpenAI beherrscht, hat es immer noch Schwachstellen. Aber wenn man die Fähigkeiten der besten Unternehmen für große Modelle durch CoE-Fähigkeiten kombiniert, bedeutet das die Realisierung von komplementären Stärken und echten achtzehn Disziplinen.
Testergebnisse zeigen, dass der KI-Assistent in der Beta-Version, basierend auf den CoE-KI-Fähigkeiten von 360, nach der Integration der Stärken von 16 der stärksten inländischen großen Modelle, einschließlich 360 Zhinao, GPT-4 in 11 einzelnen Fähigkeitstestindikatoren übertroffen hat.
Gleichzeitig kann 360 auch dann, wenn die zugrunde liegenden Fähigkeiten großer Modelle "ausgelagert" werden, in der CoE-Welle seine eigene einzigartige Position finden.
Aus Produktsicht kann der 360 CoE KI-Assistent in zwei Teile unterteilt werden: Die Korpusakkumulation und Algorithmentechnologie stützen sich hauptsächlich auf die Integration von 16 inländischen großen Modellen, einschließlich 360 Zhinao, ähnlich wie Spezialeinheiten mit unterschiedlichen Aufgaben; 360 übernimmt die Rolle des Kommandeurs und realisiert durch ein Absichtserkennungsmodell ein präziseres Verständnis der Benutzerabsichten; durch Aufgabenzerlegungs- und Planungsmodelle wird eine intelligente Planung für ein Netzwerk zahlreicher Expertenmodelle (100+ LLM), eine Wissenszentrale im Hundert-Milliarden-Maßstab und 200+ Drittanbieter-Tools realisiert, wodurch eine höhere Flexibilität und Effizienz als MoE erreicht wird.