Großsprachmodelle: Wie steht es wirklich um Open Source?

Bei der Erörterung von Open-Source-Großsprachmodellen konzentrieren wir uns auf frei zugängliche, nutzbare und modifizierbare künstliche Intelligenz-Sprachsysteme. Diese Modelle werden mit riesigen Mengen an Textdaten trainiert und können menschliche Sprache verstehen und generieren, wodurch sie die Grundlage für verschiedene Anwendungen bilden. Wir betrachten ihre technischen Merkmale, Entwicklungstrends, Anwendungspotenziale sowie ihre Auswirkungen auf das Gebiet der künstlichen Intelligenz.

Die Entwicklung von Open-Source-Software folgt in der Regel den Prinzipien der gegenseitigen Zusammenarbeit und Peer-Produktion, was die Verbesserung von Produktionsmodulen, Kommunikationskanälen und interaktiven Gemeinschaften fördert. Typische Vertreter sind Linux und Mozilla Firefox.

Closed-Source-Software (proprietäre Software) veröffentlicht aus kommerziellen oder anderen Gründen den Quellcode nicht und stellt nur computerlesbare Programme (z.B. im Binärformat) zur Verfügung. Der Quellcode wird ausschließlich von den Entwicklern kontrolliert. Typische Vertreter sind Windows und Android.

Open Source ist ein Softwareentwicklungsmodell, das auf Offenheit, Teilen und Zusammenarbeit basiert und jeden ermutigt, an der Entwicklung und Verbesserung von Software teilzunehmen, um den technologischen Fortschritt und die breite Anwendung voranzutreiben.

Software, die für eine Closed-Source-Entwicklung gewählt wird, hat eher die Chance, ein stabiles, fokussiertes Produkt zu werden. Allerdings ist Closed-Source-Software in der Regel kostenpflichtig, und wenn es Fehler oder fehlende Funktionen gibt, kann man nur darauf warten, dass der Anbieter die Probleme löst.

Was Open-Source-Großmodelle betrifft, gibt es in der Branche keine klare Übereinstimmung wie bei Open-Source-Software.

Die Open-Source-Idee bei großen Sprachmodellen ähnelt der von Open-Source-Software in ihrem Konzept, basierend auf Offenheit, Teilen und Zusammenarbeit, um die gemeinsame Entwicklung und Verbesserung zu fördern und den technologischen Fortschritt sowie die Transparenz zu erhöhen.

Es gibt jedoch signifikante Unterschiede in der Umsetzung und den Anforderungen.

Open-Source-Software bezieht sich hauptsächlich auf Anwendungen und Tools mit geringerem Ressourcenbedarf, während Open-Source-Sprachmodelle große Rechenressourcen und hochwertige Daten erfordern und möglicherweise mehr Nutzungsbeschränkungen haben. Obwohl beide Ansätze darauf abzielen, Innovation und technologische Verbreitung zu fördern, steht die Open-Source-Entwicklung von großen Sprachmodellen vor größeren Komplexitäten, und die Formen der Community-Beiträge unterscheiden sich.

Li Yanhong betonte auch den Unterschied: "Open-Source-Modelle sind nicht gleichbedeutend mit Open-Source-Code. Bei Open-Source-Modellen erhält man nur eine Reihe von Parametern und muss noch SFT (Supervised Fine-Tuning) und Sicherheitsausrichtung durchführen. Selbst wenn man den entsprechenden Quellcode erhält, weiß man nicht, welcher Anteil und welche Art von Daten zum Training dieser Parameter verwendet wurden. Man kann nicht einfach auf den Schultern von Riesen stehen und iterativ entwickeln."

Die vollständige Open-Source-Entwicklung großer Sprachmodelle umfasst die Offenlegung des gesamten Entwicklungsprozesses, von der Datensammlung über Modelldesign und Training bis hin zur Bereitstellung. Dieser Ansatz beinhaltet nicht nur die Veröffentlichung von Datensätzen und die Offenlegung der Modellarchitektur, sondern auch die Freigabe des Trainingscode und die Veröffentlichung der vortrainierten Modellgewichte.

Im vergangenen Jahr ist die Anzahl der großen Sprachmodelle stark gestiegen, und viele behaupten, Open Source zu sein. Aber wie offen sind sie wirklich?

Andreas Liesenfeld, KI-Forscher an der Radboud-Universität in den Niederlanden, und der Computerlinguist Mark Dingemanse stellten fest, dass der Begriff "Open Source" zwar weit verbreitet ist, viele Modelle aber bestenfalls nur "offene Gewichte" haben, während die meisten anderen Aspekte des Systemaufbaus verborgen bleiben.

Zum Beispiel bezeichnen Technologieunternehmen wie Meta und Microsoft ihre großen Sprachmodelle als "Open Source", veröffentlichen aber keine wichtigen Informationen über die zugrunde liegende Technologie. Überraschenderweise zeigten KI-Unternehmen und Institutionen mit geringeren Ressourcen eine lobenswertere Leistung.

Das Forschungsteam analysierte eine Reihe beliebter "Open-Source"-Projekte für große Sprachmodelle und bewertete ihren tatsächlichen Öffnungsgrad in verschiedenen Aspekten, von Code und Daten über Gewichte und APIs bis hin zur Dokumentation. Die Studie verwendete auch OpenAIs ChatGPT als Referenzpunkt für geschlossene Quellen, um den tatsächlichen Status der "Open-Source"-Projekte hervorzuheben.

✔ für offen, ~ für teilweise offen, X für geschlossen

Die Ergebnisse zeigen signifikante Unterschiede zwischen den Projekten. Laut dieser Rangliste ist OLMo vom Allen Institute for AI das offenste Open-Source-Modell, gefolgt von BloomZ von BigScience. Beide wurden von gemeinnützigen Organisationen entwickelt.

Die Studie besagt, dass Metas Llama und Google DeepMinds Gemma, obwohl sie sich als Open Source oder offen bezeichnen, tatsächlich nur offene Gewichte haben. Externe Forscher können auf vortrainierte Modelle zugreifen und sie verwenden, können das Modell aber nicht untersuchen oder anpassen und wissen nicht, wie das Modell für bestimmte Aufgaben feinabgestimmt wurde.

Die kürzliche Veröffentlichung von LLaMA 3 und Mistral Large 2 hat große Aufmerksamkeit erregt. In Bezug auf die Offenheit des Modells hat LLaMA 3 die Modellgewichte veröffentlicht, und Benutzer können auf diese vortrainierten und anweisungsoptimierten Modellgewichte zugreifen und sie verwenden. Darüber hinaus stellt Meta einigen Basiscode für das Vortraining und die Anweisungsoptimierung des Modells zur Verfügung, hat aber nicht den vollständigen Trainingscode veröffentlicht. Die Trainingsdaten für LLaMA 3 wurden ebenfalls nicht veröffentlicht. Allerdings hat Meta diesmal einen 93-seitigen technischen Bericht über LLaMA 3.1 405B vorgelegt.

Die Situation bei Mistral Large 2 ist ähnlich. Es behält einen hohen Grad an Offenheit in Bezug auf Modellgewichte und API bei, hat aber einen geringeren Grad an Offenheit in Bezug auf vollständigen Code und Trainingsdaten. Es verfolgt eine Strategie, die kommerzielle Interessen und Offenheit ausbalanciert und die Nutzung für Forschungszwecke erlaubt, aber die kommerzielle Nutzung einschränkt.

Google erklärt, dass das Unternehmen "in der Sprache sehr präzise" ist, wenn es das Modell beschreibt. Sie bezeichnen Gemma als offen, nicht als Open Source. "Bestehende Open-Source-Konzepte lassen sich nicht immer direkt auf KI-Systeme anwenden", so Google.

Ein wichtiger Hintergrund dieser Studie ist das KI-Gesetz der EU, das bei Inkrafttreten eine weniger strenge Regulierung für als offen klassifizierte Modelle vorsieht. Daher könnte die Definition von Open Source noch wichtiger werden.

Die Forscher argumentieren, dass der einzige Weg zur Innovation darin besteht, Modelle anzupassen, wofür ausreichend Informationen benötigt werden, um eigene Versionen zu erstellen. Darüber hinaus müssen die Modelle überprüfbar sein. Wenn ein Modell beispielsweise mit einer großen Anzahl von Testbeispielen trainiert wurde, ist das Bestehen eines bestimmten Tests möglicherweise keine bemerkenswerte Leistung.

Sie sind auch erfreut über das Aufkommen so vieler Open-Source-Alternativen. ChatGPT ist so beliebt, dass man leicht vergessen kann, dass man nichts über seine Trainingsdaten oder andere Hintergründe weiß. Für diejenigen, die die Modelle besser verstehen oder Anwendungen darauf aufbauen möchten, ist dies problematisch, während Open-Source-Alternativen wichtige Grundlagenforschung ermöglichen.

Silicon Star hat auch die Open-Source-Situation einiger inländischer großer Sprachmodelle statistisch erfasst:

Aus der Tabelle können wir sehen, dass ähnlich wie im Ausland die am gründlichsten open-source Modelle hauptsächlich von Forschungseinrichtungen geleitet werden. Dies liegt hauptsächlich daran, dass Forschungseinrichtungen darauf abzielen, den wissenschaftlichen Fortschritt und die Branchenentwicklung voranzutreiben und eher dazu neigen, ihre Forschungsergebnisse offen zu legen.

Kommerzielle Unternehmen hingegen nutzen ihre Ressourcenvorteile, um leistungsfähigere Modelle zu entwickeln und durch geeignete Open-Source-Strategien Wettbewerbsvorteile zu erlangen.

Seit GPT-3 und BERT hat Open Source wichtige Impulse für das Ökosystem der großen Modelle geliefert.

Durch die Offenlegung ihrer Architektur und Trainingsmethoden können Forscher und Entwickler auf dieser Grundlage weitere Erforschungen und Verbesserungen vornehmen, was zu mehr bahnbrechenden Technologien und Anwendungen führt.

Das Aufkommen von Open-Source-Großmodellen hat die Entwicklungsschwelle erheblich gesenkt. Entwickler und kleine und mittlere Unternehmen können diese fortschrittlichen KI-Technologien nutzen, ohne Modelle von Grund auf neu erstellen zu müssen, was viel Zeit und Ressourcen spart. Dies ermöglicht die schnelle Umsetzung innovativer Projekte und Produkte und treibt die Entwicklung der gesamten Branche voran. Entwickler teilen aktiv Optimierungsmethoden und Anwendungsfälle auf Open-Source-Plattformen, was auch die technologische Reife und Anwendung fördert.

Für Bildung und Forschung bieten Open-Source-Großsprachmodelle wertvolle Ressourcen. Studenten und Nachwuchsentwickler können durch die Untersuchung und Nutzung dieser Modelle schnell fortschrittliche KI-Technologien beherrschen, die Lernkurve verkürzen und frisches Blut in die Branche bringen.

Die Offenheit großer Sprachmodelle ist jedoch keine einfache binäre Eigenschaft. Die auf Transformern basierende Systemarchitektur und ihr Trainingsprozess sind äußerst komplex und lassen sich nicht einfach als offen oder geschlossen kategorisieren. Open-Source-Großmodelle sind kein einfaches Label, sondern eher ein Spektrum, das von vollständig open-source bis teilweise open-source reicht.

Die Open-Source-Entwicklung großer Sprachmodelle ist eine komplexe und detaillierte Arbeit, und nicht alle Modelle müssen open-source sein.

Es sollte auch nicht durch "moralische Erpressung" eine vollständige Offenlegung gefordert werden, da dies viele technische, ressourcenbezogene und sicherheitsrelevante Überlegungen beinhaltet und ein Gleichgewicht zwischen Offenheit und Sicherheit, Innovation und Verantwortung erfordert. Wie in anderen Bereichen der Technologie kann nur eine vielfältige Beitragsweise ein reichhaltigeres technologisches Ökosystem aufbauen.

Die Beziehung zwischen Open-Source- und Closed-Source-Modellen lässt sich möglicherweise mit der Koexistenz von Open-Source- und Closed-Source-Software in der Softwarebranche vergleichen.

Open-Source-Modelle fördern die breite Verbreitung und Innovation von Technologien, während Closed-Source-Modelle in bestimmten Bereichen professionellere und sicherere Lösungen bieten. Beide ergänzen sich gegenseitig und treiben gemeinsam die Entwicklung der künstlichen Intelligenz voran.

In Zukunft werden wir wahrscheinlich mehr Hybridmodelle sehen, wie teilweise Open-Source oder bedingte Open-Source, um technologisches Teilen und kommerzielle Interessen auszugleichen.

Unabhängig davon, ob es sich um Open-Source oder Closed-Source handelt, ist es wichtig, die Sicherheit, Zuverlässigkeit und Ethik der Modelle zu gewährleisten. Dies erfordert gemeinsame Anstrengungen von Industrie, Wissenschaft und Regulierungsbehörden, um angemessene Standards und Normen zu entwickeln und eine gesunde Entwicklung der KI-Technologie sicherzustellen.

Insgesamt haben Open-Source- und Closed-Source-Großsprachmodelle jeweils ihre Vor- und Nachteile. Open-Source-Modelle fördern die breite Verbreitung und Innovation von Technologien, während Closed-Source-Modelle in bestimmten Bereichen professionellere und sicherere Lösungen bieten. Die Koexistenz und der Wettbewerb beider werden die gesamte KI-Branche vorantreiben und den Nutzern mehr Auswahl und bessere Erfahrungen bieten.

In Zukunft werden wir wahrscheinlich mehr Hybridmodelle sehen, wie teilweise Open-Source oder bedingte Open-Source, um technologisches Teilen und kommerzielle Interessen auszugleichen. Unabhängig vom gewählten Modell ist es von entscheidender Bedeutung, die Sicherheit, Zuverlässigkeit und Ethik der Modelle zu gewährleisten, was gemeinsame Anstrengungen von Industrie, Wissenschaft und Regulierungsbehörden erfordert.