大型語言模型領域:開源的真相如何?

在討論開源大語言模型時,我們聚焦於可自由獲取、使用和修改的人工智能語言系統。這些模型通過海量文本數據訓練,能夠理解和生成人類語言,為各種應用提供基礎。我們關注它們的技術特點、發展趨勢、應用潛力以及對人工智能領域的影響。

開源軟體的開發通常遵循互惠合作和同儕生產的原則,促進了生產模組、通信管道和互動社群的改進,典型代表包括Linux,Mozilla Firefox。

閉源軟體(專有軟體)由於商業或其他原因,不公開源碼,只提供電腦可讀的程式(如二進制格式)。源碼僅由開發者掌握和控制。典型代表包括Windows,安卓。

開源是一種軟體開發模式,基於開放、共享和協作,鼓勵大家共同參與軟體的開發和改進,推動技術的不斷進步和廣泛應用。

選擇閉源開發的軟體更有可能成為一個穩定、專注的產品,但是閉源軟體通常需要花錢,且如果它有任何錯誤或缺少功能,只能等待開發商來解決問題。

至於什麼是開源大模型,業界並沒有像開源軟體一樣達成一個明確的共識。

大語言模型的開源和軟體開源在理念上是相似的,都是基於開放、共享和協作,鼓勵社群共同參與開發和改進,推動技術進步並提高透明性。

然而,在實現和需求上有顯著區別。

軟體開源主要針對應用程式和工具,開源的資源需求較低,而大語言模型的開源則涉及大量計算資源和高品質的數據,並且可能有更多使用限制。因此,雖然兩者的開源都旨在促進創新和技術傳播,但大語言模型開源面臨更多的複雜性,社群貢獻形式也有所不同。

李彥宏也強調了兩者的區別,模型開源不等於程式碼開源:"模型開源只能拿到一堆參數,還要再做SFT(監督微調)、安全對齊,即使是拿到對應源碼,也不知道是用了多少比例、什麼比例的數據去訓練這些參數,無法做到眾人拾柴火焰高,拿到這些東西,並不能讓你站在巨人的肩膀上迭代開發。"

大語言模型的全流程開源包括將模型開發的整個過程,從數據收集、模型設計、訓練到部署,所有環節都公開透明。這種做法不僅包括數據集的公開和模型架構的開放,還涵蓋了訓練過程的程式碼共享和預訓練模型權重的發布。

過去一年,大語言模型的數量大幅增加,許多都聲稱是開源的,但它們真的有多開放呢?

荷蘭拉德堡德大學的人工智慧研究學者Andreas Liesenfeld和計算語言學家Mark Dingemanse也發現,雖然"開源"一詞被廣泛使用,但許多模型最多只是"開放權重",關於系統構建的其他大多數方面都隱藏了起來。

比如Meta和微軟等科技雖將其大語言模型標榜為"開源",卻並未公開底層技術相關的重要資訊。而讓他們意外的是,資源更少的AI企業和機構的表現更令人稱讚。

該研究團隊分析了一系列熱門"開源"大語言模型專案,從程式碼、數據、權重、API到文件等多個方面評估其實際開放程度。研究還將OpenAI的ChatGPT作為閉源的參考點,凸顯了"開源"專案的真實狀況。

✔為開放,~為部分開放,X為封閉

結果顯示,專案間差異顯著,根據這個排行榜,Allen Institute for AI的OLMo是最開放的開源模型,其次是BigScience的BloomZ,兩者都是由非營利組織開發。

論文稱,Meta的Llama以及 Google DeepMind的Gemma 雖然自稱開源或開放,但實際上只是開放權重,外部研究人員可以訪問和使用預訓練模型,但無法檢查或定製模型,也不知道模型如何針對特定任務進行微調。

最近LLaMA 3和Mistral Large 2的發布引起了廣泛關注。在模型在開放性方面,LLaMA 3公開了模型權重,用戶可以訪問和使用這些預訓練和指令微調後的模型權重,此外Meta還提供了一些基礎程式碼,用於模型的預訓練和指令微調,但並未提供完整的訓練程式碼,LLaMA 3 的訓練數據也並未公開。不過這次LMeta帶來了關於LLaMA 3.1 405B 的一份93頁的技術報告。

Mistral Large 2的情況類似,在模型權重和 API 方面保持了較高的開放度,但在完整程式碼和訓練數據方面的開放程度較低,採用了一種平衡商業利益和開放性的策略,允許研究使用但對商業使用有所限制。

谷歌表示,該公司在描述模型時"在語言上非常精確",他們將Gemma稱為開放而非開源。"現有的開源概念並不總能直接應用於 AI 系統,"

這項研究的一個重要背景是歐盟的人工智慧法案,該法案生效時,對歸類為開放的模型實施較寬鬆的監管,因此關於開源的定義可能會變得更加重要。

研究人員表示,創新的唯一途徑是通過調整模型,為此需要足夠的資訊來構建自己的版本。不僅如此,模型還必須接受審查,例如,一個模型在大量測試樣本上進行了訓練,那麼它通過特定測試可能並不算一項成就。

他們也對如此多的開源替代方案的出現感到令人欣喜,ChatGPT非常受歡迎,以至於很容易讓人們忘記對其訓練數據或其他幕後手段一無所知。對於那些希望更好地了解模型或基於構建應用的人來說,這是一個隱患,而開源替代方案使得關鍵的基礎研究成為可能。

矽星人也對國內部分開源大語言模型的開源情況進行了統計:

從表中我們可以看到,和海外的情況類似,開源較為徹底的模型基本是由研究機構主導,這主要是因為研究機構的目標是推動科研進步和行業發展,更傾向於開放其研究成果。

而商業公司則利用其資源優勢,開發出更為強大的模型,並通過適當的開源策略在競爭中獲得優勢。

從GPT-3到BERT以來,開源為大模型生態系統帶來了重要的推動力。

通過公開其架構和訓練方法,研究人員和開發者可以在這些基礎上進行進一步的探索和改進,催生出更多前沿的技術和應用。

開源大模型的出現顯著降低了開發的門檻,開發者和中小企業能夠利用這些先進的AI技術,而不必從零開始構建模型,從而節省了大量的時間和資源。這使得更多創新專案和產品得以快速落地,推動了整個行業的發展。開發者們在開源平台上積極分享優化方法和應用案例,也促進了技術成熟和應用。

對教育和科研而言,開源大語言模型提供了寶貴資源。學生和新手開發者通過研究和使用這些模型,能快速掌握先進AI技術,縮短學習曲線,為行業輸送新鮮血液。

然而,大語言模型的開放性並非簡單的二元特性。基於Transformer的系統架構及其訓練過程極為複雜,難以簡單歸類為開放或封閉。開源大模型並非一個簡單的標籤,更像一個光譜,從完全開源到部分開源,程度各異。

大語言模型的開源是一項複雜而細緻的工作,並非所有模型都必須開源。

更不應以"道德綁架"的方式要求全面開源,因為這涉及大量技術、資源和安全考量,需要平衡開放與安全、創新與責任。正如科技領域的其他方面一樣,多元化的貢獻方式才能構建一個更豐富的技術生態系統。

開源和閉源模型的關係或許可以類比於軟體行業中開源和閉源軟體的共存。

開源模型促進了技術的廣泛傳播和創新,而閉源模型則在特定領域提供了更專業、更安全的解決方案。兩者相互補充,共同推動了人工智慧技術的發展。

在未來,我們可能會看到更多的混合模式出現,如部分開源或有條件開源,以平衡技術共享和商業利益。

無論是開源還是閉源,重要的是要確保模型的安全性、可靠性和道德性。這需要行業、學術界和監管機構的共同努力,制定適當的標準和規範,以確保AI技術的健康發展。

總的來說,開源和閉源大語言模型各有其優勢和局限性。開源模型促進了技術的廣泛傳播和創新,而閉源模型則在特定領域提供了更專業、更安全的解決方案。兩者的共存和競爭,將推動整個AI行業向前發展,為用戶帶來更多選擇和更好的體驗。

未來,我們可能會看到更多的混合模式出現,如部分開源或有條件開源,以平衡技術共享和商業利益。無論採取何種模式,確保模型的安全性、可靠性和道德性都是至關重要的,這需要行業、學術界和監管機構的共同努力。