LSTM 在 ChatGPT 出現之前被認為是「商業價值最高的 AI 成就」。
然而,Schmidhuber 希望人們更多地了解 1990-1991 年,他將其比作物理學的「奇蹟年」(1905 年)。據他所說,在那段時期,他通過引入 GAN(生成對抗網絡)、非規範化線性 Transformer 和自監督預訓練原則,為「生成式人工智能」奠定了基礎。這對 ChatGPT 中的「G」、「P」和「T」產生了廣泛影響。
因此,早在深度學習三人組(Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun)獲得圖靈獎之前,Schmidhuber 就已經被《紐約時報》稱為「成熟人工智能之父」。Elon Musk 也在 X 上讚揚他說:「Schmidhuber 發明了一切。」
2013 年,Schmidhuber 獲得了國際神經網絡學會(INNS)頒發的「亥姆霍茲獎」,以表彰他在機器學習領域的重大貢獻。2016 年,他獲得了 IEEE 神經網絡先驅獎。他目前擔任瑞士 AI 實驗室 IDSIA 的科學總監,以及沙特阿拉伯阿卜杜拉國王科技大學(KAUST)AI 項目負責人。他還參與了多家 AI 公司的運營。
這引發了一個新問題:為什麼他還沒有獲得圖靈獎?
南京大學人工智能學院院長周志華教授提出了一個值得注意的觀點:「在對深度學習的貢獻方面,Hinton 無疑排名第一,LeCun 和 Schmidhuber 都做出了重大貢獻。### 但 HLB 總是捆綁在一起。獲獎需要提名和投票,個人關係也很重要。不過這無關緊要;有了像 LSTM 這樣教科書級的貢獻,他可以保持平靜。」
在與「甲子光年」為期兩天的深入對話中,Schmidhuber 戴著他標誌性的時尚黑色貝雷帽,用流利的德語口音英語,展現出一位既幽默又平易近人的學者形象。然而,在這種親和的外表下,隱藏著一種不屈不撓的精神,渴望在快速發展的 AI 研究領域建立科學誠信。
在討論自己和學術同事被忽視的貢獻時,尤其是科技巨頭之前小型歐洲學術實驗室的開創性成就時,Schmidhuber 的話語中透露出一種急於糾正歷史記錄的緊迫感。
過去幾年,他在社交媒體和演講活動中與 LeCun、Ian Goodfellow 等人進行了多次公開辯論,使用精心準備和同行評審的論據指責他人「重新加熱」他早期發表的工作,認為不應該削弱深度學習領域早期先驅應得的認可。
他的直言不諱自然引發了關於他性格的爭議。然而,Schmidhuber 植根於歐洲和學術界的觀點,確實為公眾提供了超越可能具有誤導性的硅谷主流敘事的寶貴多元視角。此外,他不僅堅持為自己發聲,還不知疲倦地讚揚他的傑出學生和那些在 AI 發展中被低估的貢獻者,努力給予他們應得的認可。
關於誰應該被稱為「人工智能之父」的爭論,Schmidhuber 指出,### 建立 AI 需要整個文明。而現代 AI 的概念在 20 世紀 50 年代「人工智能」一詞被創造出來之前的幾十年甚至幾個世紀就已經出現,由數學和算法原理驅動。
對於針對他個人的負面評論,Schmidhuber 似乎更加不以為然。他經常引用著名歌手 Elvis Presley 的話:「真相就像太陽。你可以暫時把它遮住,但它不會消失。」
在本文中,「甲子光年」採訪了 Jürgen Schmidhuber,討論了 1956 年之前很久的人工智能起源,他自己的研究以及對「深度學習三巨頭」的看法,並展望未來。他認為,一個能夠自我複製和自我改進的機器文明可能會出現。在通向 AGI 的道路上,他認為除了大公司之外,沒有太多資金的人也可以為 AI 研究帶來全面創新。
1. 比 Transformer 更好的架構
甲子光年:讓我們從人工智能的歷史開始。您對 AI 發展有深入的了解。您認為 AI 歷史中哪些方面需要澄清?
Schmidhuber:當然有很多。人工智能的開端遠早於 1956 年「人工智能」一詞首次出現的達特茅斯會議。事實上,早在 1914 年,Leonardo Torres 和 Quevedo 就已經設計出了能夠下棋的自動化裝置。當時,下棋被認為是智能生物的專屬領域。至於人工智能的理論,可以追溯到 Kurt Gödel 1931-1934 年的工作,當時他確立了 AI 計算的基本限制。
有人說人工神經網絡是 20 世紀 50 年代才出現的新事物,但事實並非如此。這個想法的種子早在 200 多年前就已經種下了。高斯和勒讓德,兩個天才少年,在 1800 年左右提出了我們現在認識為線性神經網絡的概念,雖然他們當時稱之為「最小二乘法」。他們有由輸入和期望輸出組成的訓練數據,並調整權重以最小化訓練集誤差,以便推廣到未見過的測試數據,這本質上就是一個線性神經網絡。
這就是我們現在所說的「淺層學習」,所以有人認為更強大和新穎的「深度學習」是 21 世紀的創新。但事實並非如此。1965 年,在烏克蘭,Alexey Ivakhnenko 和 Valentin Lapa 開創了第一個可學習的深層多層網絡。例如,Ivakhnenko 1970 年的論文詳細描述了一個八層深度學習網絡。不幸的是,當其他人後來重新發表相同的想法和概念時,他們沒有引用烏克蘭發明者。在我們的領域中,有許多有意或無意的剽竊案例。
甲子光年:您自己在人工智能的歷史中扮演了重要角色。您能告訴我們 1991 年那個奇蹟般的一年嗎?您的研究當時對 AI 行業做出了哪些貢獻?
Schmidhuber:1990 年到 1991 年是我們創造奇蹟的時期,我為此感到非常自豪。在短短一年內,我們在慕尼黑工業大學的實驗室裡培育了許多支撐今天生成式 AI 的核心想法。
讓我們從 ChatGPT 開始。它名字中的 GPT 代表生成式預訓練 Transformer。首先,讓我們談談 GPT 中的 G 和生成式 AI。它的根源可以追溯到 ### 我在 1990 年首次提出的生成對抗網絡概念。當時,我稱之為「人工好奇心」,其中兩個神經網絡相互對抗(一個具有自適應概率單元的生成器和一個受生成器輸出影響的預測器)使用梯度下降來最大化彼此在遊戲中的損失。然而,### 在極小極大博弈中,生成器試圖最大化預測器試圖最小化的東西。換句話說,它試圖通過生成不可預測的內容來「愚弄」對手,以挑戰預測器的極限。這項技術後來在 Deepfake 領域得到廣泛應用。
至於 P,GPT 中的「預訓練」部分,我也在 1991 年發表了相關內容。我發現無監督或自監督預訓練可以大大壓縮序列,從而促進長序列(如非常長的文本)的下游深度學習。
T 代表 Transformer。有人認為它誕生於 2017 年的谷歌,但事實上,我早在 1991 年就已經引入了這個概念的一個變體,稱為「快速權重控制器」,其中一個變體現在被稱為「非規範化線性 Transformer」。這個早期的 Transformer 非常高效,對於 100 倍的輸入只需要 100 倍的計算,而不是像現在的 Transformer 那樣需要 10,000 倍。
甲子光年:包括 Transformer 的作者在內的許多人都表示,我們需要一個比 Transformer 更好的架構。它當然不是完美的,那麼您認為下一代架構應該是什麼樣的?
Schmidhuber:現在,提高 Transformer 效率是一個熱門話題,而我 1991 年的設計無疑是一個極好的起點。
對於下一代 LLM 的討論,我們可以回到最初階段。當時,谷歌和 Facebook 都在使用我們的長短期記憶網絡,或 LSTM 循環神經網絡(RNN),這可以追溯到我出色的學生 Sepp Hochreiter 1991 年的論文。這篇論文不僅描述了前面提到的預訓練(GPT 中的 P)的實驗,還引入了殘差連接,這是 LSTM 的核心組件,允許非常深的學習和處理非常長的序列。### 我在 1995 年提出了 LSTM 這個名字,但名字並不重要,重要的是背後的數學。直到 2010 年代後期,LSTM 才被 Transformer 取代,因為 Transformer 更容易並行化,這是從今天大規模並行神經網絡硬件(如 NVIDIA 的 GPU)中受益的關鍵。
甲子光年:RNN 能解決 Transformer 無法解決的任務嗎?
Schmidhuber:原則上應該更強大。例如,奇偶校驗:給定一個位串如 01100、101 或 1000010101110,1 的數量是奇數還是偶數?這看起來是一個簡單的任務,但 Transformer 無法推廣它。然而,即使是簡單的 RNN 也可以解決這個任務。
最近,Hochreiter 的團隊開發了一個令人印象深刻的 LSTM 擴展,稱為 xLSTM,它具有線性可擴展性,並在各種語言基準測試中優於 Transformer。它對文本語義的優越理解