LSTM在ChatGPT出现之前被认为是"商业价值最高的AI成就"。
然而,Schmidhuber希望人们更多地了解1990-1991年这段时期,他将其比作物理学的"奇迹年"(1905年)。据他所说,在那段时期,他为"生成式人工智能"奠定了基础,引入了GAN(生成对抗网络)、非归一化线性Transformer和自监督预训练原则。这对ChatGPT中的"G"、"P"和"T"产生了广泛影响。
因此,早在深度学习三巨头(Geoffrey Hinton、Yoshua Bengio和Yann LeCun)获得图灵奖之前,Schmidhuber就已经被《纽约时报》称为"成熟人工智能之父"。Elon Musk也在X上赞扬他说:"Schmidhuber发明了一切。"
2013年,Schmidhuber获得了国际神经网络学会(INNS)颁发的"亥姆霍兹奖",以表彰他对机器学习的重大贡献。2016年,他获得了IEEE神经网络先驱奖。他目前担任瑞士人工智能实验室IDSIA的科学主任,以及沙特阿拉伯阿卜杜拉国王科技大学(KAUST)人工智能项目负责人。他还参与了多家人工智能公司的运营。
这引发了一个新问题:为什么他还没有获得图灵奖?
南京大学人工智能学院院长周志华教授提出了一个值得注意的观点:"在对深度学习的贡献方面,Hinton无疑排名第一,LeCun和Schmidhuber都做出了重大贡献。### 但HLB总是捆绑在一起。获奖需要提名和投票,个人关系也很重要。不过这并不重要;有了像LSTM这样教科书级别的贡献,他可以保持平静。"
在与"甲子光年"进行为期两天的深入对话中,Schmidhuber戴着他标志性的时尚黑色贝雷帽,用流利的德国口音英语展现出一位既幽默又平易近人的学者形象。然而,在这种亲和力的外表下,隐藏着一种不屈不挠的精神,渴望在快速发展的AI研究领域建立科学诚信。
在讨论自己和学术同事被忽视的贡献时,尤其是科技巨头之前欧洲小型学术实验室的开创性成就时,Schmidhuber的话语中透露出一种急于纠正历史记录的紧迫感。
在过去几年里,他在社交媒体和演讲活动中与LeCun、Ian Goodfellow等人进行了多次公开辩论,用精心准备的同行评审论据指责他人"翻炒"他早期发表的工作,认为不应该削弱深度学习领域早期先驱应得的认可。
他的直言不讳自然引发了关于他性格的争议。然而,Schmidhuber植根于欧洲和学术界的视角,确实为公众提供了超越硅谷可能具有误导性的主流叙事的宝贵多元观点。此外,他不仅坚持为自己发声,还不知疲倦地赞扬他的杰出学生和那些在AI发展中被低估的贡献者,努力给予他们应得的荣誉。
关于谁应该被称为"人工智能之父"的争论,Schmidhuber指出,### 构建AI需要整个文明。而现代AI的概念早在20世纪50年代"人工智能"这个术语被创造出来之前几十年甚至几个世纪就已经出现,由数学和算法原理驱动。
对于针对他个人的负面评论,Schmidhuber似乎更加淡然。他经常引用著名歌手Elvis Presley的话:"真相就像太阳。你可以暂时把它遮住,但它不会消失。"
在本文中,"甲子光年"采访了Jürgen Schmidhuber,讨论了1956年之前人工智能的起源,他自己的研究以及对"深度学习三巨头"的看法,并展望未来。他认为,一个能够自我复制和自我改进的机器文明可能会出现。在通向AGI的道路上,他认为除了大公司之外,没有太多资金的人也可以为AI研究带来全面创新。
1. 比Transformer更好的架构
甲子光年:让我们从人工智能的历史开始。您对AI发展有深入的了解。您认为AI历史中哪些方面需要澄清?
Schmidhuber:当然有很多。人工智能的开端远早于1956年的达特茅斯会议,当时"人工智能"这个术语首次出现。事实上,早在1914年,Leonardo Torres和Quevedo就已经设计出了一种能下棋的自动化设备。当时,下棋被认为是智能生物的专属领域。至于人工智能的理论,可以追溯到Kurt Gödel 1931-1934年的工作,他确立了AI计算的基本限制。
有人说人工神经网络是20世纪50年代才出现的新事物,但这并不正确。这个想法的种子在200多年前就已经种下了。高斯和勒让德,两个天才少年,在1800年左右提出了我们现在认识为线性神经网络的概念,尽管他们当时称之为"最小二乘法"。他们有由输入和期望输出组成的训练数据,并调整权重以最小化训练集误差,以便推广到未见过的测试数据,这本质上就是一个线性神经网络。
这就是我们现在称之为"浅层学习"的东西,所以有些人认为更强大和新颖的"深度学习"是21世纪的创新。但事实并非如此。1965年,在乌克兰,Alexey Ivakhnenko和Valentin Lapa开创了第一个可学习的深层多层网络。例如,Ivakhnenko 1970年的论文详细描述了一个八层深度学习网络。不幸的是,当其他人后来重新发表相同的想法和概念时,他们没有引用乌克兰发明者。在我们这个领域,有许多有意或无意的剽窃案例。
甲子光年:您自己在人工智能的历史中扮演了重要角色。您能告诉我们1991年那个奇迹般的一年吗?您的研究当时对AI行业做出了哪些贡献?
Schmidhuber:1990年到1991年是我们创造奇迹的时期,我为此感到非常自豪。在短短一年内,我们在慕尼黑工业大学的实验室里培育了许多支撑今天生成式AI的核心思想。
让我们从ChatGPT开始。它名字中的GPT代表生成式预训练Transformer。首先,让我们谈谈GPT中的G和生成式AI。它的根源可以追溯到### 我在1990年首次提出的生成对抗网络概念。当时,我称之为"人工好奇心",其中两个神经网络相互对抗(一个具有自适应概率单元的生成器和一个受生成器输出影响的预测器)使用梯度下降来最大化彼此在游戏中的损失。然而,### 在极小极大博弈中,生成器试图最大化预测器试图最小化的东西。换句话说,它试图通过生成不可预测的内容来"愚弄"对手,以挑战预测器的极限。这项技术后来在Deepfake领域得到广泛应用。
至于P,GPT中的"预训练"部分,我也在1991年发表了相关内容。我发现无监督或自监督预训练可以大大压缩序列,从而促进长序列(如非常长的文本)的下游深度学习。
T代表Transformer。有人认为它诞生于2017年的谷歌,但事实上,我早在1991年就已经引入了这个概念的一个变体,称为"快速权重控制器",其中一个变体现在被称为"非归一化线性Transformer"。这种早期的Transformer非常高效,对于100倍的输入只需要100倍的计算,而不是像当前的Transformer那样需要10000倍。
甲子光年:包括Transformer的作者在内的许多人都表示,我们需要一个比Transformer更好的架构。它当然不是完美的,那么您认为下一代架构应该是什么样的?
Schmidhuber:现在,提高Transformer效率是一个热门话题,而我1991年的设计无疑是一个极好的起点。
对于下一代LLM的讨论,我们可以回到最初阶段。当时,谷歌和Facebook都在使用我们的长短期记忆网络,即LSTM循环神经网络(RNN),这可以追溯到我杰出学生Sepp Hochreiter 1991年的论文。这篇论文不仅描述了前面提到的预训练(GPT中的P)的实验,还引入了残差连接,这是LSTM的核心组件,允许非常深的学习和处理非常长的序列。### 我在1995年提出了LSTM这个名字,但名字并不重要,重要的是背后的数学。直到2010年代后期,LSTM才被Transformer取代,因为Transformer更容易并行化,这是从今天大规模并行神经网络硬件(如NVIDIA的GPU)中受益的关键。
甲子光年:RNN能解决Transformer无法解决的任务吗?
Schmidhuber:原则上应该更强大。例如,奇偶校验:给定一个比特串如01100、101或1000010101110,1的数量是奇数还是偶数?这看起来是一个简单的任务,但Transformer无法推广它。然而,即使是简单的RNN也可以解决这个任务。
最近,Hochreiter的团队开发了一个令人印象深刻的LSTM扩展,称为xLSTM,它具有线性可扩展性,在各种语言基准测试中优于Transformer。它对文本语义的优越理解