以下是翻译成简体中文的内容:
加州大学戴维斯分校电子与计算机工程系助理教授陈羽北,他的研究内容就与"白盒模型"有关。此外,他也是图灵奖获得者、Meta首席科学家Yann LeCun的博士后。本期节目中,他和我们聊了聊白盒模型的最新研究进展,同时也向我们分享了他所熟悉的这位经历过AI行业起起伏伏、却依然纯粹专注的科学家Yann LeCun。
以下是部分访谈精选
01 人脑与大模型
《硅谷101》: 可以先简单介绍一下你正在做的"白盒模型"研究吗?在你的研究过程中有没有发现如何能去解释 GPT 的输入输出问题?
陈羽北: 这个方向其实一个比较大的目标就是推动深度学习从一门纯经验性学科向一个科学学科发展,或者说把工程变成科学,因为目前工程发展得比较快但科学相对缓慢。以前有一个模型叫做词的嵌入(embedding),它可以学到语言的一些表征。
大家当时其实就有一个疑问,我们做任务的性能变好了,可是究竟是什么导致这个性能变好了? 所以我们当时做过一个非常早期的工作,就是尝试打开词汇的这些表示。当你把它打开的时候,就会发现一些很有意思的现象。
比如说苹果这个词,你可以找到里面的一些元意思,比如其中的一个意思可能就是代表水果,另外一个意思代表甜点,再往下挖会找到有技术和产品的意思,当然指的是苹果公司的产品。所以你就会发现顺着一个词你能找到这些元意思,接着你就可以把这样的方法延伸到大语言模型里。
也就是说,当我们学完一个大语言模型以后,可以在模型里面去寻找它里面所带有的一些元意思,然后尝试去打开。你会发现一个大语言模型,它其实有很多层。
在初级层里,它会出现一个现象叫"词语的消歧"。比如像在英文里面有个词叫做"left",这个词它既有向左转的意思,也有离开的过去式的意思,那么它具体的意思则要取决于语境前后的上下文,所以大语言模型在初期的几层里就完成了词语的消歧。
而在中期你会发现又有一些新的意思产生。当时我们觉得一个很好玩的事叫做"单位转换",一旦要将公里变成英里、温度从华氏度变成摄氏度的时候就会被激活,这个意思就会被打开,你可以顺着这个路找到很多相似级别的这种元意思。
你再往上走的时候甚至会发现这些元意思中存在一种规律,这种规律就是当上下文里出现了一个重复的意思时它就会被激活,你就可以用这样的方式去打开大语言模型以及小语言模型。当然这些思路也并不完全是新的,它在视觉模型里其实已经有一段历史了,比如说从Matthew Zeiler开始就有一些类似探索。
《硅谷101》: 顺着这个思路,是不是如果我们知道了它部分是怎么运作的,就可以从工程上对它有很多优化?
陈羽北: 是的,这个是一个非常好的问题。我觉得做任何理论一个比较高的要求就是可以指导实践,所以在我们当时做语言模型还有词汇表征的时候,当时也有的一个目标,就是当我们理解以后,能不能反过来优化这些模型?其实是可以的。
举一个例子,如果你在大语言模型里面找到的一个元意思,当它看到某一种元意思的时候就会激活,那这一个神经元就可以被作为一个判别器,你就可以用这个东西来做一些任务。通过对这些元意思的改变,来调节模型的偏见。
就是如果我能够发现它,那我可以调整它。最近 Anthropic 他们就是做了类似的一个工作,就是找到语言模型里边可能存在的一些偏见,然后对它进行一些改变来使这个模型变得更加的公平和安全。
《硅谷101》: 我看到去年 OpenAI 也有一项研究,就是用 GPT4 去解释 GPT2,看 GPT2到底是怎么工作的。比如说他们发现GPT 2的神经元在回答所有跟美国历史1800年前后的事情时,第5行的第12个神经元会被激活,在回答中文的时候是第12行的第13个神经元被激活。
如果把它回答中文的这个神经元关闭的话,它对中文的理解能力就会大幅的下降。但是越往后的神经元,比如当神经元到了2000排左右的时候那它整个的可信度就已经下降了很多。你有没有注意到他们的这个研究?
陈羽北: 这篇文章我还没看过,不过这个方法它非常像是给大脑的神经元做手术。相当于现在如果有一个神经的网络,这个网络是指从某种意义上能找到一个局部的存在而不是完全分散的,那么就可以对它进行一些操作。比如把某个神经元切掉了,那你就可以认为它某一块的能力相对来讲就损失掉了。
人其实也是一样的,比如一个患有癫痫的人在做完手术后可能会出现某些语言的障碍,但并不太影响其他人体功能,这从原理上看起来是相似的。
《硅谷101》: OpenAI、Anthropic他们现在都在研究大模型的可解释性,你的研究跟他们之间有什么区别吗?
陈羽北: 白盒模型的研究是否将来能成功其实大家都不知道,我之前也跟我的导师讨论过,但大家一致的看法是说这件事值得尝试。如果我们回到这一块的话,我们的研究想做的其实是想理解人工智能,并且通过我们的理解重构它,进而从根本上来构建出一些不一样的东西。那么观测,也就是可解释性我觉得只是一种手段。
也就是说,打开这种模型也好,我做这些实验也好,对模型进行一些调整也好,我认为这都是我们在理解的过程中所尝试的一些手段,但是白盒模型真正重要的还是要回到这个信号本身。因为不管是人脑也好,机器也好,它们的学习的本质都因为信号。
我们这个世界中存在一些结构,他们也要通过这些结构来进行学习,学的也正是这些结构。那么我们是否可以找到这些结构背后的规律,以及表示他们的一些数学工具再把这些东西进行重组进而构建出来一个不一样的模型?如果这件事可以完成的话,我想就能带来关于提高我们的系统的鲁棒性,或者安全性和可信度的一种期望。
另外,它的效率也会提高。这有点像是蒸汽机先出来之后才出现了热力学这种理论,从而支撑它从一门完全的工匠学科变成了一门科学。那么同理,今天我们就好像是第一次在数据上有了蒸汽机,从以前不理解我们的数据,到现在终于可以开始做出来一些 AI 的算法把数据中的规律给抓出来。
《硅谷101》: 所以它会更节能。
陈羽北:要说到节能,我可以举几个有意思的例子。第一个点肯定是节能,因为大脑它相当于一个20瓦功耗的一个灯泡,那现在的超级计算机它可能要超过百万瓦。
第二点是,如果我们看自然界各种各样生物所进行演化,它的演化效率其实是非常高的。比如有一种特殊蜘蛛叫Jumping Spider,它只有几百万个神经元,但它可以做出非常复杂的三维的群线去捕捉它的猎物。
而我觉得最有意思的一件事儿是人对于数据使用的效率。Llama3现在的数据量大概已经达到了13万亿个Token。但人的一生当中到底能接收多少的数据呢?假设我们每秒可以获得30帧图像,每天的获取时间是12个小时,做20年,那么我们大概能得到100亿个token,文字能获取的也是差不多一样,数据量比大模型小太多了。
那么问题来了,人究竟是如何通过如此少的一个数据量来获得如此强的一个泛化能力的呢?这就是人脑在效率层面让我觉得很神奇的一点。
《硅谷101》: 去揭开大模型是怎么运作的和跟揭开人脑是怎么运作的哪个更难?我听起来都很难。
陈羽北: 这两者各有各的难法,但在方法上是相似的。不管是人脑还是大语言模型,我们都是尝试去观测它,看它对什么产生了响应。
这个方法其实从上个世纪80年代获得诺贝尔生理学奖得主David Hubel和Torsten Weisel关于视觉皮层的研究中就能看到。他们找到了一种Simple Cell,尝试研究人看到什么东西的时候这些神经元它会产生冲动,分析看不同的东西时候神经元不同的响应状态,比如什么时候完全不响应,什么时候又很兴奋,接着他们就找到了神经元的 Receptive field。