以下是翻譯成繁體中文的內容:
加州大學戴維斯分校電子與計算機工程系助理教授陳羽北,他的研究內容就與"白盒模型"有關。此外,他也是圖靈獎獲得者、Meta首席科學家Yann LeCun的博士後。本期節目中,他和我們聊了聊白盒模型的最新研究進展,同時也向我們分享了他所熟悉的這位經歷過AI行業起起伏伏、卻依然純粹專注的科學家Yann LeCun。
以下是部分訪談精選
01 人腦與大模型
《矽谷101》: 可以先簡單介紹一下你正在做的"白盒模型"研究嗎?在你的研究過程中有沒有發現如何能去解釋 GPT 的輸入輸出問題?
陳羽北: 這個方向其實一個比較大的目標就是深度學習從一門純經驗性學科向一個科學學科來推動,或者說把工程變成科學,因為目前工程發展得比較快但科學相對緩慢。以前有一個模型叫做詞的嵌入(embedding),它可以學到語言的一些表徵。
大家當時其實就有一個疑問,我們做任務的性能變好了,可是究竟是什麼導致這個性能變好了? 所以我們當時做過一個非常早期的工作,就是嘗試打開詞彙的這些表示。 當你把它打開的時候,就會發現一些很有意思的現象。
比如說蘋果這個詞,你可以找到裡面的一些元意思,比如其中的一個意思可能就是代表水果,另外一個意思代表甜點,再往下挖會找到有技術和產品的意思,當然指的是蘋果公司的產品。所以你就會發現順著一個詞你能找到這些元意思,接著你就可以把這樣的方法延伸到大語言模型裡。
也就是說,當我們學完一個大語言模型以後,可以在模型裡面去尋找它裡面所帶有的一些元意思,然後嘗試去打開。你會發現一個大語言模型,它其實有很多層。
在初級層裡,它會出現一個現象叫"詞語的消歧"。比如像在英文裡面有個詞叫做"left",這個詞它既有向左轉的意思,也有離開的過去式的意思,那麼它具體的意思則要取決於語境前後的上下文,所以大語言模型在初期的幾層裡就完成了詞語的消歧。
而在中期你會發現又有一些新的意思產生。當時我們覺得一個很好玩的事叫做"單位轉換",一旦要將公里變成英里、溫度從華氏度變成攝氏度的時候就會被激活,這個意思就會被打開,你可以順著這個路找到很多相似級別的這種元意思。
你再往上走的時候甚至會發現這些元意思中存在一種規律,這種規律就是當上下文裡出現了一個重複的意思時它就會被激活,你就可以用這樣的方式去打開大語言模型以及小語言模型。當然這些思路也並不完全是新的,它在視覺模型裡其實已經有一段歷史了,比如說從Matthew Zeiler開始就有一些類似探索。
《矽谷101》: 順著這個思路,是不是如果我們知道了它部分是怎麼運作的,就可以從工程上對它有很多優化?
陳羽北: 是的,這個是一個非常好的問題。我覺得做任何理論一個比較高的要求就是可以指導實踐,所以在我們當時做語言模型還有詞彙表徵的時候,當時也有的一個目標,就是當我們理解以後,能不能反過來優化這些模型?其實是可以的。
舉一個例子,如果你在大語言模型裡面找到的一個元意思,當它看到某一種元意思的時候就會激活,那這一個神經元就可以被作為一個判別器,你就可以用這個東西來做一些任務。通過對這些元意思的改變,來調節模型的偏見。
就是如果我能夠發現它,那我可以調整它。最近 Anthropic 他們就是做了類似的一個工作,就是找到語言模型裡邊可能存在的一些偏見,然後對它進行一些改變來使這個模型變得更加的公平和安全。
《矽谷101》: 我看到去年 OpenAI 也有一項研究,就是用 GPT4 去解釋 GPT2,看 GPT2到底是怎麼工作的。比如說他們發現GPT 2的神經元在回答所有跟美國歷史1800年前後的事情時,第5行的第12個神經元會被激活,在回答中文的時候是第12行的第13個神經元被激活。
如果把它回答中文的這個神經元關閉的話,它對中文的理解能力就會大幅的下降。但是越往後的神經元,比如當神經元到了2000排左右的時候那它整個的可信度就已經下降了很多。你有沒有注意到他們的這個研究?
陳羽北: 這篇文章我還沒看過,不過這個方法它非常像是給大腦的神經元做手術。相當於現在如果有一個神經的網絡,這個網絡是指從某種意義上能找到一個局部的存在而不是完全分散的,那麼就可以對它進行一些操作。比如把某個神經元切掉了,那你就可以認為它某一塊的能力相對來講就損失掉了。
人其實也是一樣的,比如一個患有癲癇的人在做完手術後可能會出現某些語言的障礙,但並不太影響其他人體功能,這從原理上看起來是相似的。
《矽谷101》: OpenAI、Anthropic他們現在都在研究大模型的可解釋性,你的研究跟他們之間有什麼區別嗎?
陳羽北: 白盒模型的研究是否將來能成功其實大家都不知道,我之前也跟我的導師討論過,但大家一致的看法是說這件事值得嘗試。如果我們回到這一塊的話,我們的研究想做的其實是想理解人工智能,並且通過我們的理解重構它,進而從根本上來構建出一些不一樣的東西。那麼觀測,也就是可解釋性我覺得只是一種手段。
也就是說,打開這種模型也好,我做這些實驗也好,對模型進行一些調整也好,我認為這都是我們在理解的過程中所嘗試的一些手段,但是白盒模型真正重要的還是要回到這個信號本身。因為不管是人腦也好,機器也好,它們的學習的本質都因為信號。
我們這個世界中存在一些結構,他們也要通過這些結構來進行學習,學的也正是這些結構。那麼我們是否可以找到這些結構背後的規律,以及表示他們的一些數學工具再把這些東西進行重組進而構建出來一個不一樣的模型?如果這件事可以完成的話,我想就能帶來關於提高我們的系統的魯棒性,或者安全性和可信度的一種期望。
另外,它的效率也會提高。 這有點像是蒸汽機先出來之後才出現了熱力學這種理論,從而支撐它從一門完全的工匠學科變成了一門科學。 那麼同理,今天我們就好像是第一次在數據上有了蒸汽機,從以前不理解我們的數據,到現在終於可以開始做出來一些 AI 的算法把數據中的規律給抓出來。
《矽谷101》: 所以它會更節能。
陳羽北:要說到節能,我可以舉幾個有意思的例子。 第一個點肯定是節能,因為大腦它相當於一個20瓦功耗的一個燈泡,那現在的超級計算機它可能要超過百萬瓦。
第二點是,如果我們看自然界各種各樣生物所進行演化,它的演化效率其實是非常高的。比如有一種特殊蜘蛛叫Jumping Spider,它只有幾百萬個神經元,但它可以做出非常複雜的三維的群線去捕捉它的獵物。
而我覺得最有意思的一件事兒是人對於數據使用的效率。Llama3現在的數據量大概已經達到了13萬億個Token。但人的一生當中到底能接收多少的數據呢?假設我們每秒可以獲得30幀圖像,每天的獲取時間是12個小時,做20年,那麼我們大概能得到100億個token,文字能獲取的也是差不多一樣,數據量比大模型小太多了。
那麼問題來了,人究竟是如何通過如此少的一個數據量來獲得如此強的一個泛化能力的呢?這就是人腦在效率層面讓我覺得很神奇的一點。
《矽谷101》: 去揭開大模型是怎麼運作的和跟揭開人腦是怎麼運作的哪個更難?我聽起來都很難。
陳羽北: 這兩者各有各的難法,但在方法上是相似的。不管是人腦還是大語言模型,我們都是嘗試去觀測它,看它對什麼產生了響應。
這個方法其實從上個世紀80年代獲得諾貝爾生理學獎得主David Hubel和Torsten Weisel關於視覺皮層的研究中就能看到。他們找到了一種Simple Cell,嘗試研究人看到什麼東西的時候這些神經元它會產生衝動,分析看不同的東西時候神經元不同的響應狀態,比如什麼時候完全不響應,什麼時候又很興奮,接著他們就找到了神經元的 Receptive field。