就在剛剛過去不久的九月底,有“ChatGPT最強平替”之稱的Anthropic拿到了亞馬遜的一筆總價40億美元的投資,之后不久他們就發表了一篇論文《朝向單義性:通過詞典學習分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning),在這篇論文里詳細闡述了他們解釋神經網絡與大語言模型(經常被簡稱為LLM)行為的方法。
Anthropic之所以能有“ChatGPT最強平替”的別名,主要是因為其創始成員幾乎都參與開發過GPT系列的早期版本,特別是GPT-2和GPT-3。而眾所周知GPT系列真正引人關注是從GPT-3之后的3.5開始的,老話說“羅馬不是一天建成的”。而且Anthropic的AIGC產品Claude與ChatGPT相比也不遜色多少,今年夏天推出了最新版Claude 2,英國《衛報》對此評論稱“訓練時以安全性為首要考慮,可以稱為‘合憲式AI’或‘合憲式機器人’”,一個全新的AI或機器人分類與研究也可能就將由此開啟。

現在市面上流行的LLM基本都是基于海量的神經網絡而打造,而神經網絡又是基于海量數據訓練而來。在此基礎上的AIGC,如文本、圖片、視頻等多模態或跨模態內容,雖然也可以保證可觀的準確性且數量上也日益豐富,但可解釋性始終是難以突破的難關。
舉個例子,現在隨便找個AI問1+1=?它們都會說1+1=2,但都無法解釋這個過程是如何產生的。即便能進行簡單解釋,也只是基于語義上的膚淺理解。就像我們人類睡覺時的夢境一樣,人人都會做夢也都能大致說出夢境內容,但對夢境的成因幾千年來始終都沒有合理和統一的解釋。
ChatGPT等LLM經常出現無序、混亂、虛假信息等情況,這種行為被稱為“AI幻覺”,也就是常說的一本正經的胡說八道,主要是因為人類無法控制AI與大模型內的神經網絡行為。所以Anthropic的研究對于增強LLM,甚至AI與大模型整體的準確率、安全性,降低有害內容輸出的幫助都非常大,這篇論文還是很有參考和借鑒意義的。
論文鏈接:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-feature-splitting

01關于神經元與神經網絡
為了更好地理解Anthropic研究的意義,這里先簡要介紹幾個基本概念。神經元是神經網絡的基本組成部分,主要對數據進行輸入、計算和輸出。它的工作原理是對大腦神經元工作方式的模擬,接收一個或多個輸入,每個輸入都有一個對應的權重。這些輸入和權重的乘積被加總,然后加上一個偏置項。得到的總和被送入一個激活函數,激活函數的輸出就是這個神經單元的輸出。

神經元工作流程示意圖,其中a1-an為輸入向量的各個分量,w1-wn為神經元各個突觸的權重值,b為偏置項,f為傳遞函數,通常為非線性函數,t為神經元的最終輸出結果
前面說過神經元是神經網絡的基本組成形式,一定數目的神經元就可以組成一個神經網絡。這種系統源于對人類中樞神經系統的觀察研究與逆向應用,最初的概念早在上世紀40年代早期就提出了,1956年在一臺IBM 704電腦上進行了首次實踐,但此后就陷入沉寂,直到1975年“反向傳播算法”的發明,80年代中期“分布式并行處理”的思想(當時稱之為“聯結主義”)開始流行,又促使社會各界再次開始重視神經網絡。進入新世紀后,特別是2014年出現的“殘差神經網絡”概念,極大的突破了神經網絡的深度限制,隨著“深度學習”概念的提出和流行,神經元與神經網絡也水漲船高的愈發引人注目。
02對LLM等大模型的重要性
前面說過現在的LLM和大模型、AIGC等,基本都要依賴神經元與神經網絡才能發展壯大,能說會道的ChatGPT也正是依靠Transformer的神經網絡架構開發而來。LLM使用神經網絡來處理和生成文本,在訓練過程中,它們會學習如何預測文本序列中的下一個詞,或者給定一部分文本后續的可能內容。為了做到這一點,LLM需要理解語言的語法、語義、以及在一定程度上的上下文。
概括來說,神經元與神經網絡提供了處理和生成自然語言的計算框架,而LLM則通過這個框架來理解和生成文本。這也是很多人對目前的LLM,AIGC,甚至整個AI的原理都概括為“概率論+魔法”的主要原因之一。
客觀看來,這種說法有些偏激但的確也有道理,因為目前的大部分大模型,包括GPT系列在內,它們的生成原理的確可以這么歸納。
前面說過AI的工作方式可以視為對人類大腦工作方式的逆運用與模仿,而GPT之類使用的黑盒系統也在結構上模仿大腦,由海量的神經元組成。因此要想說明“可解釋性”就必須要了解每個神經元在做什么。
03Anthropic的研究
Anthropic的研究是基于Transformer模型進行的一次小規模實驗,將512個神經元分解成4000多個特征,并逐個分類排序,比如DNA序列、法律專業術語、HTTP請求、營養說明等。經過試驗和研究后發現,單個特征的行為比神經元行為更容易解釋且可控,同時每個特征在不同的大模型中基本上都是通用的。
為了驗證這一研究結果,Anthropic還創建了一個盲評系統,來比較單個特征和神經元的可解釋性,由圖中可見特征(紫紅色)的可解釋性得分要比神經元部分高了不少(青藍色)。

此外Anthropic還采用了自動解釋性方法,最終的結果也是特征得分高于神經元得分,不過這種方法較為復雜,此處不展開,詳見其論文。
Anthropic的這項研究的確意義非凡,不過早在幾個月前,OpenAI也曾做過類似的事情。在今年五月初,OpenAI在官網發布博客文章《語言模型可以解釋語言模型中的神經元》(Language models can explain neurons in language models),其中說到:“我們使用GPT-4自動編寫LLM中神經元行為的解釋,并為這些解釋評分,現在將GPT-2中每個神經元的這些(不*的)解釋和分數的數據集公布出來。”當時讀過這篇論文的人,幾乎都為OpenAI的奇思異想而感到震撼,頭皮發麻。
當時之所以有這項研究,主要是為了回答ChatGPT火遍全球的同時引起的一個問題:“發展到今天這一步,AI是怎樣實現這么強大的功能的?”
為了回答這個問題,OpenAI當時的做法可以簡單的概括為“用黑盒解釋黑盒”。而且OpenAI的這次研究成果,倒也不失為后續AI與大模型等相關企業進行研究探索了新的方向,自然意義非凡。前面說過AI可以視為是對大腦工作原理的逆運用,而LLM等大模型都使用的黑盒結構也都由海量神經元組成,也是在模仿大腦。
當時OpenAI給出的解釋過程分三步:
給GPT-4一個GPT-2已有的神經元,由GPT-4展示相關的文本序列和激活情況,產生一個對此類行為的解釋;
再次使用GPT-4,模擬被解釋的神經元會做什么;
比較二者的結果,根據匹配程度對GPT-4的解釋進行評分。
最終OpenAI表示GPT-4解釋了GPT-2中的全部約30萬個神經元,但是絕大多數的實際得分都偏低,只有勉強一千多個的得分高于0.8,這意味著神經元的大部分*激活行為都是這一千多個神經元引起的。
看來AI或許也在有意無意間遵循“二八定律”。當時這項研究成果很快在全球各大技術平臺也引起了廣泛關注。有人感慨AI進化的方式愈發先進:“未來就是用AI完善AI與大模型,會加速進化。”也有人批評其得分甚低:“對GPT-2的解釋尚且如此,那如何了解GPT-3.5和GPT-4內部結構呢?但這才是許多人現在更關注的答案。”
雖然電腦是模仿人腦的原理而發明,但人腦的結構其實并不高效,比如沒有存儲設備,神經元的通訊也是通過激素或荷爾蒙等化學方式來進行,相當的別扭。這種“落后”的“元器件”竟然能給人類如此高的智慧,說明人腦的強大主要在于架構。
當前探索智能的本質也是腦科學研究的中心任務之一,是了解人類自身、解密思維與智能成因的科學探索需要。腦科學與AI息息相關,既可以提升我們人類對自身奧秘的理解,也可以改善對腦部疾病的認知水平,同時相關科研成果也可以為發展類腦計算,突破傳統電腦架構的束縛提供依據。
但在當下,類腦計算還具有著巨大的空間,等待著科研力量填補。當下千億量級參數的大模型已經屢見不鮮了,如果把參數看成神經的突觸,大模型對應人腦的神經元,只有1億個。而1億個神經元與人腦千億級別的神經元,中間的差距有千倍之多,而這一差距或許也是走向AGI人類科學必須跨越的鴻溝。
OpenAI和Anthropic做的這些研究,也在無形中給我們的科學技術進步展示了一種可能性:當未來對的AI變得越發強大,甚至有一天真的超越人類,它也能在后續更多的前沿科技上為人類提供幫助;而對智能的研究,在生物大腦之外也有了AI系統作為新的研究對象,這也為破解智能之謎帶來了新的希望。
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...