大語言模型前所未有的突破

2023/10/12 16:30 微信公眾號：億歐網番攤123

　　就在剛剛過去不久的九月底，有“ChatGPT最強平替”之稱的Anthropic拿到了亞馬遜的一筆總價40億美元的投資，之后不久他們就發表了一篇論文《朝向單義性：通過詞典學習分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)，在這篇論文里詳細闡述了他們解釋神經網絡與大語言模型(經常被簡稱為LLM)行為的方法。

　　Anthropic之所以能有“ChatGPT最強平替”的別名，主要是因為其創始成員幾乎都參與開發過GPT系列的早期版本，特別是GPT-2和GPT-3。而眾所周知GPT系列真正引人關注是從GPT-3之后的3.5開始的，老話說“羅馬不是一天建成的”。而且Anthropic的AIGC產品Claude與ChatGPT相比也不遜色多少，今年夏天推出了最新版Claude 2，英國《衛報》對此評論稱“訓練時以安全性為首要考慮，可以稱為‘合憲式AI’或‘合憲式機器人’”，一個全新的AI或機器人分類與研究也可能就將由此開啟。

　　現在市面上流行的LLM基本都是基于海量的神經網絡而打造，而神經網絡又是基于海量數據訓練而來。在此基礎上的AIGC，如文本、圖片、視頻等多模態或跨模態內容，雖然也可以保證可觀的準確性且數量上也日益豐富，但可解釋性始終是難以突破的難關。

　　舉個例子，現在隨便找個AI問1+1=?它們都會說1+1=2，但都無法解釋這個過程是如何產生的。即便能進行簡單解釋，也只是基于語義上的膚淺理解。就像我們人類睡覺時的夢境一樣，人人都會做夢也都能大致說出夢境內容，但對夢境的成因幾千年來始終都沒有合理和統一的解釋。

　　ChatGPT等LLM經常出現無序、混亂、虛假信息等情況，這種行為被稱為“AI幻覺”，也就是常說的一本正經的胡說八道，主要是因為人類無法控制AI與大模型內的神經網絡行為。所以Anthropic的研究對于增強LLM，甚至AI與大模型整體的準確率、安全性，降低有害內容輸出的幫助都非常大，這篇論文還是很有參考和借鑒意義的。

　　論文鏈接：https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-feature-splitting

　　01關于神經元與神經網絡

　　為了更好地理解Anthropic研究的意義，這里先簡要介紹幾個基本概念。神經元是神經網絡的基本組成部分，主要對數據進行輸入、計算和輸出。它的工作原理是對大腦神經元工作方式的模擬，接收一個或多個輸入，每個輸入都有一個對應的權重。這些輸入和權重的乘積被加總，然后加上一個偏置項。得到的總和被送入一個激活函數，激活函數的輸出就是這個神經單元的輸出。

　　神經元工作流程示意圖，其中a1-an為輸入向量的各個分量，w1-wn為神經元各個突觸的權重值，b為偏置項，f為傳遞函數，通常為非線性函數，t為神經元的最終輸出結果

　　前面說過神經元是神經網絡的基本組成形式，一定數目的神經元就可以組成一個神經網絡。這種系統源于對人類中樞神經系統的觀察研究與逆向應用，最初的概念早在上世紀40年代早期就提出了，1956年在一臺IBM 704電腦上進行了首次實踐，但此后就陷入沉寂，直到1975年“反向傳播算法”的發明，80年代中期“分布式并行處理”的思想(當時稱之為“聯結主義”)開始流行，又促使社會各界再次開始重視神經網絡。進入新世紀后，特別是2014年出現的“殘差神經網絡”概念，極大的突破了神經網絡的深度限制，隨著“深度學習”概念的提出和流行，神經元與神經網絡也水漲船高的愈發引人注目。

　　02對LLM等大模型的重要性

　　前面說過現在的LLM和大模型、AIGC等，基本都要依賴神經元與神經網絡才能發展壯大，能說會道的ChatGPT也正是依靠Transformer的神經網絡架構開發而來。LLM使用神經網絡來處理和生成文本，在訓練過程中，它們會學習如何預測文本序列中的下一個詞，或者給定一部分文本后續的可能內容。為了做到這一點，LLM需要理解語言的語法、語義、以及在一定程度上的上下文。

　　概括來說，神經元與神經網絡提供了處理和生成自然語言的計算框架，而LLM則通過這個框架來理解和生成文本。這也是很多人對目前的LLM，AIGC，甚至整個AI的原理都概括為“概率論+魔法”的主要原因之一。

　　客觀看來，這種說法有些偏激但的確也有道理，因為目前的大部分大模型，包括GPT系列在內，它們的生成原理的確可以這么歸納。

　　前面說過AI的工作方式可以視為對人類大腦工作方式的逆運用與模仿，而GPT之類使用的黑盒系統也在結構上模仿大腦，由海量的神經元組成。因此要想說明“可解釋性”就必須要了解每個神經元在做什么。

　　03Anthropic的研究

　　Anthropic的研究是基于Transformer模型進行的一次小規模實驗，將512個神經元分解成4000多個特征，并逐個分類排序，比如DNA序列、法律專業術語、HTTP請求、營養說明等。經過試驗和研究后發現，單個特征的行為比神經元行為更容易解釋且可控，同時每個特征在不同的大模型中基本上都是通用的。

　　為了驗證這一研究結果，Anthropic還創建了一個盲評系統，來比較單個特征和神經元的可解釋性，由圖中可見特征(紫紅色)的可解釋性得分要比神經元部分高了不少(青藍色)。

　　此外Anthropic還采用了自動解釋性方法，最終的結果也是特征得分高于神經元得分，不過這種方法較為復雜，此處不展開，詳見其論文。

　　Anthropic的這項研究的確意義非凡，不過早在幾個月前，OpenAI也曾做過類似的事情。在今年五月初，OpenAI在官網發布博客文章《語言模型可以解釋語言模型中的神經元》(Language models can explain neurons in language models)，其中說到：“我們使用GPT-4自動編寫LLM中神經元行為的解釋，并為這些解釋評分，現在將GPT-2中每個神經元的這些(不*的)解釋和分數的數據集公布出來。”當時讀過這篇論文的人，幾乎都為OpenAI的奇思異想而感到震撼，頭皮發麻。

　　當時之所以有這項研究，主要是為了回答ChatGPT火遍全球的同時引起的一個問題：“發展到今天這一步，AI是怎樣實現這么強大的功能的？”

　　為了回答這個問題，OpenAI當時的做法可以簡單的概括為“用黑盒解釋黑盒”。而且OpenAI的這次研究成果，倒也不失為后續AI與大模型等相關企業進行研究探索了新的方向，自然意義非凡。前面說過AI可以視為是對大腦工作原理的逆運用，而LLM等大模型都使用的黑盒結構也都由海量神經元組成，也是在模仿大腦。

　　當時OpenAI給出的解釋過程分三步：

　　給GPT-4一個GPT-2已有的神經元，由GPT-4展示相關的文本序列和激活情況，產生一個對此類行為的解釋;

　　再次使用GPT-4，模擬被解釋的神經元會做什么;

　　比較二者的結果，根據匹配程度對GPT-4的解釋進行評分。

　　最終OpenAI表示GPT-4解釋了GPT-2中的全部約30萬個神經元，但是絕大多數的實際得分都偏低，只有勉強一千多個的得分高于0.8，這意味著神經元的大部分*激活行為都是這一千多個神經元引起的。

　　看來AI或許也在有意無意間遵循“二八定律”。當時這項研究成果很快在全球各大技術平臺也引起了廣泛關注。有人感慨AI進化的方式愈發先進：“未來就是用AI完善AI與大模型，會加速進化。”也有人批評其得分甚低：“對GPT-2的解釋尚且如此，那如何了解GPT-3.5和GPT-4內部結構呢?但這才是許多人現在更關注的答案。”

　　雖然電腦是模仿人腦的原理而發明，但人腦的結構其實并不高效，比如沒有存儲設備，神經元的通訊也是通過激素或荷爾蒙等化學方式來進行，相當的別扭。這種“落后”的“元器件”竟然能給人類如此高的智慧，說明人腦的強大主要在于架構。

　　當前探索智能的本質也是腦科學研究的中心任務之一，是了解人類自身、解密思維與智能成因的科學探索需要。腦科學與AI息息相關，既可以提升我們人類對自身奧秘的理解，也可以改善對腦部疾病的認知水平，同時相關科研成果也可以為發展類腦計算，突破傳統電腦架構的束縛提供依據。

　　但在當下，類腦計算還具有著巨大的空間，等待著科研力量填補。當下千億量級參數的大模型已經屢見不鮮了，如果把參數看成神經的突觸，大模型對應人腦的神經元，只有1億個。而1億個神經元與人腦千億級別的神經元，中間的差距有千倍之多，而這一差距或許也是走向AGI人類科學必須跨越的鴻溝。

　　OpenAI和Anthropic做的這些研究，也在無形中給我們的科學技術進步展示了一種可能性：當未來對的AI變得越發強大，甚至有一天真的超越人類，它也能在后續更多的前沿科技上為人類提供幫助;而對智能的研究，在生物大腦之外也有了AI系統作為新的研究對象，這也為破解智能之謎帶來了新的希望。

IT產業網微信二維碼logo

　　行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

大語言模型前所未有的突破

最新新聞

熱門新聞

新動態

關注度

最話題

大語言模型前所未有的突破

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題