藍鯨新聞12月20日訊(記者 武靜靜)要衡量一個大模型能力是否夠強,評測是最直接的維度。大模型評測就是為大模型的一場“考試”,從不同大模型的表現中,不僅可以衡量現有技術水平,還能幫助識別大模型存在的問題,促進模型開發。
一個理想的假設是,如果一套大模型評測體系足夠科學,就可以一目了然看到國內外大模型能力彼此的差距。但現實要比理想復雜的多,如果把大模型測評看作一場考試,它要面對的大模型考生掌握了多種語言,跨領域知識豐富,且一旦讓他習得這次考試的考題,它可以依靠刷分獲得高成績。
幾十種大模型評測榜單眼花繚亂
據藍鯨新聞根據公開資料統計,全球針對大模型的評測榜單不下于50個,不同機構打造的大模型評測體系也不一樣。
經常有人看到戲劇性的一幕,某模型在某個榜單上排名前三,但在一些榜單上卻排在后面。這也引發了很多人的質疑,有人稱,如果做不到公平可信,評測的價值就不大。
在這種復雜環境下,如何把大模型評測體系做的更科學?更有公信力?為此,藍鯨新聞與國內最早探索大模型評測體系的機構,即智源研究院相關人士做了深入交流。
2023年,智源研究院推出了FlagEval(天秤)大語言模型評測體系,該評測體系覆蓋語言模型、多模態模型、語音語言模型等多種模態,并針對不同模態設計相應的評測指標和方法。12月19日,智源再次發布了迭代后新版本的FlagEval,目前FlagEval已覆蓋全球800多個開閉源模型,有超200萬條評測題目。
為了設置統一的起跑線,開源模型采用模型發布方推薦的推理代碼和運行環境。智源研究院智能評測組負責人楊熙告訴藍鯨新聞,評測中,所有閉源大模型題目都是智源通過調用公開的API,以普通用戶的角度來使用大模型,針對每個模型出的題目和訪問方式都是一樣的。“它可能不知道在評測,也不知道是測試數據。”
我們經常能看到大模型公司都在通過“曬自己在評測榜單中名列前茅”來顯示自己的能力地位。而業內,也不乏有些公司一味“刷分”來證明自己的模型能力。
針對一些大模型榜單的刷分動作花樣百出,有公司反復提交不同版本的模型直到得到滿意的成績為止,也有公司提前獲取評測數據集并在訓練過程中使用這些數據,從而讓模型對測試內容有所準備,導致評測結果不能真實反映模型的能力。更有甚者會針對特定評測數據集進行過度擬合,使得模型在這個特定的數據集上表現得非常好,但在實際應用中卻無法達到同樣的性能。
此外,由于提示詞等各種客觀因素,大模型評測確實面臨很多現實的挑戰,為了確保評測結果的公正性和可靠性,智源也采取了一系列措施來避免大模型在評測中刷分。
楊熙向藍鯨新聞舉了一個例子,在多模態和語言模型的評測中,智源通過引入更難的考題來拉開模型之間能力的差距。更新后的考題使得模型得分中位數從之前的51分降至47分,有效避免了因題目過于簡單而導致的分數虛高現象。
楊熙介紹,智源研究院使用的評測數據集不僅包括來自開源社區的公開數據集,也涵蓋了其自身構建的自建數據集,確保模型不會僅僅針對特定數據集進行優化。
讓大模型互相打辯論來一較高下
一個更新穎的方式讓大模型互相打辯論,一爭高下,來讓人直觀的感受到模型能力的差距。
和傳統的評測方法相比,辯論賽要求模型理解辯題、構建論點、反駁對方觀點,可以更全面地考察模型的思辨能力、邏輯推理能力、語言表達能力等綜合素質,這有助于促進模型在復雜任務上的能力提升,例如批判性思維、策略制定、說服力等。此前在2018年,OpenAI就提出了一種人工智能安全技術,訓練智能體對話題進行辯論,然后由人判斷輸贏。
智源在現場演示了一場大模型之前的實時辯論賽。其中一場辯題是:“功夫熊貓和孫悟空誰更適合做隊友?”
兩個大模型展開了三輪對話,不僅能反駁對方觀點,還能引經據典,談話張力十足。也是在這些互動中,普通人更直觀的感受到了不同模型的能力差異。
更多創新的大模型評測體系正在隨著技術而不斷演進。“榜單排名不應作為評價模型的唯一標準。”智源研究院副院長兼總工程師林詠華告訴藍鯨新聞。
林詠華認為,用戶在選擇模型時,應根據自身需求和應用場景,綜合考慮模型的各項指標,而非僅僅關注排名。此外,她也提到,評測需要更加關注模型的實際應用能力。單純的理論指標并不能完全反映模型在實際應用中的表現,評測應更加貼近實際使用場景,例如響應速度、用戶體驗等。
“大模型評測是一個復雜的系統工程,需要行業共同努力,不斷探索新的評測方法,構建更加高質量的評測數據集,并加強合作,推動統一評測標準的建立,才能更好地促進大模型技術的健康發展。”林詠華總結道。
榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...