全球幾十種大模型評測，如何甄別可信度？

2024/12/24 11:16 藍鯨新聞武靜靜

　　藍鯨新聞12月20日訊(記者武靜靜)要衡量一個大模型能力是否夠強，評測是最直接的維度。大模型評測就是為大模型的一場“考試”，從不同大模型的表現中，不僅可以衡量現有技術水平，還能幫助識別大模型存在的問題，促進模型開發。

　　一個理想的假設是，如果一套大模型評測體系足夠科學，就可以一目了然看到國內外大模型能力彼此的差距。但現實要比理想復雜的多，如果把大模型測評看作一場考試，它要面對的大模型考生掌握了多種語言，跨領域知識豐富，且一旦讓他習得這次考試的考題，它可以依靠刷分獲得高成績。

　　幾十種大模型評測榜單眼花繚亂

　　據藍鯨新聞根據公開資料統計，全球針對大模型的評測榜單不下于50個，不同機構打造的大模型評測體系也不一樣。

　　經常有人看到戲劇性的一幕，某模型在某個榜單上排名前三，但在一些榜單上卻排在后面。這也引發了很多人的質疑，有人稱，如果做不到公平可信，評測的價值就不大。

　　在這種復雜環境下，如何把大模型評測體系做的更科學?更有公信力?為此，藍鯨新聞與國內最早探索大模型評測體系的機構，即智源研究院相關人士做了深入交流。

　　2023年，智源研究院推出了FlagEval(天秤)大語言模型評測體系，該評測體系覆蓋語言模型、多模態模型、語音語言模型等多種模態，并針對不同模態設計相應的評測指標和方法。12月19日，智源再次發布了迭代后新版本的FlagEval，目前FlagEval已覆蓋全球800多個開閉源模型，有超200萬條評測題目。

　　為了設置統一的起跑線，開源模型采用模型發布方推薦的推理代碼和運行環境。智源研究院智能評測組負責人楊熙告訴藍鯨新聞，評測中，所有閉源大模型題目都是智源通過調用公開的API，以普通用戶的角度來使用大模型，針對每個模型出的題目和訪問方式都是一樣的。“它可能不知道在評測，也不知道是測試數據。”

　　我們經常能看到大模型公司都在通過“曬自己在評測榜單中名列前茅”來顯示自己的能力地位。而業內，也不乏有些公司一味“刷分”來證明自己的模型能力。

　　針對一些大模型榜單的刷分動作花樣百出，有公司反復提交不同版本的模型直到得到滿意的成績為止，也有公司提前獲取評測數據集并在訓練過程中使用這些數據，從而讓模型對測試內容有所準備，導致評測結果不能真實反映模型的能力。更有甚者會針對特定評測數據集進行過度擬合，使得模型在這個特定的數據集上表現得非常好，但在實際應用中卻無法達到同樣的性能。

　　此外，由于提示詞等各種客觀因素，大模型評測確實面臨很多現實的挑戰，為了確保評測結果的公正性和可靠性，智源也采取了一系列措施來避免大模型在評測中刷分。

　　楊熙向藍鯨新聞舉了一個例子，在多模態和語言模型的評測中，智源通過引入更難的考題來拉開模型之間能力的差距。更新后的考題使得模型得分中位數從之前的51分降至47分，有效避免了因題目過于簡單而導致的分數虛高現象。

　　楊熙介紹，智源研究院使用的評測數據集不僅包括來自開源社區的公開數據集，也涵蓋了其自身構建的自建數據集，確保模型不會僅僅針對特定數據集進行優化。

　　讓大模型互相打辯論來一較高下

　　一個更新穎的方式讓大模型互相打辯論，一爭高下，來讓人直觀的感受到模型能力的差距。

　　和傳統的評測方法相比，辯論賽要求模型理解辯題、構建論點、反駁對方觀點，可以更全面地考察模型的思辨能力、邏輯推理能力、語言表達能力等綜合素質，這有助于促進模型在復雜任務上的能力提升，例如批判性思維、策略制定、說服力等。此前在2018年，OpenAI就提出了一種人工智能安全技術，訓練智能體對話題進行辯論，然后由人判斷輸贏。

　　智源在現場演示了一場大模型之前的實時辯論賽。其中一場辯題是：“功夫熊貓和孫悟空誰更適合做隊友?”

　　兩個大模型展開了三輪對話，不僅能反駁對方觀點，還能引經據典，談話張力十足。也是在這些互動中，普通人更直觀的感受到了不同模型的能力差異。

　　更多創新的大模型評測體系正在隨著技術而不斷演進。“榜單排名不應作為評價模型的唯一標準。”智源研究院副院長兼總工程師林詠華告訴藍鯨新聞。

　　林詠華認為，用戶在選擇模型時，應根據自身需求和應用場景，綜合考慮模型的各項指標，而非僅僅關注排名。此外，她也提到，評測需要更加關注模型的實際應用能力。單純的理論指標并不能完全反映模型在實際應用中的表現，評測應更加貼近實際使用場景，例如響應速度、用戶體驗等。

　　“大模型評測是一個復雜的系統工程，需要行業共同努力，不斷探索新的評測方法，構建更加高質量的評測數據集，并加強合作，推動統一評測標準的建立，才能更好地促進大模型技術的健康發展。”林詠華總結道。

IT產業網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

全球幾十種大模型評測，如何甄別可信度？

最新新聞

熱門新聞

新動態

關注度

最話題

全球幾十種大模型評測，如何甄別可信度？

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題

全球幾十種大模型評測，如何甄別可信度？