當地時間12月10日,人工智能領域全球頂級學術會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數據顯示,NeurIPS 2024共收到超一萬五千篇有效論文投稿,投稿量創新高,參會人數超萬人規模。
阿里云 PAI 團隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄,并被列為 Spotlight,本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過對大語言模型真實知識能力的評估,揭示現有靜態評測集指標的可信性問題以及大語言模型知識掌握中的各種弱點,并指導改進的發展。
同時,在本次會議中,PAI 團隊為參會者帶來主題演講分享、AI 工程化平臺產品能力 Demo。演講分享的議題為“可信 AI 的技術解讀與最佳實踐”,深入研討在大語言模型廣泛應用的當下,如何保障使用 AI 全流程的安全、可靠和可信。
中選論文
論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄,并入選 Spotlight。PertEval 是一款大型語言模型評估工具包,通過引入“知識不變擾動”的創新概念,對靜態基準(static benchmarks)進行改寫,從而更準確地揭示大型語言模型(LLMs)的真實知識能力。
![]()

革新評估方式,提升可信度
傳統上,評估 LLM 性能的方法依賴于靜態基準測試,例如 MMLU 和 C-Eval 等,這些方法雖然廣泛使用,但存在明顯的局限性和數據污染風險,導致對模型真實能力的認知失真。PertEval 通過應用知識不變擾動,確保了在不改變模型所識別和應用的知識前提下,對原始評估問題進行修改。這種方法緩解了由于記憶效應和數據污染造成的評估失真問題,顯著提高評估結果可靠性。
揭示現有評估方法的不足
研究團隊利用 PertEval 重新評估了六個代表性的 LLM,包括 GPT-4,并發現這些模型在MMLU 等靜態基準上的表現被顯著高估,其中 GPT-4 的表現被絕對高估了26%。進一步分析顯示,這種虛高的性能主要源自 LLM 面對不確定知識時表現出的猶豫不決,以及對正確答案的死記硬背現象。這表明當前的評估方法可能無法充分反映 LLM 在實際應用中的表現。
推動行業進步,指導未來研究
這項研究表明,為了更好地理解和改進 LLM 的能力,需要一種能夠體現其真實性能的評估方法。PertEval 提供了一種新的視角和工具,以幫助研究人員和開發者更準確地評估和優化 LLM。后續,計劃將 PertEval 整合到 PAI 平臺中,支持一鍵式開啟任意模型(無論是 API、開源還是微調后的模型)的真實能力評估。此外,還將通過 leadboard 的方式向開發者社區反饋主流 LLM 的“知識能力”度量,促進整個行業的健康發展。
PertEval 的推出標志著在提升 LLM 評估準確性方面邁出的重要一步,為推動 AI 技術的進步提供了有力的支持。隨著這一工具的廣泛應用,我們期待看到更加可靠和公平的模型評估標準,以及由此帶來的技術創新。
論文標題:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations
論文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin
論文地址:https://arxiv.org/abs/2405.19740
演講分享
演講標題:可信 AI 的技術解讀與最佳實踐
Core Technical Interpretation and Best Practices of Responsible AI
演講人:林偉 | 阿里云智能集團研究員、人工智能平臺 PAI 負責人

演講為 NeurIPS 參會者帶來阿里云人工智能平臺 PAI 的企業級可信 AI 解決方案以及技術解析。PAI 平臺提供的安全、可靠和可信的 AI 解決方案,通過確保數據合規與安全、算法穩健性與可靠性、模型可信度和基礎設施安全與穩定性這四大關鍵要素得以實現。為實現可信 AI,PAI 團隊創新性地提出了 T 型安全架構。從垂直的角度考慮,從下至上保障云計算基礎設施、數據和模型、AI 應用的安全;從水平的角度考慮,覆蓋數據準備、模型訓練和模型部署的 AI 開發全鏈路。目前,可信 AI-公平性分析、可信 AI-錯誤分析功能均已上線,歡迎您前往阿里云人工智能平臺 PAI 體驗。
更多原理介紹和操作步驟,請參考產品文檔 「人工智能平臺 PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。
產品能力展示
主題:AI Native 的大模型與 AIGC 工程平臺
阿里云人工智能平臺 PAI 提供包含數據集管理、算力管理、模型工具鏈、模型開發、模型訓練、模型部署、AI 資產管理在內的功能模塊,內置100+種大模型最佳實踐,為用戶提供高性能、高穩定、企業級的大模型工程化能力。在本次平臺產品能力 Demo 環節,人工智能平臺 PAI 為大家帶來包含以下多個實操展示:
1、以 Qwen2.5-Coder 為例,完成大語言模型微調訓練、部署和評測
2、通過 PAI-EAS,搭建企業級大模型 RAG 對話系統
3、通過 PAI-裁判員模型,實現高效易用的智能模型評測
4、通過 PAI-Artlab,體驗自動化的一站式 AIGC 設計平臺
現場數百位參會者體驗 PAI 平臺的能力。目前,所有 Demo 均已在線上開放,歡迎您前往阿里云人工智能平臺 PAI 體驗。

如您對我們的論文或產品感興趣,或希望加入我們,歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到來!
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...