zzzwww在线看片免费,国产精品1区在线,免费观看久久av
首頁 > 活動

【NeurIPS'24】阿里云 PAI 團隊論文被收錄為 Spotlight,并完成主題演講分享

2024/12/13 10:29      IT產業網


  當地時間12月10日,人工智能領域全球頂級學術會議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開。官方數據顯示,NeurIPS 2024共收到超一萬五千篇有效論文投稿,投稿量創新高,參會人數超萬人規模。

  阿里云 PAI 團隊的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄,并被列為 Spotlight,本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過對大語言模型真實知識能力的評估,揭示現有靜態評測集指標的可信性問題以及大語言模型知識掌握中的各種弱點,并指導改進的發展。

  同時,在本次會議中,PAI 團隊為參會者帶來主題演講分享、AI 工程化平臺產品能力 Demo。演講分享的議題為“可信 AI 的技術解讀與最佳實踐”,深入研討在大語言模型廣泛應用的當下,如何保障使用 AI 全流程的安全、可靠和可信。

  中選論文

  論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄,并入選 Spotlight。PertEval 是一款大型語言模型評估工具包,通過引入“知識不變擾動”的創新概念,對靜態基準(static benchmarks)進行改寫,從而更準確地揭示大型語言模型(LLMs)的真實知識能力。

  革新評估方式,提升可信度

  傳統上,評估 LLM 性能的方法依賴于靜態基準測試,例如 MMLU 和 C-Eval 等,這些方法雖然廣泛使用,但存在明顯的局限性和數據污染風險,導致對模型真實能力的認知失真。PertEval 通過應用知識不變擾動,確保了在不改變模型所識別和應用的知識前提下,對原始評估問題進行修改。這種方法緩解了由于記憶效應和數據污染造成的評估失真問題,顯著提高評估結果可靠性。

  揭示現有評估方法的不足

  研究團隊利用 PertEval 重新評估了六個代表性的 LLM,包括 GPT-4,并發現這些模型在MMLU 等靜態基準上的表現被顯著高估,其中 GPT-4 的表現被絕對高估了26%。進一步分析顯示,這種虛高的性能主要源自 LLM 面對不確定知識時表現出的猶豫不決,以及對正確答案的死記硬背現象。這表明當前的評估方法可能無法充分反映 LLM 在實際應用中的表現。

  推動行業進步,指導未來研究

  這項研究表明,為了更好地理解和改進 LLM 的能力,需要一種能夠體現其真實性能的評估方法。PertEval 提供了一種新的視角和工具,以幫助研究人員和開發者更準確地評估和優化 LLM。后續,計劃將 PertEval 整合到 PAI 平臺中,支持一鍵式開啟任意模型(無論是 API、開源還是微調后的模型)的真實能力評估。此外,還將通過 leadboard 的方式向開發者社區反饋主流 LLM 的“知識能力”度量,促進整個行業的健康發展。

  PertEval 的推出標志著在提升 LLM 評估準確性方面邁出的重要一步,為推動 AI 技術的進步提供了有力的支持。隨著這一工具的廣泛應用,我們期待看到更加可靠和公平的模型評估標準,以及由此帶來的技術創新。

  論文標題:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

  論文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

  論文地址:https://arxiv.org/abs/2405.19740

  演講分享

  演講標題:可信 AI 的技術解讀與最佳實踐

  Core Technical Interpretation and Best Practices of Responsible AI

  演講人:林偉 | 阿里云智能集團研究員、人工智能平臺 PAI 負責人

  演講為 NeurIPS 參會者帶來阿里云人工智能平臺 PAI 的企業級可信 AI 解決方案以及技術解析。PAI 平臺提供的安全、可靠和可信的 AI 解決方案,通過確保數據合規與安全、算法穩健性與可靠性、模型可信度和基礎設施安全與穩定性這四大關鍵要素得以實現。為實現可信 AI,PAI 團隊創新性地提出了 T 型安全架構。從垂直的角度考慮,從下至上保障云計算基礎設施、數據和模型、AI 應用的安全;從水平的角度考慮,覆蓋數據準備、模型訓練和模型部署的 AI 開發全鏈路。目前,可信 AI-公平性分析、可信 AI-錯誤分析功能均已上線,歡迎您前往阿里云人工智能平臺 PAI 體驗。

  更多原理介紹和操作步驟,請參考產品文檔 「人工智能平臺 PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。

  產品能力展示

  主題:AI Native 的大模型與 AIGC 工程平臺

  阿里云人工智能平臺 PAI 提供包含數據集管理、算力管理、模型工具鏈、模型開發、模型訓練、模型部署、AI 資產管理在內的功能模塊,內置100+種大模型最佳實踐,為用戶提供高性能、高穩定、企業級的大模型工程化能力。在本次平臺產品能力 Demo 環節,人工智能平臺 PAI 為大家帶來包含以下多個實操展示:

  1、以 Qwen2.5-Coder 為例,完成大語言模型微調訓練、部署和評測

  2、通過 PAI-EAS,搭建企業級大模型 RAG 對話系統

  3、通過 PAI-裁判員模型,實現高效易用的智能模型評測

  4、通過 PAI-Artlab,體驗自動化的一站式 AIGC 設計平臺

  現場數百位參會者體驗 PAI 平臺的能力。目前,所有 Demo 均已在線上開放,歡迎您前往阿里云人工智能平臺 PAI 體驗。

  如您對我們的論文或產品感興趣,或希望加入我們,歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到來!

IT產業網微信二維碼logo

  行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
国产在线观看91一区二区三区| 免费在线视频一区| 国产精品视区| 视频国产精品| 麻豆理论在线观看| 好看不卡的中文字幕| 亚洲一区有码| 久久成人亚洲| 999久久久91| 欧美在线不卡| 亚洲永久av| 五月激激激综合网色播| 日本91福利区| 一区二区91| 欧美一级一区| 亚洲欧美一级| 伊人久久大香线蕉av不卡| 日本a口亚洲| 日本成人在线一区| 亚洲欧美日本国产| av亚洲免费| 亚洲午夜精品久久久久久app| 日本不卡一区二区| 国产亚洲一区二区三区不卡 | 国产精品自拍区| 日韩av免费| 在线观看精品| 日韩国产欧美三级| 午夜国产精品视频| 国产精品普通话对白| 日本免费新一区视频| 无码日韩精品一区二区免费| 青青草国产成人99久久| 国产中文在线播放| 国内在线观看一区二区三区| 成人国产精选| 国产精品毛片在线| 日本午夜精品| 99视频精品全部免费在线视频| 蜜臀久久99精品久久久画质超高清 | 99热免费精品| 欧美精品不卡| 亚洲欧洲一区二区天堂久久| 欧美高清一区| 成人免费网站www网站高清 | 成人午夜精品| 免费看日韩精品| 日韩福利视频导航| 激情综合网五月| 国产精品亚洲欧美一级在线| 欧美一区二区三区久久精品| 欧洲av不卡| 国产精品亚洲成在人线| 欧美久久亚洲| 黄色精品视频| 国产精成人品2018| 国产精品hd| 蜜臀91精品国产高清在线观看| 蜜臀91精品一区二区三区| 欧美自拍一区| 久久男女视频| 亚洲欧美在线综合| 成人精品视频| 亚洲欧美网站| 黄色在线观看www| 亚洲女同一区| 日韩av不卡在线观看| 欧美中文日韩| 日韩深夜视频| 91精品蜜臀一区二区三区在线| 免费看久久久| 伊人久久av| 国产日产精品_国产精品毛片 | 亚洲资源av| 91精品一区二区三区综合在线爱| 精品久久免费| 国产视频一区二区在线播放| 丝袜美腿亚洲色图| 蜜桃视频在线观看一区二区| 亚洲视频二区| 国产精品二区不卡| 日韩成人亚洲| 国产a亚洲精品| 国产精品草草| 亚洲高清毛片| 亚洲一区二区免费看| 日本中文字幕一区二区视频| 综合激情网站| 国内亚洲精品| 亚洲视频二区| 国产不卡人人| 蜜桃tv一区二区三区| 麻豆久久久久久久| 香蕉久久久久久久av网站| 91精品久久久久久久久久不卡| 高清一区二区三区av| 国产精品久av福利在线观看| 久久一区二区三区喷水| 亚洲乱码视频| 国产精品亚洲片在线播放| 欧美精品黄色| 欧美日韩在线二区| 五月激情久久| 国产亚洲精品美女久久| 亚洲国产成人精品女人| 久久国产免费看| 日韩一区免费| 亚洲综合日本| 日本一区二区高清不卡| 黄色网一区二区| 欧美国产先锋| 免费在线亚洲欧美| 免费日韩av片| 日韩精品视频一区二区三区| 日韩在线成人| 免费精品视频最新在线| 亚洲一区日本| av中文字幕在线观看第一页 | 国产精品人人爽人人做我的可爱| 国产极品一区| 亚洲激情国产| 日本免费久久| 99综合视频| 清纯唯美亚洲综合一区| 蜜桃久久久久久| 日本亚洲欧洲无免费码在线| 毛片不卡一区二区| 国产v日韩v欧美v| 视频在线观看国产精品| 久久午夜影院| 久久九九电影| 免费精品一区| 综合日韩av| 久久精品av麻豆的观看方式| 久久久精品日韩| 久久一区精品| 综合激情婷婷| 夜夜嗨av一区二区三区网站四季av| 中文无码日韩欧| 日韩视频精品在线观看| 国产精品久久久久久久久久白浆 | 欧美一级鲁丝片| 亚洲综合日韩| 91久久国产| 亚洲欧美综合| 亚洲一区欧美激情| 亚洲高清二区| 色综合www| 红杏一区二区三区| 亚洲一区二区三区四区电影| 精品国产第一福利网站| 国产欧美日韩精品高清二区综合区| 久久99伊人| 波多视频一区| 亚洲一区二区三区四区五区午夜 | 国产亚洲一级| 日韩免费小视频| 亚洲天堂日韩在线| 亚洲特级毛片| 欧美日韩尤物久久| 国产精品自拍区| av日韩中文| 久久亚洲精精品中文字幕| 久久青草久久| 欧美日韩视频| 中文字幕中文字幕精品| 成人国产精品一区二区免费麻豆| 久久成人一区| 国产极品久久久久久久久波多结野| 国产成人久久精品一区二区三区| 成人日韩av| 国产高清久久| 精品少妇一区| 性欧美长视频| 亚洲天堂免费电影| 国产欧美日韩一区二区三区四区 | 国产丝袜一区| 久久久久久久久丰满| 在线精品国产亚洲| 久久久久免费| 亚洲一区有码| 91精品韩国| 香蕉久久久久久| 特黄特色欧美大片| 国产精品久久久久久久久久白浆| 久久三级福利| 国产精品qvod| 蜜桃久久久久久| 欧美午夜精彩| 久久精品系列| 视频一区国产视频| 欧美丝袜一区| 国产成人免费精品| 国产日产精品_国产精品毛片 | 欧美日韩夜夜| 国产精品嫩草99av在线| 久久影院午夜精品| 精品国产中文字幕第一页| 人人爽香蕉精品| 婷婷久久一区|