精品久久在线,国内精品99,五月综合激情
首頁 > 資訊 > 評論

全球幾十種大模型評測,如何甄別可信度?

2024/12/24 11:16      藍鯨新聞 武靜靜


  藍鯨新聞12月20日訊(記者 武靜靜)要衡量一個大模型能力是否夠強,評測是最直接的維度。大模型評測就是為大模型的一場“考試”,從不同大模型的表現中,不僅可以衡量現有技術水平,還能幫助識別大模型存在的問題,促進模型開發。

  一個理想的假設是,如果一套大模型評測體系足夠科學,就可以一目了然看到國內外大模型能力彼此的差距。但現實要比理想復雜的多,如果把大模型測評看作一場考試,它要面對的大模型考生掌握了多種語言,跨領域知識豐富,且一旦讓他習得這次考試的考題,它可以依靠刷分獲得高成績。

  幾十種大模型評測榜單眼花繚亂

  據藍鯨新聞根據公開資料統計,全球針對大模型的評測榜單不下于50個,不同機構打造的大模型評測體系也不一樣。

  經常有人看到戲劇性的一幕,某模型在某個榜單上排名前三,但在一些榜單上卻排在后面。這也引發了很多人的質疑,有人稱,如果做不到公平可信,評測的價值就不大。

  在這種復雜環境下,如何把大模型評測體系做的更科學?更有公信力?為此,藍鯨新聞與國內最早探索大模型評測體系的機構,即智源研究院相關人士做了深入交流。

  2023年,智源研究院推出了FlagEval(天秤)大語言模型評測體系,該評測體系覆蓋語言模型、多模態模型、語音語言模型等多種模態,并針對不同模態設計相應的評測指標和方法。12月19日,智源再次發布了迭代后新版本的FlagEval,目前FlagEval已覆蓋全球800多個開閉源模型,有超200萬條評測題目。

  為了設置統一的起跑線,開源模型采用模型發布方推薦的推理代碼和運行環境。智源研究院智能評測組負責人楊熙告訴藍鯨新聞,評測中,所有閉源大模型題目都是智源通過調用公開的API,以普通用戶的角度來使用大模型,針對每個模型出的題目和訪問方式都是一樣的。“它可能不知道在評測,也不知道是測試數據。”

  我們經常能看到大模型公司都在通過“曬自己在評測榜單中名列前茅”來顯示自己的能力地位。而業內,也不乏有些公司一味“刷分”來證明自己的模型能力。

  針對一些大模型榜單的刷分動作花樣百出,有公司反復提交不同版本的模型直到得到滿意的成績為止,也有公司提前獲取評測數據集并在訓練過程中使用這些數據,從而讓模型對測試內容有所準備,導致評測結果不能真實反映模型的能力。更有甚者會針對特定評測數據集進行過度擬合,使得模型在這個特定的數據集上表現得非常好,但在實際應用中卻無法達到同樣的性能。

  此外,由于提示詞等各種客觀因素,大模型評測確實面臨很多現實的挑戰,為了確保評測結果的公正性和可靠性,智源也采取了一系列措施來避免大模型在評測中刷分。

  楊熙向藍鯨新聞舉了一個例子,在多模態和語言模型的評測中,智源通過引入更難的考題來拉開模型之間能力的差距。更新后的考題使得模型得分中位數從之前的51分降至47分,有效避免了因題目過于簡單而導致的分數虛高現象。

  楊熙介紹,智源研究院使用的評測數據集不僅包括來自開源社區的公開數據集,也涵蓋了其自身構建的自建數據集,確保模型不會僅僅針對特定數據集進行優化。

  讓大模型互相打辯論來一較高下

  一個更新穎的方式讓大模型互相打辯論,一爭高下,來讓人直觀的感受到模型能力的差距。

  和傳統的評測方法相比,辯論賽要求模型理解辯題、構建論點、反駁對方觀點,可以更全面地考察模型的思辨能力、邏輯推理能力、語言表達能力等綜合素質,這有助于促進模型在復雜任務上的能力提升,例如批判性思維、策略制定、說服力等。此前在2018年,OpenAI就提出了一種人工智能安全技術,訓練智能體對話題進行辯論,然后由人判斷輸贏。

  智源在現場演示了一場大模型之前的實時辯論賽。其中一場辯題是:“功夫熊貓和孫悟空誰更適合做隊友?”

  兩個大模型展開了三輪對話,不僅能反駁對方觀點,還能引經據典,談話張力十足。也是在這些互動中,普通人更直觀的感受到了不同模型的能力差異。

  更多創新的大模型評測體系正在隨著技術而不斷演進。“榜單排名不應作為評價模型的唯一標準。”智源研究院副院長兼總工程師林詠華告訴藍鯨新聞。

  林詠華認為,用戶在選擇模型時,應根據自身需求和應用場景,綜合考慮模型的各項指標,而非僅僅關注排名。此外,她也提到,評測需要更加關注模型的實際應用能力。單純的理論指標并不能完全反映模型在實際應用中的表現,評測應更加貼近實際使用場景,例如響應速度、用戶體驗等。

  “大模型評測是一個復雜的系統工程,需要行業共同努力,不斷探索新的評測方法,構建更加高質量的評測數據集,并加強合作,推動統一評測標準的建立,才能更好地促進大模型技術的健康發展。”林詠華總結道。

IT產業網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
成人免费一区| 香蕉国产精品| 国产欧美日韩一区二区三区四区| 日本一区二区高清不卡| 中文精品电影| 亚洲深爱激情| 香蕉国产精品| 久久九九电影| 毛片不卡一区二区| 日本在线视频一区二区| 91久久久久| 香蕉人人精品| 久久九九精品| 日韩和的一区二在线| 你懂的国产精品| 欧美日韩夜夜| 日韩超碰人人爽人人做人人添| 日韩精品91| 精品国产成人| 免费精品一区| 欧美91在线|欧美| 久久精品 人人爱| 视频一区二区国产| 日韩午夜免费| 国产精品女主播一区二区三区| 成人免费网站www网站高清| 成人国产精品久久| 国产高潮在线| 国产亚洲一区二区手机在线观看| 精品亚洲免a| 成人在线丰满少妇av| 黄色网一区二区| 91精品日本| 国产欧美大片| 久久久国产精品入口麻豆| 国产午夜一区| 久久免费精品| 国产精品二区不卡| 国产精品专区免费| 99久久久国产精品美女| 99久久精品国产亚洲精品| 久久久一本精品| 日韩不卡免费高清视频| 欧美日韩高清| 亚欧洲精品视频在线观看| 91在线成人| 97精品在线| 精精国产xxxx视频在线野外| 免费精品国产| 日韩高清一区在线| 欧美激情99| 精品美女久久| 三级欧美在线一区| 欧美日韩国产探花| 欧美久久亚洲| 亚洲欧美日韩国产一区| 日韩视频久久| 久久国产免费看| 成人精品国产亚洲| 亚洲福利免费| 欧美一区网站| 三级精品视频| 国产视频一区免费看| 国产精品视频3p| 久久在线视频免费观看| 综合亚洲视频| 97se综合| 久久国产精品亚洲77777| 91欧美精品| 亚洲欧美伊人| 国产精选一区| 女主播福利一区| 美女高潮久久久| 男女男精品网站| 91嫩草亚洲精品| 久久亚洲图片| 人在线成免费视频| 亚洲精品婷婷| 99精品网站| 精品国产欧美日韩一区二区三区| 黄页网站一区| 青青青免费在线视频| 日本少妇一区二区| 夜久久久久久| 99久久久久久中文字幕一区| 欧美国产另类| 日韩欧美久久| 久久国产主播| 国产精品二区影院| 丝袜亚洲另类欧美| 亚洲天堂1区| 国产精品网站在线看| 99久久夜色精品国产亚洲1000部| 四虎在线精品| 99在线精品免费视频九九视| 国产欧美自拍| 日韩精品一二三四| 婷婷综合网站| 97精品一区| 欧美激情五月| 欧美日韩国产一区二区在线观看| 自拍日韩欧美| 不卡在线一区| 亚洲天堂久久| 日本高清不卡一区二区三区视频| 久久精品国产免费| 国产毛片久久久| 日韩免费精品| 日韩一区欧美二区| 石原莉奈在线亚洲二区| 免费欧美一区| 欧美丝袜一区| 欧美午夜精彩| 91成人网在线观看| 亚洲精品在线观看91| 极品日韩av| 狠狠干成人综合网| 日韩视频久久| 综合一区在线| 欧美一区精品| 国产福利一区二区精品秒拍| 美女国产精品久久久| 精品视频免费| 亚洲女同av| 日韩福利一区| 美女亚洲一区| 中文字幕av亚洲精品一部二部| 亚洲精选91| 国产黄色精品| 色婷婷久久久| 婷婷亚洲综合| 日韩精品免费视频一区二区三区| 蜜臀精品久久久久久蜜臀| 一区二区三区四区日韩| 日本午夜精品视频在线观看| 日韩专区视频网站| 国产精品欧美三级在线观看| 麻豆国产91在线播放| 日韩三区在线| 蜜臀精品久久久久久蜜臀 | 999久久久亚洲| 韩日一区二区三区| 中文字幕日韩欧美精品高清在线| 欧美亚洲专区| 成人羞羞视频播放网站| 蜜桃久久精品一区二区| 国产精品自拍区| 日韩在线精品| 亚洲欧洲专区| 色一区二区三区四区| 久久天堂精品| 婷婷综合电影| 欧美日韩尤物久久| 色8久久久久| аⅴ资源天堂资源库在线| 91精品91| 久久免费福利| 日韩视频一区| 久久一区国产| 视频一区免费在线观看| 麻豆精品视频在线观看| 日韩亚洲国产欧美| 国产精品hd| 丝袜亚洲另类欧美| 另类专区亚洲| 日韩avvvv在线播放| 成人羞羞在线观看网站| 日韩二区在线观看| 国产99久久久国产精品成人免费| 日韩激情综合| 欧美 日韩 国产一区二区在线视频| 欧美精品国产白浆久久久久| 999国产精品999久久久久久| 青青国产91久久久久久| 女同性一区二区三区人了人一| 麻豆国产精品一区二区三区 | 美女久久久久久| 午夜在线精品| 99精品美女| а√天堂8资源在线| 日韩av在线免费观看不卡| 国产字幕视频一区二区| 欧美韩日一区| 久久久久久亚洲精品美女| 日本va欧美va精品发布| 久久成人一区| 日韩视频精品在线观看| 久久国产亚洲精品| 国产白浆在线免费观看| 久久精品国产999大香线蕉| 欧美日韩黄网站| 在线亚洲欧美| 欧美日韩视频| 亚洲国内欧美| 久久精品播放| 99精品综合| 91久久国产| 激情丁香综合| 亚洲精品国产偷自在线观看| 久久国产日本精品|