欧美亚洲三区,欧美激情福利,欧美精品九九
首頁 > 資訊 > 財報

LMSYS盲測競技場成全球大模型評測金標準,“黑馬”Yi-Large 登頂金字塔尖

2024/05/22 09:47      DoNews 楊亮


  上周,一個名為“im-also-a-good-gpt2-chatbot”的神秘模型突然現身大模型競技場Chatbot Arena,排名直接超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家國際大廠的當家基座模型。

  隨后OpenAI揭開“im-also-a-good-gpt2-chatbot”神秘面紗——正是GPT-4o的測試版本,OpenAI CEO Sam Altman也在Gpt-4o發布后親自轉帖引用 LMSYS arena 盲測擂臺的測試結果。

  由開放研究組織 LMSYS Org (Large Model Systems Organization)發布的Chatbot Arena已經成為OpenAI、Anthropic、Google、Meta等國際大廠“龍爭虎斗”的當紅擂臺,以最開放與科學的評測方法,在大模型進入第二年之際開放群眾投票。

  時隔一周,在最新更新的排名中,類“im-also-a-good-gpt2-chatbot”的黑馬故事再次上演,這次排名飛速上漲的模型正是由中國大模型公司零一萬物提交的“Yi-Large” 千億參數閉源大模型。

  在 LMSYS 盲測競技場最新排名中,零一萬物的最新千億參數模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經超過Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與GPT4o 并列世界第一。

  零一萬物也由此成為了總榜上唯一一個自家模型進入排名前十的中國大模型企業。在總榜上,GPT系列占了前10的4個,以機構排序,零一萬物 01.AI 僅次于 OpenAI, Google, Anthropic之后,以開放金標準正式進擊國際頂級大模型企業陣營。

  美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果,來自至今積累超過 1170萬的全球用戶真實投票數:

  值得一提的是,為了提高 Chatbot Arena 查詢的整體質量,LMSYS還實施了重復數據刪除機制,并出具了去除冗余查詢后的榜單。這個新機制旨在消除過度冗余的用戶提示,如過度重復的“你好”。這類冗余提示可能會影響排行榜的準確性。LMSYS公開表示,去除冗余查詢后的榜單將在后續成為默認榜單。

  在去除冗余查詢后的總榜中, Yi-Large的Elo得分更進一步,與Claude 3 Opus、GPT-4-0125-preview并列第四。

  LMSYS 中文榜:GPT-4o 和 Yi-Large 并列第一

  值得國人關注的是,國內大模型廠商中,智譜GLM4、阿里Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。

  “最燒腦” 公開評測:Yi-Large 位居全球第二

  在分類別的排行榜中,Yi-Large同樣表現亮眼。編程能力、長提問及最新推出的 “艱難提示詞” 的三個評測是LMSYS所給出的針對性榜單,以專業性與高難度著稱,可稱作大模型“最燒腦”的公開盲測。

  在編程能力(Coding)排行榜上,Yi-Large 的Elo分數超過Anthropic 當家旗艦模型 Claude 3 Opus,僅低于GPT-4o,與GPT-4-Turbo、GPT-4并列第二。

  長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

  艱難提示詞(Hard Prompts)則是LMSYS為了響應社區要求,于此次新增的排行榜類別。這一類別包含來自 Arena 的用戶提交的提示,這些提示則經過專門設計,更加復雜、要求更高且更加嚴格。LMSYS認為,這類提示能夠測試最新語言模型面臨挑戰性任務時的性能。在這一榜單上,Yi-Large 處理艱難提示的能力也得到印證,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

  LMSYS Chatbot Arena:后benchmark時代的風向標

  如何為大模型給出客觀公正的評測一直是業內廣泛關注的話題。為了在固定題庫中取得一份亮眼的評測分數,業內出現了各式各樣的“刷榜”方法:將各種各樣的評測基準訓練集直接混入模型訓練集中、用未對齊的模型跟已經對齊的模型做對比等等,對嘗試了解大模型真實能力的人,的確呈現“眾說紛紜”的現場,更讓大模型的投資人摸不著北。

  在經過2023年一系列錯綜復雜、亂象叢生的大模型評測浪潮之后,業界對于評測集的專業性和客觀性給予了更高的重視。而LMSYS Org 發布的Chatbot Arena憑借其新穎的“競技場”形式、測試團隊的嚴謹性,成為目前全球業界公認的基準標桿,連 OpenAI 在 GPT-4o 正式發布前,都在 LMSYS 上匿名預發布和預測試。

  在海外大廠高管中,不只Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的性能。

  OpenAI創始團隊成員 Andrej Karpathy甚至公開表示,Chatbot Arena is “awesome”。

  自身的旗艦模型發布后第一時間提交給LMSYS,這一行為本身就展現了海外頭部大廠對于Chatbot Arena的極大尊重。這份尊重既來自于LMSYS作為研究組織的權威背書,也來自于其新穎的排名機制。

  公開資料顯示,LMSYS Org 是一個開放的研究組織,由加州大學伯克利分校的學生和教師、加州大學圣地亞哥分校、卡耐基梅隆大學合作創立。雖然主要人員出自高校,但LMSYS的研究項目卻十分貼近產業,他們不僅自己開發大語言模型,還向業內輸出多種數據集(其推出的MT-Bench已是指令遵循方向的權威評測集)、評估工具,此外還開發分布式系統以加速大模型訓練和推理,提供線上 live 大模型打擂臺測試所需的算力。

  在形式上,Chatbot Arena借鑒了搜索引擎時代的橫向對比評測思路。它首先將所有上傳評測的“參賽”模型隨機兩兩配對,以匿名模型的形式呈現在用戶面前。隨后號召真實用戶輸入自己的提示詞,在不知道模型型號名稱的前提下,由真實用戶對兩個模型產品的作答給出評價,在盲測平臺 https://arena.lmsys.org/ 上,大模型們兩兩相比,用戶自主輸入對大模型的提問,模型A、模型B 兩側分別生成兩PK模型的真實結果,用戶在結果下方做出投票四選一:A模型較佳、B模型較佳,兩者平手,或是兩者都不好。提交后,可進行下一輪PK。

  通過眾籌真實用戶來進行線上實時盲測和匿名投票,Chatbot Arena一方面減少偏見的影響,另一方面也最大概率避免基于測試集進行刷榜的可能性,以此增加最終成績的客觀性。在經過清洗和匿名化處理后,Chatbot Arena還會公開所有用戶投票數據。得益于“真實用戶盲測投票”這一機制,Chatbot Arena被稱為大模型業內最有用戶體感的奧林匹克。

  在收集真實用戶投票數據之后,LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現,進一步優化評分機制,力求公平反應參與者的實力。

  Elo評分系統,是一項基于統計學原理的權威性評價體系,由匈牙利裔美國物理學家Arpad Elo博士創立,旨在量化和評估各類對弈活動的競技水平。作為當前國際公認的競技水平評估標準,Elo等級分制度在國際象棋、圍棋、足球、籃球、電子競技等運動中都發揮著至關重要的作用。

  更通俗地來講,在Elo評分系統中,每個參與者都會獲得基準評分。每場比賽結束后,參與者的評分會基于比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率,一旦低分選手擊敗高分選手,那么低分選手就會獲得較多的分數,反之則較少。通過引入Elo評分系統,LMSYS Chatbot Arena在最大程度上保證了排名的客觀公正。

  Chatbot Arena的評測過程涵蓋了從用戶直接參與投票到盲測,再到大規模的投票和動態更新的評分機制等多個方面,這些因素共同作用,確保了評測的客觀性、權威性和專業性。毫無疑問,這樣的評測方式能夠更準確地反映出大模型在實際應用中的表現,為行業提供了一個可靠的參考標準。

  Yi-Large 以小搏大緊追國際第一陣營,登頂國內大模型盲測

  此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。

  以最新公布的Elo評分來看,GPT-4o以1287分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等模型則以1240左右的評分位居第二梯隊;其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet的成績則斷崖式下滑至1200分左右。

  值得一提的是,排名前6的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic,零一萬物位列全球第四機構,且GPT-4、Gemini 1.5 Pro等模型均為萬億級別超大參數規模的旗艦模型,其他模型也都在大幾千億參數級別。Yi-Large “以小搏大” 以僅僅千億參數量級緊追其后, 5月13日一經發布便沖上世界排名第七大模型,與海外大廠的旗艦模型處于同一梯隊。在 LMSYS Chatbot Arena 截至5月21日的總榜上,阿里巴巴的 Qwen-Max 大模型 Elo分數為1186,排名第12;智譜AI 的GLM-4 大模型 Elo分數為 1175,排名第15。

  在當前大模型步入商業應用的浪潮中,模型的實際性能亟需通過具體應用場景的嚴格考驗,以證明其真正的價值和潛力。過去那種僅要求表面光鮮的“作秀式”評測方式已不再具有實際意義。為了促進整個大模型行業的健康發展,整個行業必須追求一種更為客觀、公正且權威的評估體系。

  在這樣的背景下,一個如Chatbot Arena這樣能夠提供真實用戶反饋、采用盲測機制以避免操縱結果、并且能夠持續更新評分體系的評測平臺,顯得尤為重要。它不僅能夠為模型提供公正的評估,還能夠通過大規模的用戶參與,確保評測結果的真實性和權威性。

  無論是出于自身模型能力迭代的考慮,還是立足于長期口碑的視角,大模型廠商應當積極參與到像Chatbot Arena這樣的權威評測平臺中,通過實際的用戶反饋和專業的評測機制來證明其產品的競爭力。

  這不僅有助于提升廠商自身的品牌形象和市場地位,也有助于推動整個行業的健康發展,促進技術創新和產品優化。相反,那些選擇作秀式的評測方式,忽視真實應用效果的廠商,模型能力與市場需求之間的鴻溝會越發明顯,最終將難以在激烈的市場競爭中立足。

IT產業網微信二維碼logo

  行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
日韩精品一区二区三区中文在线 | 亚洲天堂av资源在线观看| 日韩精品亚洲专区在线观看| 日韩成人免费| 中文字幕av一区二区三区四区| 精品一二三区| 国产欧美日韩精品一区二区三区 | 久久一区视频| 亚洲欧洲一区| 日韩在线欧美| а√天堂8资源在线| 视频一区日韩精品| 欧美资源在线| 亚洲欧洲日韩精品在线| 极品av在线| 日韩欧美二区| 欧美激情综合| 日韩免费精品| 天海翼精品一区二区三区| 91成人网在线观看| 在线日韩欧美| 在线看片不卡| 久久青草久久| 一级欧洲+日本+国产| 日韩一区亚洲二区| 国产一区二区三区91| 高清一区二区三区av| 日韩国产高清在线| 国产伊人久久| 久久精品网址| 国产一区二区三区久久| 精品久久97| 成人欧美一区二区三区的电影| 精品亚洲成人| 国产成人黄色| 亚洲精品一级二级| 欧美日韩精品一本二本三本| 亚洲免费成人| 日本伊人久久| 国产福利亚洲| 三上悠亚国产精品一区二区三区| 精品欧美日韩精品| 久久三级视频| 亚洲激情另类| 日韩av中文字幕一区二区| 国产亚洲欧美日韩在线观看一区二区| 日韩精品第二页| 麻豆久久久久久| 伊人久久高清| 蜜桃一区二区三区在线观看| 欧美一级一区| av资源新版天堂在线| 久久精品国语| 日韩精品视频在线看| 国产精品色婷婷在线观看| 久久伊人国产| 久久中文字幕av| 亚洲丝袜美腿一区| 久久男人av| 夜夜精品视频| 日本一区二区免费高清| 亚洲精品**中文毛片| 欧美午夜不卡| 日韩不卡一二三区| 日韩精品中文字幕第1页| 六月天综合网| 久久久久久久欧美精品| 久久激情av| 久久久五月天| 久热综合在线亚洲精品| 国产情侣一区在线| 蜜臀久久99精品久久一区二区| 日本在线不卡视频一二三区| 国产理论在线| 日本成人中文字幕在线视频| 国产精选在线| 91亚洲精品在看在线观看高清| 伊人久久av| 日韩高清欧美激情| 日韩精品影视| 欧美国产极品| 日韩精品亚洲aⅴ在线影院| 另类中文字幕国产精品| 日韩高清在线不卡| 欧美日韩激情在线一区二区三区 | 成人影视亚洲图片在线| 亚洲欧洲日韩| 亚洲二区免费| 国产aⅴ精品一区二区三区久久| 蜜桃久久精品一区二区| 国产精品av一区二区| 正在播放日韩精品| 久久免费福利| 精品视频黄色| 日韩精品免费视频一区二区三区| 99精品在线| 91精品xxx在线观看| 久久超碰99| 国产亚洲一卡2卡3卡4卡新区| 亚洲免费在线| 激情婷婷亚洲| 久久精品亚洲人成影院| 天堂中文av在线资源库| 国产精品色在线网站| 日本免费一区二区视频| 一区二区三区四区日韩| 99热精品久久| 视频二区不卡| 亚洲成人av观看| 国产欧洲在线| 日韩成人三级| 日韩中文字幕高清在线观看| 国产在线看片免费视频在线观看| 国产精品欧美一区二区三区不卡| 日本一区免费网站| 亚洲一区二区免费在线观看| 先锋影音久久久| 蜜桃视频在线观看一区二区| 99国产精品| 久久亚洲不卡| 日韩不卡在线观看日韩不卡视频| 91精品国产自产精品男人的天堂| 日韩国产91| 久久久久九九精品影院| 精品国产一区二| 亚洲成人不卡| 在线国产一区二区| 爽好久久久欧美精品| 免费不卡在线观看| 欧美啪啪一区| 高清日韩欧美| 欧美日韩国产高清电影| 亚洲黄页一区| 日本a级不卡| 国产高潮在线| 国产一在线精品一区在线观看 | 国产成人精品亚洲线观看| 成人午夜亚洲| 亚洲国产日韩欧美在线| 亚洲另类av| 91亚洲一区| 91久久视频| 欧美一区在线观看视频| 久久这里只有| 精品91久久久久| 欧美日韩一区二区国产| 国产精品久久久久蜜臀| 亚洲在线国产日韩欧美| 日韩中出av| 日韩免费福利视频| 日韩美女国产精品| 另类专区亚洲| 亚洲欧美一级| 蜜臀国产一区| 日韩在线视频一区二区三区| 加勒比视频一区| 麻豆亚洲精品| 在线中文字幕播放| 日韩精品视频网| 久久精品不卡| 国产精品igao视频网网址不卡日韩| 久久裸体视频| 国产精品sm| 亚洲91网站| 亚洲国产一区二区在线观看 | 影视先锋久久| 国产精品成人自拍| 亚洲免费影视| 日韩电影免费网站| 国产日产精品_国产精品毛片| 色爱综合网欧美| 日韩区欧美区| 免播放器亚洲| 亚洲国产影院| 精品99在线| 69堂精品视频在线播放| 亚洲作爱视频| 亚洲五月婷婷| 欧美久久天堂| 久久99国产精品视频| 日韩免费精品| 丝袜美腿成人在线| 国产综合色产| 日韩中文字幕高清在线观看| 免费一区二区三区在线视频| 亚洲aⅴ网站| 视频一区视频二区中文字幕| 99久久亚洲精品| 欧美二三四区| 在线天堂中文资源最新版| 国产免费播放一区二区| 中文精品电影| 丝袜亚洲精品中文字幕一区| 午夜精品影院| 热三久草你在线| 精品国产亚洲日本| 色综合狠狠操| 亚洲精品88| 国产精品99免费看| 亚洲大全视频|