久久国产精品免费一区二区三区 ,日本a级不卡,亚洲精品午夜av福利久久蜜桃
首頁 > 資訊 > 評論

從高光到塌房,Meta Llama 4 遭遇驚魂72小時

2025/04/09 15:14      雷科技 冬日果醬


  開源大模型 Llama 4 的翻車還在持續發酵。

  4 月 8 日,作為大語言模型「權威榜單之一」的 Chatbot Arena(民間俗稱「大模型競技場」)發布了一則語氣罕見嚴肅的聲明。面對社群對于 Meta 新模型 Llama 4 排名的質疑,官方表示將公開 2000 多場真人對比測試的完整數據,并罕見點名 Meta:

  「Meta 應該更清楚地表明『Llama-4-Maverick-03-26-Experimental』是一個作為人類偏好進行優化的定制化模型。我們正在更新排行榜的策略,以避免此類混淆再次發生。」

截屏2025-04-08 20.19.51.png

  圖/ X

  這條聲明不只是澄清,一定程度上也是對整個大模型行業的一記警鐘。

  Chatbot Arena 由加州大學伯克利分校發起,是當前大模型評測中可能最具行業影響力的「真人盲測」排行榜,核心的機制是通過讓開發者和 AI 愛好者會在平臺上用相同問題向兩款模型提問,對比回答內容并投票打分。

  而這種「真人盲測」的機制,讓 Chatbot Arena 有別于其他任何基準測試,也成為了外界最為信賴的大模型排行榜。可以說,一款模型是否登上「Chatbot Arena 排行榜」前列,在一定程度上直接影響其在媒體和開發者群體中的口碑與采納率。

  正因如此,當 Meta 在 4 月 5 日發布其最新一代開源大模型 Llama 4,隨后快速沖上Chatbot Arena 排行榜第二,力壓一眾頂級大模型,僅次于 Google 前腳發布的 Gemini 2.5 Pro,自然也就引起了所有人的好奇和期待。

  但很快,社區發現這一版本是未公開、定制化調優的「實驗模型」,而并非 Meta 開源的正式版。于是,爭議爆發:這算不算「刷榜」?Chatbot Arena 是否被利用為營銷工具?Meta 為什么要這樣操作?

  更糟的是,在部分官方沒有展示的專業基準測試中,Llama 4 表現也不盡如人意,幾乎墊底。不少第一批嘗試的用戶也在 Reddit、X 等社交平臺上發文表達了失望,有人就在發帖中提到 Llama 4 在編程能力上的不盡如人意,并指出:

  「考慮到 Llama-4-Maverick 有 402B 的參數量,我為什么不直接使用 DeepSeek-V3-0324 呢?或者 Qwen-QwQ-32B 可能更合適——雖然性能相似,但它的參數量只有 32B。」

截屏2025-04-08 20.28.23.png

  圖/ Reddit

  這讓人不禁疑惑,曾經被開源陣營寄予厚望、憑借 Llama 2 和 Llama 3 逐漸建立口碑的 Meta,為什么就在 Llama 4 翻了車?

  從高光到塌房,Llama 4的72小時驚魂

  時間回到 4 月 5 日,Meta 在官方博客上發布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文,正式宣布 Llama 4 系列模型面向社區開源。

  這一次,Meta 公開了最新一代模型的三個版本:Llama 4 Scout、Llama 4 Maverick、還在訓練中的「教師模型」Llama 4 Behemoth,均首次采用了混合專家(MoE)架構。

Llama-4-1.png

  圖/ Meta

  其中最主流、最受關注的 Maverick 版本,是擁有 128 個「專家」的 170 億活躍參數模型(總參數為 4000 億),Meta 將其描述為「同類最佳的多模態模型」,強調其在多方面超過了 Gemini 2.0 與 GPT-4o,在編碼和推理方面比 Deepseek 3.1 更有競爭力。

  但就在 Llama 4 發布不久,情況迅速脫離了 Meta 的預期。

  在社區層面,首批用戶對 Llama 4 的表現并不買賬。在多個測試中,尤其是在需要代碼能力和嚴謹邏輯推理的場景中,Llama 4 的表現并沒有兌現其超越 GPT、DeepSeek 的表現。包括在 Aider Chat 提供的 Polyglot 編程測試中,Maverick 版本的正確率僅為 16%,處于排行榜末尾。

  不僅與其龐大的參數體量完全不符,甚至落后于規模更小的開源模型,比如 Google Gamma 。這種結果讓不少開發者大感意外,也與官方宣傳形成了強烈反差。

489039141_17878176075285119_3305638652462632010_n.jpg

  圖/ Chatbot Arena

  風評下滑之際,更嚴厲的質疑也接踵而至——Llama 4 是否使用了公開測試集進行訓練?是否針對通用基準的 Chatbot Arena 針對性優化?這些質疑都在技術社區迅速傳播、發酵,包括 Chatbot Arena 在聲明中盡管并未使用「作弊」等字眼,但字里行間的語氣已足夠強硬和不滿。

  尤其是中文移民社區「一畝三分地」上,自稱提交辭呈、要求從 Llama 4 技術報告中刪除名字的「Meta 員工」發帖表示,隨著 Deadline(截止日期)的逼近,Meta 最終選擇了將各個基準測試的測試集混合在 Post-Training「后訓練」(對應大模型的「預訓練」階段)之中。

  不過 Meta 團隊很快出面做了澄清,一位經手「后訓練」的 Meta GenAI 成員實名(Licheng Yu)表示:

  「這兩天虛心聆聽各方 feedback(比如 coding、creative writing 等缺陷必須改進)希望能在下一版有提升。但為了刷點而 overfit 測試集我們從來沒有做過,實名 LichengYu,兩個 oss model 的 post training 有經手我這邊請告知哪條 prompt 是測試集選出來放進訓練集的我給你磕一個+道歉!」

截屏2025-04-08 20.36.36.png

  圖/ Licheng Yu

  公開資料顯示,Licheng Yu(虞立成)本科畢業于上海交通大學,2014 年獲佐治亞理工學院和上海交通大學雙碩士學位,2019 年獲北卡羅來納大學教堂山分校計算機科學博士學位,2023 年 6 月至今在 Meta 擔任研究科學家經理,并參與了 Llama 3、Llama 4 項目。

  同時,負責 Meta GenAI 的副總裁 Ahmad Al-Dahle 也在 X 平臺明確表示,「Meta 沒有在測試集上訓練 Llama 4。」而針對 Llama-4-Maverick-03-26-Experimental,Meta 也在爭議發生后選擇了發布開源版本,以回應外界的批評。

截屏2025-04-08 20.38.24.png

  圖/ X

  但這些回應顯然都沒能回避掉一個問題:Llama 4 的真實能力。事實上,不管是 Licheng Yu,還是 Ahmad Al-Dahle,都在駁斥部分質疑的同時承認了 Llama 4 在性能存在的問題。

  作為開源陣營中曾經「最有希望挑戰 OpenAI」的旗手,Llama 4 原本承載著開發者與產業界的高度期待。但現在,它卻在發布一周內從「高光」跌入「信任危機」,成為大模型競賽中一次罕見的口碑「滑鐵盧」。

  DeepSeek加速開源,Meta被逼到失速

  如果只看表面,這次 Llama 4 的口碑翻車,似乎充滿了戲劇張力——匿名離職員工爆料稱,Meta 高層為了趕上內部設定的 Deadline,要求將各大測試集混入 「后訓練」,只為「一個能看的結果」。甚至還傳言,負責 AI 的副總裁 Joelle Pineau 也因反對這一做法而離職。

  不過從目前公開的信息來看,這些說法經不起推敲。關于使用測試集進行后訓練一事,前文的回應其實已經基本澄清。而 Joelle Pineau 的離職發生在發布前兩天,但她并不負責生成式 AI 團隊,而是領導 Meta Fundamental AI Research(FAIR)研究部門,與 Llama 4 項目并無直接關聯。

  在辟除這些輿論雜音之后,真正的問題才浮出水面。追根究底,Llama 4 的問題,不在于造假,而在于開源大模型競爭加劇下的失速。

  過去兩年,Meta 憑借 Llama 2 和 Llama 3,逐步在開源模型市場上建立起「領先、可靠」的認知。然而到了 Llama 4,情況已經發生了巨大的變化,DeepSeek V3/R1 的發布扭轉了開源與閉源模型的差距,并且大大加速了開源模型的發展速度。

  這讓原本作為「開源領導者」的 Llama 面臨更大的壓力。

  盡管我們認為前文爆料很多經不起推敲,但有一點卻是現實:Llama 4 確實有 Deadline。這一點從 Llama 4 Behemoth 還在訓練中就得以窺見,而且在參數規模膨脹、架構復雜化(MoE)的同時,Llama 4 很可能沒有留出足夠的測試和改進時間,才導致發布后不穩定的性能表現。

67f17f54363f2716703eb03c_llama-4-og.png

  圖/ Meta

  此外,Meta 也沒能控制住動作的變形。Llama-4-Maverick-03-26-Experimental 針對對話模式的優化本身無可厚非,但「首發」Chatbot Arena 的目的卻是路人皆知。我們也不知道,這個特調版本又犧牲了哪些?

  而從目前來看,Meta 的做法顯然錯了,經過能在發布之處獲得更高的期待、更多的關注,但之后的實際表現不僅讓人更加失望,也打破了用戶對 Llama 系列「領先、可靠」的認知。

  怎么看都是輸。

  Meta 當然還有機會補救。只是,它首先必須正面面對 DeepSeek、Qwen、Gamma 等其他大模型已經崛起、甚至超越自己的現實,才能談重整河山。

IT產業網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
国产极品一区| 日韩视频精品在线观看| 香蕉精品视频在线观看| 亚洲青青久久| 国产一区丝袜| 99re国产精品| 91精品一区| 欧美三级网址| 日本午夜精品| 日韩午夜av| 天堂久久一区| 日本精品另类| 欧美日韩尤物久久| 91精品丝袜国产高跟在线| 国产+成+人+亚洲欧洲在线| 影音先锋久久精品| 国产综合色产| 国产精品免费看| 在线一区二区三区视频| 日韩精品欧美激情一区二区| 亚洲精品成人图区| 欧美不卡高清一区二区三区| 中文无码久久精品| 麻豆视频在线观看免费网站黄| 亚洲免费一区二区| 欧美成人基地 | 99在线|亚洲一区二区| 精品亚洲免a| 亚洲精品永久免费视频| 日本免费新一区视频| 久久成人一区| 亚洲视频www| 91精品久久久久久久久久不卡| 国产精品久久久久久久久久白浆 | 国产精品主播在线观看| 婷婷综合在线| 视频一区二区三区入口| 亚洲一区日韩| 久久亚洲欧洲| 中文字幕av亚洲精品一部二部 | 久久国产88| 久久久久网站| 91精品在线观看国产| 久久久久九九精品影院| 久久午夜视频| 日本亚洲欧洲无免费码在线| 中文字幕成在线观看| 成人羞羞在线观看网站| 在线亚洲精品| 91精品国产一区二区在线观看| 日本一区免费网站| 另类综合日韩欧美亚洲| 伊人久久成人| 国产精品美女在线观看直播| 亚洲成人不卡| 日韩欧美中文在线观看| 亚洲欧洲一区| 国产精品久久久久久模特| 日韩在线观看不卡| 国产日韩一区| 99国产精品自拍| 日韩一区二区免费看| 日韩久久电影| 国产 日韩 欧美 综合 一区| 日韩欧美一区二区三区在线视频| 国产拍在线视频| 美女精品在线观看| a国产在线视频| 国产精品伦理久久久久久| 日韩在线观看一区二区| 色乱码一区二区三区网站| 国产毛片一区二区三区| 亚洲激情不卡| 日韩二区三区在线观看| 青青草国产成人99久久| 亚洲另类黄色| 日韩一区二区三免费高清在线观看 | 视频一区二区三区在线| 97se综合| 午夜亚洲福利在线老司机| 欧美亚洲在线日韩| 国产日韩免费| 精品日韩毛片| 久久免费黄色| 国产日韩电影| 日韩 欧美一区二区三区| 99久久夜色精品国产亚洲1000部| 日本欧美一区二区在线观看| 午夜av一区| 久久精品国产99国产| 成人亚洲欧美| 六月丁香综合在线视频| 日韩av免费| 精品一区91| 视频一区二区三区入口| 在线亚洲精品| 中文字幕高清在线播放| 一区三区视频| 国产精品17p| 亚洲免费成人av在线| 日韩国产一区二| 欧美理论视频| 国产91一区| 美女视频黄 久久| 日韩av专区| 欧美一区二区三区高清视频| 日韩精品久久久久久久软件91| 欧美xxxx中国| 蜜桃视频免费观看一区| 精品亚洲美女网站| 久久精品国产福利| 蜜桃精品视频| 日韩avvvv在线播放| 午夜日韩福利| 中文字幕日韩高清在线 | 中文在线资源| 欧美三级第一页| 美女精品视频在线| 免费视频一区三区| 国产精成人品2018| 老司机免费视频一区二区| 久久久一本精品| 久久久国产精品入口麻豆| 日韩精品第二页| 青草国产精品| 国产精品不卡| 欧美一区精品| 激情久久婷婷| 久久久精品久久久久久96 | 国产91在线播放精品| 福利一区二区| 五月天久久久| 日韩午夜黄色| 亚洲自拍另类| 91精品久久久久久久久久不卡| 91欧美在线| 国产专区精品| 国产视频一区免费看| 日本а中文在线天堂| 视频在线在亚洲| 美日韩一区二区三区| 欧美国产另类| 亚洲风情在线资源| 尤物在线精品| 视频精品一区| 欧美日韩国产高清电影| 国产成人免费| 牛牛精品成人免费视频| 亚洲一区区二区| 日韩欧美少妇| 日韩av首页| 精品免费在线| 久久中文字幕av一区二区不卡| 国产精选久久| 成人国产精品久久| 色乱码一区二区三区网站| 99日韩精品| 美女精品一区| 麻豆精品久久久| 国产99在线| 亚洲精品大全| 麻豆成人91精品二区三区| 欧美日一区二区三区在线观看国产免 | 国产精品白丝一区二区三区| 国产一区调教| 欧美一级二级视频| 免费在线欧美黄色| 麻豆久久一区二区| 福利在线免费视频| 亚洲va久久久噜噜噜久久| 亚洲男人在线| 免费精品视频最新在线| 青青青国产精品| 国产精品美女午夜爽爽| 一级欧洲+日本+国产| 国产精品成人一区二区不卡| 亚洲黄色免费av| 亚洲专区在线| 国产一二在线播放| 国产日韩欧美一区二区三区在线观看 | 亚洲精品123区| 精品国产欧美日韩| 精品国产午夜肉伦伦影院| 亚洲二区三区不卡| 日韩一级不卡| 激情久久久久久久| 日韩国产欧美视频| 国产精品chinese| 免费在线欧美视频| 亚洲欧美久久| 国产成人免费av一区二区午夜| 国产一区观看| 国产精品成人自拍| 私拍精品福利视频在线一区| 国产精品一二| 亚洲大片在线| 精品久久91| 国产日韩综合| 精品视频在线观看网站| 亚洲主播在线|