當整個AI行業陷入“參數競賽”的狂熱時,微博AI交出了一份出乎意料的答卷,為沸騰的大模型戰場開辟了一條充滿想象力的新路徑。
近日,微博正式發布首個自研開源大模型VibeThinker,這個僅擁有15億參數的“輕量級選手”,在國際頂級數學競賽基準測試上擊敗了參數量是其數百倍的,高達6710億的DeepSeek R1模型。
更令人矚目的是,其單次“后訓練”的成本僅7800美元,對比DeepSeek-R1和MiniMax-M1等成本直接降低了幾十倍。這一突破不僅重新定義了大模型的技術評價標準,更有望推動AI產業從“規模競賽”轉向“效率革命”。

行業黑馬:小模型打破參數崇拜
在AI發展史上,參數量曾被視為衡量模型能力的核心指標。行業普遍認為,復雜推理能力需要1000億以上參數才能涌現,而小模型則因無法處理高難度問題被視為“天生不足”。
但如果從小模型入手,通過巧妙的訓練策略,能否挖掘出隱藏的推理能力?微博自研開源大模型VibeThinker,給出了行業一個肯定的答案。
當大多數AI廠商仍遵循著“規模擴大即智能提升”的 Scaling Law法則時,微博AI研發人員轉而優化模型結構和訓練范式,并創新提出了“頻譜到信號原理”(SSP)方法訓練,創造出了一個僅擁有15億參數的“輕量級選手”,但在AI競技場上戰勝了超越其數百倍體量的“巨人”。
VibeThinker一經發布,立即引起了全球AI研究界的廣泛關注,因其在一系列涵蓋數學、編碼的權威基準測試中,交出了一份出乎意料的答卷:
![]()
(HuggingFace官方主動下場發文宣傳VibeThinker論文)
在AIME24、AIME25以及HMMT25三個高難度數學測試集上的表現,VibeThinker超越了參數量超其400倍的模型DeepSeek-R1-0120版本(模型大小671B),與規模為456B的MiniMax-M1效果接近或相當,甚至媲美Gemini 2.5 flash和Claude Opus 4。
此外,在LiveCodeBench v6(編程算法題測試集)中的成績,VibeThinker成功追平參數量數超其數十倍的模型,比如歐洲領先AI企業Minstral.AI的深度思考模型Magistral-Medium-2506版本。
VibeThinker雄辯地證明,通過精巧的算法設計和訓練策略,一個小規模模型完全有潛力在復雜的邏輯推理任務上,達到甚至超越那些體量龐大數百倍的巨型模型,更為AI產業的成本結構、技術路線和資本布局帶來了全新的思考路徑。
需要說明的是,VibeThinker目前發布的版本尚處于實驗性版本,其研發重點主要集中于極大強化小模型復雜數學與競賽編程等方面的能力,其在日常聊天等能力還沒有做過針對性訓練優化,所以暫不適合作為日常聊天工具進行互動,更適用于數學和代碼等高智能應用場景。
行業資訊、企業動態、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...