姚順雨自從加入騰訊之后,可算是拿出了一個(gè)模型產(chǎn)品了。
雖然說目前騰訊放出來的還只是個(gè)preview版本,但也能借此初看端倪。
Hy3 preview這個(gè)模型和市面上其他大模型最大的區(qū)別在于,它貫徹了姚順雨對上下文獨(dú)有的那種“執(zhí)著”。
當(dāng)其他廠商都在卷agent 能力、代碼生成、多模態(tài)的時(shí)候,Hy3把“出色的上下文學(xué)習(xí)和指令遵循能力”單獨(dú)拎出來,寫進(jìn)了核心能力清單的第一條。
別人模型宣傳的第一張性能天梯圖,放的都是什么SWE-Bench Pro或者Terminal-Bench 2.0這種,以表達(dá)模型在agent和代碼上面多么出色。
Hy3 preview不一樣,它一上來放的是AdvancedIF、AA-LCR,以及姚順雨自己弄的CL-bench,這些都是看上下文推理、檢索和指令遵循的榜單。
其實(shí)姚順雨加入騰訊后發(fā)布的第一個(gè)研究成果就是CL-bench,這是一個(gè)專門用來測試模型能否從上下文中學(xué)習(xí)新知識(shí)并正確應(yīng)用的基準(zhǔn)。
在論文里,姚順雨的觀點(diǎn)是當(dāng)前大模型的核心短板不是讀不全、找不到,而是“學(xué)不會(huì)、用不對、執(zhí)行不了”。
模型可以在上下文里找到一條規(guī)則,但它不會(huì)把這條規(guī)則真正內(nèi)化成當(dāng)前任務(wù)的執(zhí)行邏輯。
Hy3 preview 的設(shè)計(jì),就是要解決這個(gè)問題。
這是姚順雨對上下文這套敘事在產(chǎn)品層面的第一次完整落地。
不過,讓我們先從模型開始講起。
01
Hy3 preview是一個(gè)怎樣的模型?
Hy3 preview是一個(gè)295B總參數(shù)、21B激活參數(shù)的混合專家模型,支持256K上下文長度。
這個(gè)模型最核心的特性,是它在上下文學(xué)習(xí)和指令遵循上的表現(xiàn)。
姚順雨此前為測試模型真實(shí)的上下文能力,提出了CL-bench和CL-bench-Life這兩個(gè)評(píng)測基準(zhǔn),檢查模型能否從上下文中學(xué)習(xí)新知識(shí)并正確應(yīng)用。
Hy3 preview在CL-bench上的得分是26.7,相比Hy2的19.2提升了39%。在CL-bench-Life上得分22.8,相比Hy2的16.5提升了38%。
這個(gè)提升并不是通過給模型增加上下文窗口長度實(shí)現(xiàn)的,是靠模型真正學(xué)會(huì)了如何從雜亂的上下文里,提取出有用的規(guī)則,并把這些規(guī)則應(yīng)用到了當(dāng)前任務(wù)中,后面我會(huì)列舉出一些例子,讀到的時(shí)候你就懂了。
姚順雨對Hy3 preview明確提出了三個(gè)原則。
第一條是能力體系化,不推崇偏科,因?yàn)榧词故谴aAgent這樣的單一應(yīng)用,背后也需要推理、長文、指令、對話、代碼、工具等多種能力的深度協(xié)同。
第二條是評(píng)測真實(shí)性,主動(dòng)跳出容易被刷榜的公開榜單,通過自建題目、最新考試、人工評(píng)測、產(chǎn)品眾測等方式,去評(píng)估模型在真實(shí)場景里的戰(zhàn)斗力。
第三條是性價(jià)比追求,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì),大幅降低任務(wù)成本,讓智能用得起、用得好。
這三條原則,本質(zhì)就是“讓模型真正能在真實(shí)場景里工作”這件事的一體三面。
姚順雨知道一個(gè)道理,2026年都快過一半了,大家早就清楚這些榜單刷分是沒有意義的,所以模型一定要強(qiáng)調(diào)生產(chǎn)環(huán)境里穩(wěn)定運(yùn)行,在用戶手里真正有用。
Hy3 preview的上下文學(xué)習(xí)能力、指令遵循能力、長文檔處理能力,其實(shí)也都是為了這個(gè)目標(biāo)服務(wù)的。
具體來說,Hy3 preview在處理真實(shí)場景任務(wù)時(shí),展現(xiàn)出了三個(gè)關(guān)鍵能力。
第一是從冗長文本中準(zhǔn)確定位關(guān)鍵信息。它不是簡單地做關(guān)鍵詞匹配,而是能夠理解信息之間的邏輯關(guān)系,知道哪些信息是任務(wù)的前提條件,哪些信息是執(zhí)行約束,哪些信息是優(yōu)先級(jí)標(biāo)記。
第二是從隱含規(guī)則中推導(dǎo)出執(zhí)行邏輯。很多真實(shí)任務(wù)的規(guī)則不會(huì)明確寫出來,而是散落在對話、紀(jì)要、文檔的各個(gè)角落。Hy3 preview能夠把這些碎片化的信息整合起來,形成一套完整的執(zhí)行方案。
第三是在多輪交互中保持上下文的連貫性。它不會(huì)因?yàn)閷υ捿喆卧黾,就丟失前面的關(guān)鍵信息,也不會(huì)因?yàn)橹虚g插入了其他話題,就忘記當(dāng)前任務(wù)的目標(biāo)。
這三個(gè)能力,恰恰對應(yīng)了姚順雨在CL-bench論文里指出的問題。
他認(rèn)為當(dāng)前大模型的核心短板不是讀不全、找不到,而是“學(xué)不會(huì)、用不對、執(zhí)行不了”。
模型可以在上下文里找到一條規(guī)則,但它不會(huì)把這條規(guī)則真正內(nèi)化成當(dāng)前任務(wù)的執(zhí)行邏輯。它更像是在做檢索和拼接,但在實(shí)際任務(wù)中,模型應(yīng)該是對上下文在做理解。
而Hy3 preview的設(shè)計(jì),就是要解決這個(gè)問題。
騰訊混元團(tuán)隊(duì)在內(nèi)部做了大量真實(shí)場景測試,來驗(yàn)證Hy3 preview的上下文學(xué)習(xí)能力。
一個(gè)典型場景是會(huì)議紀(jì)要提取待辦事項(xiàng)。給模型一份幾千字的會(huì)議紀(jì)要,里面散落著七八條隱藏前提:某個(gè)同事這周請假,某個(gè)項(xiàng)目的預(yù)算在討論中被調(diào)整,某個(gè)任務(wù)的優(yōu)先級(jí)在多輪討論后被重新排序。模型需要從這些雜亂的信息里,準(zhǔn)確提取出所有待辦事項(xiàng),不能漏掉任何一條,也不能瞎猜任何一條。
Hy3 preview在這類任務(wù)上的表現(xiàn),明顯好于之前的模型。它能夠準(zhǔn)確識(shí)別出哪些是已經(jīng)確定的任務(wù),哪些是還在討論中的想法,哪些是被否決的方案。
另一個(gè)場景是旅行計(jì)劃整理。
用戶可能在多輪對話里,陸續(xù)提出各種需求,比如預(yù)算限制、時(shí)間安排、同行人員、偏好類型。這些信息不是一次性給出的,而是在對話過程中逐步補(bǔ)充和修正的。
Hy3 preview能夠在每一輪對話后,更新自己對任務(wù)的理解,并根據(jù)最新的約束條件,調(diào)整輸出方案。它不會(huì)因?yàn)榍懊嬲f過“預(yù)算5000”,后面又說“最多4000”,就輸出一個(gè)自相矛盾的計(jì)劃。
這種上下文學(xué)習(xí)能力,在Hy3 preview的agent應(yīng)用中發(fā)揮了關(guān)鍵作用。
騰訊在CodeBuddy和WorkBuddy的實(shí)際部署中,Hy3 preview已經(jīng)能穩(wěn)定驅(qū)動(dòng)495步的復(fù)雜工作流。
在這長達(dá)495步的任務(wù)鏈之中,每一步都能正確理解當(dāng)前的上下文狀態(tài),并根據(jù)這個(gè)狀態(tài)做出合理決策。
這個(gè)任務(wù)的難點(diǎn)就在于,如果模型在第50步就理解錯(cuò)了上下文,那后面的445步就會(huì)全部偏離目標(biāo)。
Hy3 preview之所以能做到這一點(diǎn),靠的就是它在每一步都能從前面的執(zhí)行結(jié)果里,學(xué)到新的約束條件,并把這些約束條件應(yīng)用到后續(xù)行為中。
Hy3 preview的另一個(gè)特性,是它在指令遵循上的穩(wěn)定性。
很多模型在面對復(fù)雜指令時(shí),會(huì)出現(xiàn)理解偏差或執(zhí)行偏離。用戶要求輸出JSON格式,它可能輸出Markdown;用戶要求只列出前三項(xiàng),它可能列出五項(xiàng);用戶要求不要加任何解釋,它可能在最后加一段總結(jié)。
這些問題看起來是細(xì)節(jié),但在生產(chǎn)環(huán)境里,每一個(gè)細(xì)節(jié)偏差都可能導(dǎo)致下游系統(tǒng)出錯(cuò)。Hy3 preview在指令遵循上做了專門優(yōu)化,它能夠準(zhǔn)確識(shí)別指令中的格式要求、數(shù)量限制、輸出范圍,并嚴(yán)格按照這些要求執(zhí)行。
騰訊混元團(tuán)隊(duì)在元寶產(chǎn)品上的測試結(jié)果顯示,Hy3 preview在意圖理解精準(zhǔn)度、文本創(chuàng)作質(zhì)量、深度搜索等指標(biāo)上,都有明顯提升。
你在和模型對話時(shí),它能夠在第一次交互中,就準(zhǔn)確理解用戶想要什么,并給出符合預(yù)期的結(jié)果。
Hy3 preview在長上下文處理上的表現(xiàn),也體現(xiàn)了姚順雨對上下文的理解。
騰訊內(nèi)部產(chǎn)品ima的測試結(jié)果顯示,Hy3 preview在處理幾萬字文檔時(shí),無論是知識(shí)庫問答還是通用問答,都能準(zhǔn)確找到需要的信息,并且總結(jié)得全面。它不會(huì)因?yàn)槲臋n太長,就只關(guān)注開頭或結(jié)尾,也不會(huì)因?yàn)樾畔⒎稚,就遺漏關(guān)鍵細(xì)節(jié)。
更重要的是,Hy3 preview在長上下文中的推理能力是穩(wěn)定的。很多模型在處理長文本時(shí),會(huì)出現(xiàn)“上下文稅”問題。
簡單來說就是,隨著上下文長度增加,模型的推理質(zhì)量會(huì)下降,輸出的準(zhǔn)確性會(huì)降低。
Hy3 preview的設(shè)計(jì),就是要讓模型具備這種“現(xiàn)場學(xué)習(xí)”的能力。它不是靠增加預(yù)訓(xùn)練數(shù)據(jù)量來覆蓋更多場景,而是靠提升上下文學(xué)習(xí)能力,讓模型能夠在任何場景里,都能從眼前的材料里學(xué)會(huì)新東西。
這種能力一旦建立起來,模型的適應(yīng)性就會(huì)大幅提升。它不再需要為每一個(gè)新場景都做一次微調(diào),也不再需要為每一種新任務(wù)都準(zhǔn)備一套專門的提示詞。它只需要在上下文里給出足夠的信息,模型就能自己學(xué)會(huì)如何執(zhí)行。
這就是Hy3 preview和其他模型的本質(zhì)區(qū)別。
02
姚順雨為何執(zhí)著于上下文?
姚順雨對上下文的執(zhí)著,其實(shí)也不是從CL-bench才開始的。
往前推幾年,他在普林斯頓和谷歌聯(lián)合研究時(shí)提出的ReAct框架,就已經(jīng)在探索一個(gè)核心問題:如何讓模型在推理和行動(dòng)之間建立有效的反饋循環(huán)。
ReAct的全稱是“Reasoning and Acting”,它的設(shè)計(jì)思路是讓模型在執(zhí)行任務(wù)時(shí),不斷地“思考-行動(dòng)-觀察”,每一步的觀察結(jié)果都會(huì)成為下一步推理的輸入。
這個(gè)框架在2022年提出時(shí),就已經(jīng)成為agent領(lǐng)域的經(jīng)典范式。
姚順雨認(rèn)為,模型不能只會(huì)推理,也不能只會(huì)調(diào)用工具,它必須能夠把推理能力和行動(dòng)能力協(xié)同起來。
但這種協(xié)同的前提是什么?
是模型能夠從每一步的執(zhí)行結(jié)果里,提取出對下一步有用的信息,并且把這些信息正確地整合到當(dāng)前的推理鏈條里。換句話說,模型必須能夠從動(dòng)態(tài)變化的上下文中持續(xù)學(xué)習(xí)。
這就是為什么姚順雨加入騰訊后,第一件事就是推出CL-bench。
他不是在否定ReAct,他是在補(bǔ)足ReAct框架里一個(gè)更底層的能力缺口。
如果模型連靜態(tài)上下文里的新知識(shí)都學(xué)不會(huì),那它在動(dòng)態(tài)的Agent工作流里,就更不可能根據(jù)執(zhí)行反饋?zhàn)龀稣_調(diào)整。
CL-bench測的就是這個(gè)最基礎(chǔ)的能力,給你一份材料,里面有你從沒見過的規(guī)則,你能不能現(xiàn)場學(xué)會(huì)并用對。
Hy3 preview的深層邏輯就是把這兩個(gè)方向打通。
姚順雨的“底層代碼”是只有讀懂了上下文,agent才能真正干活。
所以Hy3 preview才有了這種“context-first、agent-facing”的設(shè)計(jì)。
別的模型在agent任務(wù)上的提升,靠的是單獨(dú)優(yōu)化工具調(diào)用或任務(wù)規(guī)劃。Hy3 preview在這些agent任務(wù)上的提升,是通過提升底層的推理、長文、指令、對話能力,讓Agent的整體表現(xiàn)變強(qiáng)。
姚順雨的這種把模型給體系化思路,和當(dāng)前主流的agent存在本質(zhì)區(qū)別。
很多團(tuán)隊(duì)在做Agent時(shí),會(huì)專門針對某一類任務(wù)去優(yōu)化,比如專門做代碼生成,或者專門做信息檢索。這樣做的好處是能在特定榜單上快速拿到高分,但壞處是模型的能力會(huì)變得很窄,一旦任務(wù)稍微偏離訓(xùn)練場景,表現(xiàn)就會(huì)大幅下降。
姚順雨是反過來,他不追求單項(xiàng)第一,他要讓模型在多種能力上都達(dá)到可用的水平,然后讓這些能力在實(shí)際任務(wù)里協(xié)同工作。
Hy3 preview在騰訊內(nèi)部產(chǎn)品上的部署效果,就是這種思路的驗(yàn)證。
CodeBuddy和WorkBuddy的數(shù)據(jù)顯示,Hy3 preview的首token延遲降低了54%,端到端時(shí)長縮短了47%,成功率提升到99.99% 以上。
這三個(gè)指標(biāo)放在一起看,說明模型不只是變快了,它還在保持高成功率的前提下變快了。
姚順雨的道路很清晰,模型的推理能力保證了任務(wù)規(guī)劃的正確性,長文能力保證了上下文理解的準(zhǔn)確性,指令遵循能力保證了執(zhí)行的穩(wěn)定性,代碼能力保證了輸出的可用性。
姚順雨在去年提出的“AI下半場”判斷里,提出了一個(gè)觀點(diǎn),他說真正決定模型能否走出demo的,是你到底有沒有把系統(tǒng)放進(jìn)真實(shí)世界的約束里,并用真實(shí)世界的方式去評(píng)估它。
現(xiàn)在看來,這個(gè)觀點(diǎn)在Hy3 preview的開發(fā)過程中得到了徹底貫徹。
騰訊混元團(tuán)隊(duì)構(gòu)建了50多套內(nèi)部評(píng)測體系,覆蓋了從基礎(chǔ)能力到產(chǎn)品場景的各個(gè)層面。他們還專門去跑最新的考試,比如清華大學(xué)求真書院的數(shù)學(xué)博士資格考,全國中學(xué)生生物學(xué)聯(lián)賽,用這些真實(shí)考場的成績來驗(yàn)證模型的泛化能力。
這種評(píng)測思路和主流做法完全不同。大部分團(tuán)隊(duì)在做模型評(píng)測時(shí),會(huì)優(yōu)先選擇那些已經(jīng)被廣泛使用的公開榜單,因?yàn)檫@些榜單的結(jié)果容易對外傳播,也容易和競品做對比。
但問題是,這些公開榜單往往已經(jīng)被過度優(yōu)化,模型可以通過各種技巧在榜單上刷出高分,但這些高分未必能轉(zhuǎn)化成真實(shí)場景里的可用性。
從ReAct到CL-bench,再到Hy3 preview,姚順雨的研究路線一直沒變。
如何讓模型在真實(shí)場景里,能夠根據(jù)當(dāng)前的上下文,做出正確的推理和行動(dòng)。
這個(gè)問題看起來簡單,但它觸及了當(dāng)前大模型的一個(gè)根本性短板。大部分模型在預(yù)訓(xùn)練階段記住了大量知識(shí),但它們不會(huì)在推理時(shí)從眼前的材料里學(xué)習(xí)新知識(shí)。這種能力的缺失,直接限制了模型在動(dòng)態(tài)場景里的適應(yīng)性。
Hy3 preview的價(jià)值,就是在這個(gè)方向上邁出了實(shí)質(zhì)性的一步。
03
Hy3正式版是啥樣的?
說到preview,我第一時(shí)間想到的就是谷歌的Gemini。
Gemini的preview和正式版之間,有一個(gè)清晰的演化路徑。谷歌在2025年發(fā)布Gemini 2.5 Pro時(shí),先推出了一個(gè)preview版本,這個(gè)版本在各項(xiàng)能力指標(biāo)上都很激進(jìn),推理深度、上下文長度、多模態(tài)理解都做到了當(dāng)時(shí)的頂級(jí)水平。
但preview版本有很多問題,比如成本高、延遲長、穩(wěn)定性不夠。到了正式版發(fā)布時(shí),谷歌做了大量優(yōu)化,把推理效率提升了一大截,token消耗降下來了,響應(yīng)速度也快了很多。
谷歌告訴我們,preview版本是用來驗(yàn)證能力上限的,正式版是用來做生產(chǎn)部署的。preview可以不計(jì)成本地把各項(xiàng)能力推到極致,但正式版必須在能力和成本之間找到一個(gè)可以大規(guī)模商用的平衡點(diǎn)。
谷歌在Gemini 2.5 Pro的迭代過程中,就是在不斷調(diào)整這個(gè)平衡點(diǎn)。他們在6月5日更新的preview版本里,LMArena的Elo評(píng)分提升了24分,WebDevArena的評(píng)分提升了35分,但同時(shí)也在優(yōu)化推理框架,降低延遲,為正式版的發(fā)布做準(zhǔn)備。
Hy3 preview的定位,和Gemini的preview版本有相似之處,但也有明顯區(qū)別。
相似的地方在于,Hy3 preview也是騰訊混元重建后的第一個(gè)版本,它的主要任務(wù)是驗(yàn)證新的預(yù)訓(xùn)練框架、強(qiáng)化學(xué)習(xí)流程、能力體系是否能跑通,能達(dá)到什么樣的上限。
騰訊混元團(tuán)隊(duì)明確表示,Hy3 preview是混元大模型重建的第一步,他們希望通過這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實(shí)反饋,幫助提升Hy3正式版的實(shí)用性。
但Hy3 preview和Gemini preview的區(qū)別也很明顯。
Gemini的preview更像是一個(gè)能力展示版本,它會(huì)把各項(xiàng)指標(biāo)都推到很高,但不太考慮成本和部署的問題。Hy3 preview從一開始就把性價(jià)比作為核心設(shè)計(jì)目標(biāo)之一。
從Hy3 preview的實(shí)際表現(xiàn)來看,它已經(jīng)具備了在生產(chǎn)環(huán)境里大規(guī)模部署的條件。
騰訊內(nèi)部的多個(gè)主線產(chǎn)品,包括元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享,都已經(jīng)上線了Hy3 preview。
微信公眾號(hào)、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等產(chǎn)品也在陸續(xù)接入。這種大規(guī)模的產(chǎn)品部署,在preview階段就完成,說明Hy3 preview的穩(wěn)定性和成本控制已經(jīng)達(dá)到了可以商用的水平。
那么Hy3正式版會(huì)是什么樣?參考Gemini的演化路徑,我感覺應(yīng)該是如下幾個(gè)方向。
第一是能力上限會(huì)進(jìn)一步提升。
騰訊混元團(tuán)隊(duì)已經(jīng)在持續(xù)擴(kuò)大預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的規(guī)模,更大尺寸的模型也在訓(xùn)練中。
正式版可能會(huì)在推理深度、知識(shí)覆蓋、多模態(tài)理解等方面,比preview版本有明顯提升。
第二是穩(wěn)定性會(huì)進(jìn)一步增強(qiáng)。
preview版本在實(shí)際部署中收集到的反饋,會(huì)被用來優(yōu)化正式版的對齊策略、指令遵循能力、邊界情況處理能力。
第三是成本會(huì)進(jìn)一步降低。
preview版本已經(jīng)把推理效率提升了40%,正式版可能會(huì)通過更激進(jìn)的模型壓縮、更高效的緩存策略、更優(yōu)化的推理框架,把成本再降一個(gè)臺(tái)階。
但Hy3正式版和Gemini正式版可能會(huì)有一個(gè)關(guān)鍵區(qū)別,那就是Hy3不會(huì)為了降低成本而犧牲能力的全面性。
Gemini在從preview到正式版的演化過程中,有時(shí)會(huì)做一些取舍,比如縮短推理鏈條、減少思考深度,用更少的token量給出一個(gè)差強(qiáng)人意的輸出。這種做法可以大幅降低成本,但會(huì)導(dǎo)致模型在復(fù)雜任務(wù)上的表現(xiàn)下降。Hy3的路線更可能是保持能力的均衡性,通過架構(gòu)優(yōu)化和推理框架改進(jìn)來降低成本,而不是通過削減能力來降低成本。
姚順雨的理解是,實(shí)用性不應(yīng)該只是成本低,更重要的是能力全面、穩(wěn)定可靠、真實(shí)場景里能用。Hy3 preview已經(jīng)在這個(gè)方向上做出了示范,正式版大概率會(huì)延續(xù)這個(gè)思路,在能力、成本、穩(wěn)定性之間找到一個(gè)更優(yōu)的平衡點(diǎn)。
當(dāng)然,這些都是基于當(dāng)前信息的推測。
Hy3正式版的實(shí)際能力,還要等騰訊混元團(tuán)隊(duì)完成更大規(guī)模的預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)之后才能確定。
Hy3的正式版和preview版之間不會(huì)有太大的能力落差,用戶在preview階段體驗(yàn)到的能力,在正式版里基本都能保留。
壞處是,這種路線對團(tuán)隊(duì)的技術(shù)積累和工程能力要求更高,需要在架構(gòu)設(shè)計(jì)、推理優(yōu)化、系統(tǒng)集成等多個(gè)層面都做到位,才能真正實(shí)現(xiàn)能力和成本的雙贏。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...