當(dāng)前,大語言模型(LLMs)在智能客服、代碼生成、內(nèi)容創(chuàng)作等場(chǎng)景中正發(fā)揮著越來越重要的作用,但受限于推理速度瓶頸,多數(shù)模型在部署和運(yùn)行過程中的計(jì)算資源消耗仍存在較大優(yōu)化空間,難以控制推理成本,也因響應(yīng)延遲而影響用戶體驗(yàn),限制了在實(shí)時(shí)場(chǎng)景下的應(yīng)用。據(jù)統(tǒng)計(jì),截止到2025年上半年全國(guó)公有云廠商大模型調(diào)用日均輸出約2.96萬億tokens,成本高達(dá)405億元。與此同時(shí),大模型深度思考大幅提升了推理結(jié)果的可靠性,然而更長(zhǎng)時(shí)間的響應(yīng)延遲也帶來了AI產(chǎn)品使用體驗(yàn)不足的問題。
11月9日,中國(guó)電信翼支付Talon架構(gòu)技術(shù)論文被國(guó)際人工智能頂會(huì)AAAI(人工智能促進(jìn)協(xié)會(huì)會(huì)議)2026接收,標(biāo)志著其創(chuàng)新性再次獲得了國(guó)際學(xué)術(shù)界的權(quán)威認(rèn)可。
中國(guó)電信翼支付一直致力于攻關(guān)大模型推理加速關(guān)鍵核心技術(shù),2024年中國(guó)電信翼支付自研Falcon架構(gòu)技術(shù)論文被國(guó)際人工智能頂會(huì)AAAI 2025接收。2025年,中國(guó)電信翼支付推出第二代推理加速架構(gòu)——Talon,該架構(gòu)嚴(yán)格保持生成質(zhì)量無損的基礎(chǔ)上,實(shí)現(xiàn)最高6.52倍的加速,在精度無損條件下最高可將推理成本降至原來的1/6,性能相較于大模型行業(yè)領(lǐng)先水平提升了50%+, 也超越了當(dāng)前國(guó)際同類型方法。
AAAI創(chuàng)辦于1979年,是國(guó)際人工智能頂級(jí)學(xué)術(shù)會(huì)議,并收錄于CCF-A類會(huì)議目錄中,每年吸引全球大量知名企業(yè)、科研院校等頂尖AI團(tuán)隊(duì)參與,至今已舉辦40屆。AAAI 2026將于2026年1月在新加坡舉行,本次會(huì)議共收到近31000篇投稿,其中有效投稿共計(jì)23,680篇,創(chuàng)歷年新高,然而錄用率僅為17.6%,為近三年最低,且熱門領(lǐng)域第一階段拒稿率高達(dá)67%,反映出空前的競(jìng)爭(zhēng)壓力。
破解效率難題,實(shí)現(xiàn)推理速度最高6.5倍
傳統(tǒng)的投機(jī)解碼雖然一定程度上提升了推理速度,但存在同步瓶頸與Draft token的低接受率挑戰(zhàn)。Talon從推理范式上進(jìn)行了重構(gòu),通過設(shè)計(jì)異步并行執(zhí)行范式,將草稿生成與驗(yàn)證解耦為可同時(shí)進(jìn)行的獨(dú)立任務(wù),從根本上消除了資源等待。同時(shí),Talon引入了自適應(yīng)混合草稿策略,融合模型驅(qū)動(dòng)與檢索驅(qū)動(dòng)的方法,同時(shí)提高模型在通用和專業(yè)領(lǐng)域的draft token接受率,大幅提升了大模型推理速度。
得益于扎實(shí)的技術(shù)組合優(yōu)勢(shì),Talon在涵蓋多輪對(duì)話、代碼生成、數(shù)學(xué)推理等領(lǐng)域的多個(gè)維度權(quán)威基準(zhǔn)測(cè)試中得到嚴(yán)格驗(yàn)證,相比傳統(tǒng)自回歸解碼實(shí)現(xiàn)了4.04倍至6.52倍的加速效果,尤其在知識(shí)密集型以及確定性解碼場(chǎng)景下,Talon在各類模型、任務(wù)配置中均表現(xiàn)出色。
學(xué)術(shù)行業(yè)雙認(rèn)可,夯實(shí)技術(shù)領(lǐng)先地位
中國(guó)電信翼支付始終堅(jiān)持在新一代人工智能技術(shù)的研發(fā)投入,收獲深厚的技術(shù)積淀。此前,中國(guó)電信翼支付已在NeurIPS、AAAI、WWW等國(guó)際頂級(jí)人工智能會(huì)議發(fā)表多篇學(xué)術(shù)論文,參與多項(xiàng)國(guó)家行業(yè)標(biāo)準(zhǔn),并累計(jì)申請(qǐng)百余項(xiàng)專利,也為此榮獲“中央企業(yè)人工智能高價(jià)值場(chǎng)景”“華彩杯”算力大賽獎(jiǎng)項(xiàng)等行業(yè)重要榮譽(yù)。此次Talon被國(guó)際人工智能頂會(huì)AAAI 2026接收,是中國(guó)電信翼支付創(chuàng)新研發(fā)能力的又一次有力證明。
理論實(shí)踐并重,助力企業(yè)用戶降本增效
性能突破的價(jià)值最終體現(xiàn)在業(yè)務(wù)成效上。目前,Talon技術(shù)已集成至中國(guó)電信一站式Mass平臺(tái)InsightAI,服務(wù)中國(guó)電信翼支付“數(shù)字人客服”“翼小橙”“翼點(diǎn)通”“翼小財(cái)”等多個(gè)核心業(yè)務(wù),不僅為用戶帶來了流暢、迅捷的交互體驗(yàn),更在保證生成內(nèi)容精準(zhǔn)無誤的前提下,將大模型推理成本降至原先的1/6,降本增效效果顯著,將數(shù)智化技術(shù)高效性直接轉(zhuǎn)化為了可觀的運(yùn)營(yíng)效益,為大規(guī)模、高并發(fā)下的AI應(yīng)用鋪平了道路。
未來,中國(guó)電信翼支付將繼續(xù)深化Talon等自主核心技術(shù)的迭代與應(yīng)用,并將其通過InsightAI平臺(tái)向更廣泛的行業(yè)伙伴開放,以創(chuàng)新技術(shù)賦能至千行百業(yè),助力企業(yè)實(shí)現(xiàn)大模型高效、可靠、低成本的規(guī);渴穑苿(dòng)人工智能技術(shù)的務(wù)實(shí)發(fā)展與產(chǎn)業(yè)升級(jí)。
行業(yè)資訊、企業(yè)動(dòng)態(tài)、峰會(huì)活動(dòng)可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...