隨著大模型邁入規模化落地新階段,產業發展重心已由模型訓練轉向推理服務,大模型正式開啟推理時代。在多模態應用普及、長上下文需求激增、Agentic AI快速爆發的多重驅動下,推理需求呈爆發式增長,成本與性能的平衡成為產業核心命題,單純依賴硬件升級已難以滿足高效、經濟、穩定、綠色的規模化應用需求。當前,推理優化從單點優化走向系統級協同優化,正加速向各行業滲透賦能。
為明晰技術演進路徑、沉淀產業實踐經驗、為行業提供技術指引與可落地解決參考,中國信息通信研究院(簡稱“中國信通院”)人工智能研究所聯合中國人工智能產業發展聯盟正式發布《大模型推理優化關鍵技術及應用實踐研究報告(2026年)》。
報告以《大模型推理平臺技術能力成熟度》《MoE開發平臺技術要求》等系列標準為參考,系統梳理了大模型推理面臨的主要挑戰、核心優化技術、產業落地成效、典型行業應用案例及未來發展趨勢,助力產業實現精準、高效、經濟、綠色的推理規模化應用,推動大模型產業從技術創新邁向高質量普惠發展新階段。
報告核心觀點
1. 大模型迎來推理拐點,成本壓力倒逼推理優化。需求側,推理服務需求呈指數級增長。我國日均Token調用量兩年增長超1400倍,2026年初突破140萬億;受Agentic AI等應用驅動,推理計算量兩年間增長達1萬倍;服務平均序列長度兩年增至2.7倍。供給側,算力資源持續向推理環節傾斜。全球計算工作負載中推理占比快速提升,我國推理算力市場規模將翻倍至876.5億元。成本側,成本壓力與降本趨勢同步顯現。2024年OpenAI推理預算已為GPT-4訓練預算的15倍,持續的算力、存儲成本加重企業落地負擔,驅動行業構建全鏈路優化體系。Gartner預測,2030年大模型推理成本較2025年將下降90%以上。
2. 模型、場景適配與算力成本平衡成三大核心難題。一是針對模型演進的適配滯后,大模型向MoE架構、原生多模態、百萬級長上下文快速升級,對推理基礎設施的前瞻性、靈活性要求提升。二是場景差異化適配難度高。低時延場景要求毫秒級TTFT,高并發場景追求高吞吐,長上下文場景受KV Cache顯存占用制約,流量波動考驗系統彈性,靜態推理系統難以兼顧多元需求。三是算力需求與成本控制矛盾突出。存量算力因軟硬件兼容難以復用,異構算力調度存在多重困境,長記憶需求推高存儲成本,DRAM/SSD/HDD價格指數大幅上漲,進一步加劇成本壓力。
3. 推理優化目標從性能提升到降本增效走向綠色高效。初期,聚焦優化時延(TTFT/TPOT)、吞吐(TPS/RPS)等單一性能指標。既無法適配差異化場景訴求,也未納入算力、存儲等成本考量,與規模化落地需求脫節。當前,大模型進入商業落地階段后,優化目標升級為“精度-性能-成本”協同,即在滿足服務等級目標(SLO)約束的基礎上,統籌平衡用戶體驗與算力成本,更契合企業級落地需求。未來,進一步納入能耗指標,聚焦“性能+算力成本+能耗成本”的協同,通過單位算力吞吐、單位能耗吞吐等核心指標,推動大模型推理服務向精準、高效、經濟、綠色方向升級,為大模型產業的可持續、規模化落地提供核心支撐。

來源:中國信通院
4. 推理工程從單點優化邁向系統級協同優化。第一階段為功能集成階段,提供壓縮-部署-推理-服務的流程串聯,以及RAG、Agent等功能搭建。第二階段是單點優化,以高效壓縮技術和推理引擎為核心,聚焦顯存優化、計算優化、并行加速等。第三階段是系統級協同優化階段,綜合“模型-架構-場景”進行深度優化,實現高性能與經濟落地。未來,將邁向Token經濟時代,進一步實現成本壓縮、能耗控制,支撐大模型產業的可持續、普惠化發展。

來源:中國信通院
5. PD分離與MoE相關系統優化(大EP、AF分離)成為熱點。一方面,PD分離架構以KV Cache為核心,經2024年技術迭代,2025年已進入產業落地階段。Mooncake、Dynamo、UCM等工業級方案通過以存換算、分級存儲、分布式內存池等技術,實現更快響應、更大吞吐、更長文本處理,以及SLO自適應能力。另一方面,MoE模型架構躋身主流后,頭部企業基于PD分離進一步針對MoE探索系統優化:一是,MoE大集群成為布局重點,DeepSeek推理系統為典型案例,跨節點EP、PD+EP的產業熱度不斷提升。二是,AF分離快速興起,MegaScale-Infer、Step-3等通過AF分離+定制通信庫,實現專家負載均衡與路由智能優化。整體沿“PD分離—MoE優化進階”路徑迭代。
6. AI存儲驅動推理系統實現原生智能升級。當前已實現基于分層緩存、數據卸載的外置存儲推理加速方案,有效突破顯存資源和記憶數據瓶頸,顯著降低推理時延、提升吞吐效率、優化算力成本,成為大模型規模化部署的標配支撐能力。未來正走向面向智能體(Agentic AI)的原生架構升級,由數據存儲向知識存儲、記憶存儲演進,一是將碎片化資源轉化為細粒度知識,結合多維檢索與重排序技術,提升知識生成和檢索能力,二是提供精準的記憶萃取與召回能力,實現上下文狀態的長期保持,優化大模型“易遺忘”的通病。通過AI存儲的持續創新將構建統一記憶管理、多模態檢索、多智能體協同的新型支撐體系。
行業資訊、企業動態、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...