今年是大模型迅猛發展的一年,從 Generative AI 邁向 Agentic AI,大模型已能勝任日益復雜的邏輯推理與任務規劃。技術架構持續演進,從 Dense 模型轉向 MoE,DiT 在多模態與生成領域嶄露頭角,強化學習(RL)也在多個行業加速落地。Agentic AI 帶來的長上下文、多輪交互與動態決策,顯著提升了算力需求與推理延遲,對 AI Infra 的算力、穩定性和調度能力提出更高要求。
在本次云棲大會人工智能平臺分論壇上,阿里云智能集團計算平臺事業部人工智能平臺 PAI & DataWorks 負責人林偉為大家帶來發布年度重磅升級,覆蓋訓練、推理、開發與 Agent 搭建等多個方面,并貼合 MoE 架構、DiT 架構、強化學習和分布式推理等新趨勢帶來計算范式變革分享。此外,通義實驗室、廣汽集團、創維等團隊也帶來相關最佳實踐分享。

人工智能平臺 PAI 年度發布,面向Agentic AI的一站式開發平臺
1. paiMoE:專為大規模 MoE 模型訓練而生的引擎
在 MoE 架構大模型預訓練場景,PAI 團隊全新發布專為大規模 MoE 模型訓練而生的引擎 paiMoE。paiMoE 核心技術含 MoE 高性能訓練優化 Tangram 和 長序列訓練優化 ChunkFlow,通過統一調度機制、自適應計算通信掩蓋、EP計算負載均衡和計算顯存分離式并行等方面深度優化,有效解決工作負載不同、稀疏 MoE 通信占比高等問題,實測達到 Qwen3 訓練端到端加速比提效 3 倍。
●MoE 高性能訓練優化 Tangram
Tangram 支持支持多樣化細粒度 MoE 訓練任務,一套機制支持不同的計算、通信、顯存與負載均衡需求,基于 Multi-Objective Multi-Level Scheduling 的架構設計,滿足不同的 Fine-grained MoE 任務的性能與可編程性要求。Tangram 在 QWen3 多個場景下提升 CPT 訓練效率達 3.04 倍。

MoE 高性能訓練優化 Tangram
●長序列訓練優化 ChunkFlow
ChunkFlow 針對處理變長和超長序列數據的性能問題,提出了以 Chunk 為中心的訓練機制。變長序列數據重新組織為等長 Chunk 并且結合調度,有效提升訓練效率。ChunkFlow 做為阿里云在變長和超長序列數據集上高效訓練解決方案,支撐著通義千問 Qwen 全系列模型的長序列續訓練和微調任務。Qwen2.5 系列模型性能測試結果表明,ChunkFlow 訓練的端到端性能有最高4.53倍的提升。研究成果被 ICML 2025 收錄,《Efficient Long Context Fine-tune with Chunk Flow》(https://arxiv.org/pdf/2503.02356)。

長序列訓練優化 ChunkFlow
2. PAI-DLC 超大規模分布式訓練服務全面升級
人工智能平臺 PAI 訓練服務 PAI-DLC 支持一鍵提交 Ray、VeRL、ChatLearn 等強化學習任務框架,支持 GRPO、GSPO 等多種訓練方式和 Qwen、DeepSeek 等主流模型,依托大規模分布式訓練能力和極致性能優化,數十萬卡異構算力高效管理和調度,為用戶提供靈活、穩定、易用、高性能的 AI 數據處理、預訓練、后訓練環境。
●結合專為大規模 MoE 模型訓練而生的引擎 paiMoE、專為 DiT 架構模型預訓練優化引擎 paiFuser、強化學習引擎 PAI-RL 等加速工具,顯著提升訓練效率及 MFU;
●通過AI統一調度引擎對異構算力高效管理和使用,支持排隊&搶占策略和混合異構算力,實現多級算力拓撲和智能網絡拓撲調度,數十萬卡算力集群增長 3.3 倍;
●通過支持全 RL 學習框架、數據處理框架 DataJuicer,具備自動容錯和預熱加速功能,PAI-DLC 訓練服務實現 15 倍增長,月均訓練任務 4000萬+。

3. PAI-EAS 性能優化,加速Agent推理服務落地
●企業級專家并行(EP)解決方案發布
PAI-EAS 重磅推出企業級 EP 解決方案,助力千億參數 MoE 模型以更低的成本、更高的效率服務于線上業務。PAI-EAS 生產級 EP 的部署支持,將 PD 分離、大規模 EP 、計算-通信協同優化、MTP 等技術融為一體,形成多維度聯合優化的新范式,實現極致顯存優化、超高性能表現和顯著成本降低。

PAI 專家并行(EP)服務架構
專業級EP部署模版:通過提供專業級 EP 部署模板和自動壓測工具,PAI EP 服務大幅降低復雜分布式部署門檻,實現一鍵式高效部署與性能調優;
智能資源調度與編排:基于智能資源調度與編排技術,優化 EPLB 負載均衡與專家遷移開銷,結合 LLM 智能路由實現 PD 分離下的集群資源均勻分配,整體利用率大幅提升;
企業級穩定性保障:涵蓋全面的監控、算力健康檢查、自動故障隔離與自愈容錯機制,確保服務高可用;
靈活的生命周期管理:支持靈活的生命周期管理,實現 Prefill / Decode 獨立擴縮容、資源配置動態調整及一體化服務的灰度發布,兼顧性能、穩定性與成本最優。
●面向 Agentic-AI 的推理引擎
PAI-EAS 通過模型權重服務、LLM 智能路由和大規模 EP 與 PD / AF 分離部署等產品能力,從服務部署擴容、實例請求調度、推理引擎內核等多個維度加速 Agent 推理服務落地,實現更快部署(冷啟動時長降低 89.8%,擴容時長降低 97.6%)、更低時延( TTFT 降低 20.3%,TPOT 降低 70.6%)和更高吞吐( TPS 提升 71.0%)。

4.PAI–DSW 支持 Agent、具身智能等場景 AI 開發
PAI-DSW 集成 JupyterLab、PAI-NextIDE、VSCode、Qwen Code 等多種云端應用,支持 Agent 與具身智能場景,開發者可使用 PAI-DSW 一站式完成微調模型、部署管理模型以及快速搭建 WebUI 等任務。同時,PAI-DSW 通過 Notebook Gallery 案例集、NextIDE 輕量編輯、小 PAI 智能輔助和開發機實例高級連接等新功能,為開發者和企業用戶提供完整、靈活、智能的全鏈路 AI 開發體驗。

通過 PAI-Notebook Gallery 開發者快速啟動具身智能項目的數據合成、模仿學習、強化學習和測試驗證。
●使用 Isaac 仿真系統、Cosmos 系列模型進行數據生成;
●基于 Mimic-Gen、Mobility-Gen、Dream-Gen 等算法進行數據擴增;
●對 BR-CNN、Gr00t Nx 模型進行模仿學習訓練和評估;
●使用 Isaac Cortex 系統對模型進行軟件在環測試;
●使用 Isaac Gym&Lab 進行機器人強化學習。
5.更多重磅發布
5.1 安全的、可信賴的AI安全治理體系
隨著大模型能力持續進化,安全問題日益受到關注。PAI 從系統層、數據層到應用層構建全方位防護:保障訓練與推理環境安全,防止模型與敏感數據泄露,識別并過濾違規內容。全新發布的 AI 安全護欄能力,提供完整的安全治理體系、靈活的策略配置和高效的模型保護機制,全面守護 AI 模型與數據安全,助力企業構建安全、可控、機密的 AI 應用與智能體。

5.2 開箱即用的模型工具鏈 PAI-Model Gallery
PAI-ModelGallery 集成豐富的預訓練模型,提供一站式零代碼的模型訓練、壓縮、評測、部署服務功能,憑借極致易用的低門檻模型工具鏈,為開發者和企業用戶帶來了更快、更高效、更便捷的 AI 開發和應用體驗。

5.3 PAI-ArtLab 全新發布 AI Design Agent
AI Design Agent 通過自然語言指令,輕松實現高質量的圖像生成、視頻制作及精細化圖片編輯,極大降低了創意實現的門檻。深度融合通義萬相和Qwen-Image等頂尖模型,內置聯網搜索與 ComfyUI 集成,兼顧創意與專業需求,同時提供企業級安全隔離,為企業級用戶提供高效、安全的設計解決方案。

5.4 一站式大模型蒸餾工具庫 PAI-Easydistill
PAI-EasyDistill 有效簡化大型語言模型的知識蒸餾過程,助力參數量更小但性能卓越的大模型的實際應用。助力企業實現高性能、低成本的大模型應用。在 Deep Search 等 Agentic 場景下,8B 蒸餾模型效果顯著超越 72B 教師模型,模型規模減小88.9%。


5.5 NL2SQL 框架 PAI-DataSurfer Agent
PAI-DataSurfer Agent 是面向復雜真實場景的 NL2SQL 框架,采用“總—分—總”的協同架構,專為超大規模、高復雜度的數據庫查詢任務設計,大幅提升了自然語言到SQL查詢轉換的準確性和效率。在被譽為"最接近真實企業場景"的 Spider 2.0-Snow 評測中,以 61.24 % 的執行準確率榮獲榜單第一。PAI-DataSurfer Agent 技術已深度集成至大數據開發治理平臺 DataWorks 的 Copilot, 在 DataWorks 界面的頂部導航欄點擊 Copilot 圖標即可開始體驗。

PAI 助力通義大模型 MaaS 新范式
阿里云百煉攜手通義大模型,基于阿里云人工智能平臺 PAI 打造 MaaS(模型即服務)新范式,引領AI普惠化進程。阿里云百煉提供覆蓋大語言、多模態、代碼、數學等全場景的 SOTA 模型 API 服務,基于 PAI 的統一資源管理、快速模型加載和訓推一體調度,為用戶提供高性能、低延時、高并發的極致體驗。


廣汽智能輔助駕駛模型開發訓練全面上云
廣汽集團攜手阿里云人工智能平臺 PAI 實現智能輔助駕駛模型開發和訓練全棧上云; PAI 的節點自愈及 AIMaster 容錯訓練引擎,實現千卡規模任務穩定訓練不中斷;基于 PAI 的任務調度策略及閑時任務等資源精細化管理,資源利用率高達90%以上;基于 PAI Turbo-X 的模型訓推加速方案,億級訓練樣本千兆模型按天迭代。

PAI支撐創維媒資大模型后訓練
依托 PAI 平臺,創維構建了從數據管理、模型訓練到輕量化推理的全鏈路技術體系,通過高質量數據清洗、增強與自動化標注,顯著提升媒資信息提取、意圖識別和多路召回精度。通過大模型蒸餾工具 PAI-EasyDistill,支撐創維酷開壓縮模型體積,保留模型精度,提升推理速度;通過推理服務 PAI-EAS,支撐創維酷開高效且高性價的模型部署。

行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...