云棲2025 | 人工智能平臺 PAI 年度發布

2025/09/26 09:10 IT產業網

　　今年是大模型迅猛發展的一年，從 Generative AI 邁向 Agentic AI，大模型已能勝任日益復雜的邏輯推理與任務規劃。技術架構持續演進，從 Dense 模型轉向 MoE，DiT 在多模態與生成領域嶄露頭角，強化學習(RL)也在多個行業加速落地。Agentic AI 帶來的長上下文、多輪交互與動態決策，顯著提升了算力需求與推理延遲，對 AI Infra 的算力、穩定性和調度能力提出更高要求。

　　在本次云棲大會人工智能平臺分論壇上，阿里云智能集團計算平臺事業部人工智能平臺 PAI & DataWorks 負責人林偉為大家帶來發布年度重磅升級，覆蓋訓練、推理、開發與 Agent 搭建等多個方面，并貼合 MoE 架構、DiT 架構、強化學習和分布式推理等新趨勢帶來計算范式變革分享。此外，通義實驗室、廣汽集團、創維等團隊也帶來相關最佳實踐分享。

　　人工智能平臺 PAI 年度發布，面向Agentic AI的一站式開發平臺

　　1. paiMoE：專為大規模 MoE 模型訓練而生的引擎

　　在 MoE 架構大模型預訓練場景，PAI 團隊全新發布專為大規模 MoE 模型訓練而生的引擎 paiMoE。paiMoE 核心技術含 MoE 高性能訓練優化 Tangram 和長序列訓練優化 ChunkFlow，通過統一調度機制、自適應計算通信掩蓋、EP計算負載均衡和計算顯存分離式并行等方面深度優化，有效解決工作負載不同、稀疏 MoE 通信占比高等問題，實測達到 Qwen3 訓練端到端加速比提效 3 倍。

　　●MoE 高性能訓練優化 Tangram

　　Tangram 支持支持多樣化細粒度 MoE 訓練任務，一套機制支持不同的計算、通信、顯存與負載均衡需求，基于 Multi-Objective Multi-Level Scheduling 的架構設計，滿足不同的 Fine-grained MoE 任務的性能與可編程性要求。Tangram 在 QWen3 多個場景下提升 CPT 訓練效率達 3.04 倍。

云棲2025 | 人工智能平臺 PAI 年度發布

　　MoE 高性能訓練優化 Tangram

　　●長序列訓練優化 ChunkFlow

　　ChunkFlow 針對處理變長和超長序列數據的性能問題，提出了以 Chunk 為中心的訓練機制。變長序列數據重新組織為等長 Chunk 并且結合調度，有效提升訓練效率。ChunkFlow 做為阿里云在變長和超長序列數據集上高效訓練解決方案，支撐著通義千問 Qwen 全系列模型的長序列續訓練和微調任務。Qwen2.5 系列模型性能測試結果表明，ChunkFlow 訓練的端到端性能有最高4.53倍的提升。研究成果被 ICML 2025 收錄，《Efficient Long Context Fine-tune with Chunk Flow》(https://arxiv.org/pdf/2503.02356)。

云棲2025 | 人工智能平臺 PAI 年度發布

　　長序列訓練優化 ChunkFlow

　　2. PAI-DLC 超大規模分布式訓練服務全面升級

　　人工智能平臺 PAI 訓練服務 PAI-DLC 支持一鍵提交 Ray、VeRL、ChatLearn 等強化學習任務框架，支持 GRPO、GSPO 等多種訓練方式和 Qwen、DeepSeek 等主流模型，依托大規模分布式訓練能力和極致性能優化，數十萬卡異構算力高效管理和調度，為用戶提供靈活、穩定、易用、高性能的 AI 數據處理、預訓練、后訓練環境。

　　●結合專為大規模 MoE 模型訓練而生的引擎 paiMoE、專為 DiT 架構模型預訓練優化引擎 paiFuser、強化學習引擎 PAI-RL 等加速工具，顯著提升訓練效率及 MFU;

　　●通過AI統一調度引擎對異構算力高效管理和使用，支持排隊&搶占策略和混合異構算力，實現多級算力拓撲和智能網絡拓撲調度，數十萬卡算力集群增長 3.3 倍;

　　●通過支持全 RL 學習框架、數據處理框架 DataJuicer，具備自動容錯和預熱加速功能，PAI-DLC 訓練服務實現 15 倍增長，月均訓練任務 4000萬+。

云棲2025 | 人工智能平臺 PAI 年度發布

　　3. PAI-EAS 性能優化，加速Agent推理服務落地

　　●企業級專家并行(EP)解決方案發布

　　PAI-EAS 重磅推出企業級 EP 解決方案，助力千億參數 MoE 模型以更低的成本、更高的效率服務于線上業務。PAI-EAS 生產級 EP 的部署支持，將 PD 分離、大規模 EP 、計算-通信協同優化、MTP 等技術融為一體，形成多維度聯合優化的新范式，實現極致顯存優化、超高性能表現和顯著成本降低。

云棲2025 | 人工智能平臺 PAI 年度發布

　　PAI 專家并行(EP)服務架構

　　專業級EP部署模版：通過提供專業級 EP 部署模板和自動壓測工具，PAI EP 服務大幅降低復雜分布式部署門檻，實現一鍵式高效部署與性能調優;

　　智能資源調度與編排：基于智能資源調度與編排技術，優化 EPLB 負載均衡與專家遷移開銷，結合 LLM 智能路由實現 PD 分離下的集群資源均勻分配，整體利用率大幅提升;

　　企業級穩定性保障：涵蓋全面的監控、算力健康檢查、自動故障隔離與自愈容錯機制，確保服務高可用;

　　靈活的生命周期管理：支持靈活的生命周期管理，實現 Prefill / Decode 獨立擴縮容、資源配置動態調整及一體化服務的灰度發布，兼顧性能、穩定性與成本最優。

　　●面向 Agentic-AI 的推理引擎

　　PAI-EAS 通過模型權重服務、LLM 智能路由和大規模 EP 與 PD / AF 分離部署等產品能力，從服務部署擴容、實例請求調度、推理引擎內核等多個維度加速 Agent 推理服務落地，實現更快部署(冷啟動時長降低 89.8%，擴容時長降低 97.6%)、更低時延( TTFT 降低 20.3%，TPOT 降低 70.6%)和更高吞吐( TPS 提升 71.0%)。

云棲2025 | 人工智能平臺 PAI 年度發布

　　4.PAI–DSW 支持 Agent、具身智能等場景 AI 開發

　　PAI-DSW 集成 JupyterLab、PAI-NextIDE、VSCode、Qwen Code 等多種云端應用，支持 Agent 與具身智能場景，開發者可使用 PAI-DSW 一站式完成微調模型、部署管理模型以及快速搭建 WebUI 等任務。同時，PAI-DSW 通過 Notebook Gallery 案例集、NextIDE 輕量編輯、小 PAI 智能輔助和開發機實例高級連接等新功能，為開發者和企業用戶提供完整、靈活、智能的全鏈路 AI 開發體驗。

云棲2025 | 人工智能平臺 PAI 年度發布

　　通過 PAI-Notebook Gallery 開發者快速啟動具身智能項目的數據合成、模仿學習、強化學習和測試驗證。

　　●使用 Isaac 仿真系統、Cosmos 系列模型進行數據生成;

　　●基于 Mimic-Gen、Mobility-Gen、Dream-Gen 等算法進行數據擴增;

　　●對 BR-CNN、Gr00t Nx 模型進行模仿學習訓練和評估;

　　●使用 Isaac Cortex 系統對模型進行軟件在環測試;

　　●使用 Isaac Gym&Lab 進行機器人強化學習。

　　5.更多重磅發布

　　5.1 安全的、可信賴的AI安全治理體系

　　隨著大模型能力持續進化，安全問題日益受到關注。PAI 從系統層、數據層到應用層構建全方位防護：保障訓練與推理環境安全，防止模型與敏感數據泄露，識別并過濾違規內容。全新發布的 AI 安全護欄能力，提供完整的安全治理體系、靈活的策略配置和高效的模型保護機制，全面守護 AI 模型與數據安全，助力企業構建安全、可控、機密的 AI 應用與智能體。

云棲2025 | 人工智能平臺 PAI 年度發布

　　5.2 開箱即用的模型工具鏈 PAI-Model Gallery

　　PAI-ModelGallery 集成豐富的預訓練模型，提供一站式零代碼的模型訓練、壓縮、評測、部署服務功能，憑借極致易用的低門檻模型工具鏈，為開發者和企業用戶帶來了更快、更高效、更便捷的 AI 開發和應用體驗。

云棲2025 | 人工智能平臺 PAI 年度發布

　　5.3 PAI-ArtLab 全新發布 AI Design Agent

　　AI Design Agent 通過自然語言指令，輕松實現高質量的圖像生成、視頻制作及精細化圖片編輯，極大降低了創意實現的門檻。深度融合通義萬相和Qwen-Image等頂尖模型，內置聯網搜索與 ComfyUI 集成，兼顧創意與專業需求，同時提供企業級安全隔離，為企業級用戶提供高效、安全的設計解決方案。

云棲2025 | 人工智能平臺 PAI 年度發布

　　5.4 一站式大模型蒸餾工具庫 PAI-Easydistill

　　PAI-EasyDistill 有效簡化大型語言模型的知識蒸餾過程，助力參數量更小但性能卓越的大模型的實際應用。助力企業實現高性能、低成本的大模型應用。在 Deep Search 等 Agentic 場景下，8B 蒸餾模型效果顯著超越 72B 教師模型，模型規模減小88.9%。

云棲2025 | 人工智能平臺 PAI 年度發布

　　5.5 NL2SQL 框架 PAI-DataSurfer Agent

　　PAI-DataSurfer Agent 是面向復雜真實場景的 NL2SQL 框架，采用“總—分—總”的協同架構，專為超大規模、高復雜度的數據庫查詢任務設計，大幅提升了自然語言到SQL查詢轉換的準確性和效率。在被譽為"最接近真實企業場景"的 Spider 2.0-Snow 評測中，以 61.24 % 的執行準確率榮獲榜單第一。PAI-DataSurfer Agent 技術已深度集成至大數據開發治理平臺 DataWorks 的 Copilot，在 DataWorks 界面的頂部導航欄點擊 Copilot 圖標即可開始體驗。

云棲2025 | 人工智能平臺 PAI 年度發布

　　PAI 助力通義大模型 MaaS 新范式

　　阿里云百煉攜手通義大模型，基于阿里云人工智能平臺 PAI 打造 MaaS(模型即服務)新范式，引領AI普惠化進程。阿里云百煉提供覆蓋大語言、多模態、代碼、數學等全場景的 SOTA 模型 API 服務，基于 PAI 的統一資源管理、快速模型加載和訓推一體調度，為用戶提供高性能、低延時、高并發的極致體驗。

云棲2025 | 人工智能平臺 PAI 年度發布

　　廣汽智能輔助駕駛模型開發訓練全面上云

　　廣汽集團攜手阿里云人工智能平臺 PAI 實現智能輔助駕駛模型開發和訓練全棧上云�；� PAI 的節點自愈及 AIMaster 容錯訓練引擎，實現千卡規模任務穩定訓練不中斷;基于 PAI 的任務調度策略及閑時任務等資源精細化管理，資源利用率高達90%以上;基于 PAI Turbo-X 的模型訓推加速方案，億級訓練樣本千兆模型按天迭代。

云棲2025 | 人工智能平臺 PAI 年度發布

　　PAI支撐創維媒資大模型后訓練

　　依托 PAI 平臺，創維構建了從數據管理、模型訓練到輕量化推理的全鏈路技術體系，通過高質量數據清洗、增強與自動化標注，顯著提升媒資信息提取、意圖識別和多路召回精度。通過大模型蒸餾工具 PAI-EasyDistill，支撐創維酷開壓縮模型體積，保留模型精度，提升推理速度;通過推理服務 PAI-EAS，支撐創維酷開高效且高性價的模型部署。

云棲2025 | 人工智能平臺 PAI 年度發布

IT產業網微信二維碼logo

　　行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

云棲2025 | 人工智能平臺 PAI 年度發布

最新新聞

熱門新聞

新動態

關注度

最話題

云棲2025 | 人工智能平臺 PAI 年度發布

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題