2025年,AI 技術迎來了以自主行動、目標導向和環境交互為特征的 Agentic AI 時代,與此同時,透過機器人、輔助駕駛等前沿探索,復雜 AI Agent 系統也正迅速從數字世界邁向物理世界。在2025云棲大會上,阿里云智能集團計算平臺負責人汪軍華發表《大數據 AI 平臺:構筑 Agentic AI 核心基石》主題演講,并帶來阿里云大數據AI平臺多款產品升級發布。
汪軍華表示,模型、AI基礎設施、數據基礎設施、端到端搭建工具是落地 Agentic AI 的關鍵四要素,阿里云大數據 AI 平臺圍繞這四大要素提供有力的技術支撐。

阿里云智能集團計算平臺負責人汪軍華現場演講
加速世界模型研發,PAI 與 NVIDIA Physical AI 軟件棧合作
在大模型能力加速進化的今天,除了推理模型和各類 Agentic 能力增強模型,世界模型同樣備受關注。世界模型能夠理解和遵循物理規律,具備因果推理、時間推演等能力,是大模型真正深入現實物理世界的關鍵。
構建“全知全感”的世界模型,對基礎設施和開發平臺提出了全新要求。一方面,世界模型依賴的數據處理工程更加復雜,需要進行符合物理規律的多模態數據合成、進行圖片視頻向點云軌跡等半結構化數據的轉換、以及深層次數據理內容理解等;另一方面,由于極端場景無法在現實中全面測試,仿真平臺重要性尤為凸顯;此外,多種模型需要云、邊、端多種服務平臺支持。
為此,阿里云與 NVIDIA 正式宣布在 Physical AI 方向達成產品合作。PAI 將集成 NVIDIA Isaac Sim、Isaac Lab、NVIDIA Cosmos、Physical AI 數據集在內的 NVIDIA Phsyical AI 軟件棧,并結合阿里云在規模化數據計算、高性能AI訓練推理、大數據AI一體化開發等領域的體系化能力,形成覆蓋數據預處理、仿真數據生成、模型訓練評估、機器人強化學習、仿真測試在內的全鏈路平臺支撐,讓 Physical AI 領域開發者充分享受云的彈性與靈活,全面加速 Physical AI 創新落地。
目前,PAI 平臺內已經上架了遙操數據采集、數據合成、數據增強、機器人模仿學習、驗證測試全環節五大場景的最佳實踐,以 Notebook 形式供開發者開箱即用。

阿里云 x NVIDIA合作發布
預訓練、后訓練、推理全流程優化,AI 基礎設施再升級
作為全棧人工智能服務商,阿里云兼具領先的自研大模型、活躍的開源模型生態與強大的 AI Infra 體系。應對新的模型架構和計算特點,阿里云人工智能平臺PAI與通義大模型聯合優化,印證了全棧AI“1+1>2”的效果。
針對 MoE 架構模型,PAI 推出大規模 MoE 訓練引擎 paiMoE,采用統一調度機制、自適應計算通信掩蓋、EP 計算負載均衡和計算顯存分離式并行等優化手段,有效解決工作負載不同、稀疏 MoE 通信占比高等問題,在 Qwen3 訓練過程中實現端到端加速比提效 3 倍,訓練 MFU 超過 61%。

目前,paiMoE 引擎兩項核心技術 Tangram 和 ChunkFlow 已在 Qwen 全系模型的 CPT/SFT 階段作為默認方案,Tangram 支持支持多樣化細粒度 MoE 訓練任務,一套機制支持不同的計算、通信、顯存與負載均衡需求。ChunkFlow 針對處理變長和超長序列數據的性能問題,提出了以 Chunk 為中心的訓練機制。變長序列數據重新組織為等長 Chunk 并且結合調度,有效提升訓練效率,研究成果被ICML 2025 收錄。

針對 DiT 架構模型,PAI 推出訓練推理一體化加速引擎 paiFuser,通過計算圖優化、顯存復用、通信壓縮、動態調度等手段,顯著降低資源消耗,提升系統吞吐。在8卡并行推理場景下,視頻生成耗時最高減少80%以上,在保障畫質前提下實現“分鐘級”甚至“秒級”輸出,為短視頻生產、沉浸式VR、AIGC創意工具等時效敏感型業務提供堅實底座。
在推理層,通過大規模EP、PD/AF分離、權重優化、LLM智能路由在內的全鏈路優化,實現推理效率顯著提升:推理吞吐TPS增加71%,時延TPOT降低70.6%,擴容時長降低97.6%。此外,PAI-EAS 重磅推出企業級 EP 解決方案,助力千億參數 MoE 模型以更低的成本、更高的效率服務于線上業務。

大數據平臺全面支持 AI 計算和服務
無論是模型訓練還是推理,都離不開數據的支撐。阿里云大數據平臺宣布面向 AI 產品進行全新升級,全面支持AI計算和服務。

大數據平臺 MaxCompute、Hologres、EMR、Flink 等產品數據處理全面支持 AI Function,將AI能力深度集成至傳統數據處理流程。在SQL或Python作業中,調用AI模型如同調用普通函數,實現數據處理與AI推理的無縫融合。MaxFrame推出面向AI場景的新一代原生分布式Python引擎DPE,數據處理性價比提升1倍,支持數據預處理,ML訓練推理,異構資源計算,Python原生UDF以及AI Function等計算場景。
各行各業都廣泛需要多模分析檢索,大數據平臺致力于打造AI應用的知識檢索系統,讓數據發揮更大的價值。EMR-Starrocks 全新支持全文檢索,OpenSearch GPU實例驅動向量索引構建,整體性價比提升10倍,Milvus、ElasticSearch、Hologres支持向量+全文混合檢索,其中Hologres 發布全新向量索引 HGraph,登頂 VectorDBBench 性價比榜單 QPS、Recall、Latency、Load 四項第一。
在數據運維方面,大數據平臺DataWorks、MaxCompute、Hologres、EMR等產品推出通過自然語言交互即可實現數據開發、運維等操作的智能化交互式產品能力,發布 Data Agent 組件,全面實現 Agentic化。
大數據平臺在多項國際評測中登頂榜單。
● 阿里云 PAI 與 DataWorks 團隊Agentic 在NL2SQL的 Spider 2.0-Snow 評測中,以 61.24%的執行準確率榮獲榜單第一。
● EMR 榮獲兩項國際榜首, Fusion (企業級 Spark 內核) 和 Stella (企業級 StarRocks 內核) 技術登頂 TPC 全球榜單。其中EMR Serverless Spark在TPC-DS 100TB測試中,以 QphDS 性能提升100%的成績奪冠。
● Hologres 全新向量索引 HGraph 登頂 VectorDB Benchmark 榜單,1000 萬向量召回數據集在召回率第一的情況下,QPS 亦全球第一。

構建 AI 數據底座,OpenLake 面向全模態數據量身定制
在 Agentic AI 時代,阿里云OpenLake同樣進行了全方位升級,滿足客戶面對物理世界全模態數據時所需的一體化數據存儲和管理系統。
DLF 3.0 拓展全模態數據支持,湖倉目錄服務(DLF)作為湖倉存儲層統一管理核心,將存儲格式從傳統結構化數據,拓展至全模態數據場景,支持面向 AI 場景的 Lance、Iceberg以及文件數據、格式化表格數據等全類型。
計算生態方面,OpenLake 通過多引擎平權聯合計算架構,可實現數據無需搬家、多引擎協同處理,湖倉存儲層(DLF+Managed Storage)作為單一份數據源,向上對接全鏈路大數據&AI 引擎。OpenLake同時 推出 OpenLake Studio 多模態 Data&AI 一體化開發平臺,實現一站式數據開發-治理-運維閉環,降低多模態數據+AI 的開發門檻。
淘天集團在面臨數據孤島、多引擎協同、運維成本高等問題上,采用OpenLake “存儲層統一→計算層整合→湖流一體化”的技術路徑,最終實現“實時化、一體化、低成本、高效率”的數據湖倉升級目標,為業務創新與降本提效提供了堅實數據基礎。

Agentic Search 發布:AI 搜索邁入自主協作時代
大模型的爆發式發展,傳統搜索流量逐漸轉向AI驅動的搜索工具,這一轉變背后將重構用戶搜索的交互邏輯、數據形態與技術架構。為此,阿里云正式發布 Agentic Search架構,該架構通過多Agent協同、多模態數據處理與任務自主規劃,構建了從“問題提出”到“方案自主生成”的智能閉環,補齊實現Agentict AI的最后一公里。
多模態數據處理:支持文檔、圖像、代碼、視頻等內容的解析、實體抽取與向量化,覆蓋向量引擎、數據庫、知識圖譜等多引擎協同;
自主任務規劃:依托Qwen3大模型與短期/長期記憶能力,主Agent可動態調用Code Agent、Browser Agent等工具,實現復雜問答與多跳推理;
權威測試領先:在OpenAI的BrowseComp與Deep Research評測集中,Agentic Search檢索與推理能力超越Gemini、OpenAI等國際主流方案,復雜任務準確率提升超40%。
智能輔助駕駛&機器人數據預處理與模型訓推解決方案發布
根據相關預測,2025年 L2+ 車型銷量將從100萬輛飆升至1000萬輛。智能輔助駕駛的廣泛應用帶來了海量數據,在技術架構層面,也正經歷從傳統分階段小模型架構向端到端多模態大模型的技術范式遷移,當前智駕系統實現了感知、決策、控制模塊的深度耦合。這也推動底層的大數據AI工程架構不斷升級,促使數據收集、數據處理、模型訓練、模仿學習、仿真驗證在內的工程鏈路進一步融合。同時,我們在機器人研發落地的場景中,也發現了相似的趨勢與需求。
阿里云與客戶在共建智能產線的過程中,總結并發布了面向智能輔助駕駛和機器人研發的數據處理與模型訓推解決方案。

方案底層統一的元數據管理(DLF)實現對百PB級數據的高效管控,顯著降低因數據備份、流動和處理帶來的成本,并提升處理效率。數據僅需存儲一份,即可被多種計算引擎調用,結合緩存加速與全模態壓縮技術,進一步優化研發流程。
數據處理依托MaxFrame/Spark/Ray等分布式計算引擎,在CPU/GPU異構集群中實現高效調度與資源復用,并借助Data Juicer算子框架加速預處理。經預處理生成的訓練樣本,通過大模型數據挖掘產生新標簽與Embedding。方案提供自研與開源兩套檢索引擎,支持在百PB數據中快速檢索所需樣本。
在模型訓練與推理階段,人工智能平臺 PAI 及 paiTurboX 加速框架通過多系統聯合優化,實現至高3倍性能提升,最大化硬件資源利用率,提升研發效益。
卓馭是國際領先的智能輔助駕駛供應商,提供行業一流的量產輔助駕駛和高級別智能輔助駕駛系統(覆蓋L2~L4),已與大眾汽車、上汽通用五菱、比亞迪、奇瑞汽車、長城汽車等十余汽車品牌達成深度合作,聯合推出 30 余款量產新車型,還有 30 多款車型即將量產落地。在智駕系統最核心的算法方面,卓馭創新性地采用端到端世界模型和VLA方案,基于自回歸架構和強化學習,實現智駕系統的Scaling Law,不僅實現安心擬人的駕駛體驗,也為用戶提供駕駛Agent的智能化交互體驗。
卓馭 AI 首席技術官陳曉智表示,依托阿里云,卓馭搭建了超過 3 EFLOPS 的 AI 智算平臺和大數據平臺,支撐十億級別的場景數據處理、全維度的業務洞察、以及端到端世界模型及VLA模型的高效訓練。未來,卓馭將攜手阿里云,持續打造全球領先、全球共享的智能輔助駕駛系統。

卓馭 AI 首席技術官陳曉智現場演講
自變量機器人是國內最早采用完全端到端路徑實現通用具身智能大模型的機器人公司之一,其自研的具身智能大模型 WALL-A 具備自主感知、推理、長程決策交互、世界模型與高精度復雜操作能力,多個維度能力處于全球領先水平。基于自研的基礎模型,自變量推出全自研高自由度靈巧手、輪式雙臂仿人形機器人“量子2號(Quanta X2)等硬件,已在多步驟復雜任務場景中逐步落地應用。
機器人是高度分散式的終端,但又需要和云緊密結合。自變量創始人&CEO 王潛表示,“我們需要算力、大數據、人工智能平臺三位一體的、適用于具身智能的云上AI基礎設施架構。阿里云靈活、高性能的大數據 AI 平臺,能夠完美符合并滿足機器人數據預處理、分布式部署、分布式訓練、數據大規模遠程回傳等各方面的需求,極大提升研發及模型迭代效率。”

自變量創始人&CEO 王潛現場演講
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...