黄色av一区,91欧美精品,亚洲tv在线
首頁 > 資訊 > 評論

AIGC時代,需要什么樣的云存儲?

2024/04/11 11:00      光錐智能 文|白 鴿 編|王一粟


  文|白 鴿

  編|王一粟

  AIGC狂飆一年,算法進步和應用落地的爆發,讓中國云計算廠商感受著切實的變化。

  “今年一季度,大模型企業在云存儲的消耗同比在增加。”

  4月8日,在騰訊云AIGC云存儲解決方案升級發布會上,騰訊云存儲總經理馬文霜同時預計,今年AIGC對于云端的調用量一定是爆發式的增長。

  馬文霜還開半玩笑地說,“可能這些企業拿到的投資更多了”。

  隨著多模態技術的進化和落地應用的逐漸爆發,讓大模型的訓練和推理迎來了一些新的挑戰。

  事實上,從語言和圖像為主的GPT,到視頻生成模型Sora,大模型參數正在指數級增長。比如ChatGPT在GPT-2時是10億參數量,到現在GPT-4已經有1.8萬億參數。Sora為主的多模態技術,更會讓需要處理的數據量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時代。

  參數越大,對云存儲的需求就會越高,包括云存儲的數據量以及吞吐量等,如果云存儲能力不能夠滿足大模型的需求,則會直接影響到大模型的訓練速度和推理效率。

  在大模型加速發展的階段,大模型企業也越來越重視云存儲這一重要的底層基礎設施能力。但AIGC時代,究竟需要什么樣的云存儲技術?

  AIGC數據訓練的新需求,云存儲的新挑戰

  “內卷”之下,大模型企業開始拼算力、拼參數,更拼大模型的更新速度。

  如百川智能,前期平均一個月發布升級一款大模型,百度文心一言在發布之初,甚至一個月內就完成了4次技術版本的升級。

  想要保持大模型的更新頻率和速度,就要保證整個大模型數據訓練過程的高效,其中某一個環節出現問題,就可能會拉長整個訓練時長,增加訓練成本。

  因此,作為整個大模型數據訓練的底座,云存儲的重要性日益凸顯。那么,AIGC時代到底需要什么樣的云存儲技術?

  存儲作為數據的載體,現如今已經不僅僅只承擔“存”的作用,更需要打通數據從“存”到“用”的最后一公里。

  始于19年前QQ空間的騰訊云存儲,如今在國內云廠商中存儲能力一直處于領導者象限(沙利文報告),他們的做法對行業頗有借鑒意義。

  馬文霜向光錐智能提到,在AIGC數據訓練的4個環節中,存儲需要提供的具體能力,包括:

  數據采集階段,需要一個大容量、低成本、高可靠的數據存儲底座;

  數據清洗階段,需要提供更多協議的支持,以及至少GB甚至TB級的數據訪問性能;

  數據訓練階段,作為大模型訓練的關鍵環節,則需要一個TB級的帶寬存儲保證訓練過程中Checkpoint能夠快速保存,以便于保障訓練的連續性和提升CPU的有效使用時長,也需要存儲提供百萬級IOPS能力,來保證訓練時海量小樣本讀取不會成為訓練瓶頸;

  數據應用階段,則需要存儲提供比較豐富的數據審核能力,來滿足鑒黃、鑒暴等安全合規的訴求,保證大模型生成的內容以合法、合規的方式使用;

  在這4個環節中,騰訊云AIGC云存儲解決方案,分別由4款產品提供專屬服務,包括對象存儲COS、高性能并行文件存儲CFS Turbo、數據加速器GooseFS和數據萬象CI。

  而這次騰訊云存儲面向AIGC場景的升級,就是基于上述4款產品將大模型的數據清洗和訓練效率提升1倍,整體訓練時長縮短一半。

  首先,在數據采集環節, 基于自研的對象存儲引擎YottaStore,騰訊云對象存儲COS可支持單集群管理百EB級別存儲規模,多種協議和不同數據公網接入能力,可以讓采集的原始數據便捷入湖。

  數據清洗環節,COS訪問鏈路比較長,數據讀取效率并不高,所以騰訊云在這中間添加了一層自研的數據加速器GooseFS。

  COS通過自研數據加速器GooseFS提升數據訪問性能,可實現高達數TBps的讀取帶寬,提供亞毫秒級的數據訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。

  “這讓單次數據清洗任務耗時減少一半。”馬文霜說道。

  相比采集和清潔,大模型的訓練則更加耗時, 短則數周、長則數月,這期間如果任何一個CPU/GPU的節點掉線,都會導致整個訓練前功盡棄。

  業內通常會采用2~4個小時保存一次訓練成果,即Checkpoint(檢查點),以便能在GPU故障時能回滾。

  此時則需要將保存的Checkpoint時間縮短到越短越好,但數千上萬個節點都需要保存Checkpoint,這就對文件存儲的讀寫吞吐提出了非常高的要求。

  馬文霜表示:“兩年前我們發布高性能并行文件存儲CFS Turbo第一個版本,是100GB的讀寫吞吐,當時覺得這個讀寫吞吐已經足夠大,很多業務用不到。但去年大模型出來以后,用CFS Turbo再去寫Checkpoint,我們發現100G還遠遠不夠。”

  CFS Turbo底層技術來自于騰訊云自研的引擎Histor。此次升級,騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫入時間從10分鐘,縮短至10秒內,時間降低90%,大幅提升大模型訓練效率。

  針對數據訪問延遲問題, 騰訊云引擎Histor可支持單個節點GPU與所有存儲節點進行通信,進行并行數據訪問。“另外,我們通過RDMA(遠程直接地址訪問)等技術不斷優化數據訪問延遲,縮短IO路徑,最終可做到亞毫秒級訪問延遲。”馬文霜說道。

  同時,騰訊云Histor還可以將元數據目錄打散至所有存儲節點上,提供線性擴張能力,從而實現文件打開、讀取、刪除的百萬級IOPS能力。

  應用階段,大模型推理場景則對數據安全與可追溯性提出更高要求。 騰訊云數據萬象CI是一站式內容治理服務平臺,它可以對AI生成的內容進行一站式管理,可以提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力。

  此次升級,騰訊云重點講述了智能數據檢索MetaInsight,其能夠基于大模型和向量數據庫進行跨模態搜索服務,也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶快速鎖定目標內容,提升審核效率。

  基于這套AIGC云存儲技術底座,騰訊云存儲總經理陳崢表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。

  目前,除騰訊自己的混元大模型,數據顯示,已有80%的頭部大模型企業使用了這套AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業。

  而針對解決方案升級后的產品價格,馬文霜則表示,“不會有變化”。在阿里云和京東云都宣布降價時,騰訊云并沒有選擇降價,而是“加量不加價”。

  “穩定性、高性能,以及性價比,是大模型時代云存儲的核心。”騰訊云智能存儲總監葉嘉梁說道。

  當然,在AIGC時代,云廠商都想抓住這一次用云需求爆發的機會。 除了騰訊云外,阿里云、華為云等其他云廠商在AIGC云存儲領域也都有相應的布局。

  比如2023年,華為云針對大模型時代的云存儲發布了OceanStor A310 深度學習數據湖存儲和FusionCube A3000 訓/推超融合一體機兩款產品。

  阿里云面向AI時代的云存儲解決方案,也覆蓋了底層對象存儲 OSS數據湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務以及智能媒體管理IMM平臺等產品。

  可以看到,圍繞AIGC的需求,云廠商在云存儲領域迅速更新換代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優勢。

  云存儲技術僅是云計算眾多底層核心技術之一,隨著大模型深度發展,云廠商們已經開始在整個PaaS層、IaaS層、MaaS層,都在圍繞AIGC進行迭代升級,為行業提供全鏈路大模型云服務。

  云廠商狂飆,爭做“最適合大模型”的云

  云已經成為大模型的最佳載體,大模型也正在重塑云服務的形態。

  馬文霜認為,云上豐富的資源、計算、存儲、網絡、容器技術和PaaS,都能夠解決AIGC在各個環節上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態支持,讓客戶可以聚焦在自己產品競爭力的方向進行開發,加速整體研發效率以及應用落地的速度。

  面對AIGC帶來的大模型發展浪潮,騰訊集團副總裁、騰訊云與智慧產業事業群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開創下一代云服務,騰訊云要打造“最適合大模型的云”。

  自從大模型熱潮爆發以來,騰訊云在大模型業務推出上不是最快的一個,但卻是最扎實的一個。

  在2023年9月的騰訊全球數字生態大會上,騰訊云面向AIGC場景推出了基于星脈網絡的大模型訓練集群HCC、向量數據庫以及行業大模型的MaaS服務。

  也就是說,騰訊云從底層智算能力,到中間件,再到上層MaaS,已經實現了全鏈路大模型云化能力升級迭代,每個業務都很務實。

  比如,針對大模型對算力的迫切需求,騰訊云高性能計算集群HCC為大模型訓練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網絡,能提升40%GPU利用率,節省30%~60%模型訓練成本,提升AI大模型10倍通信性能。利用星星海自研服務器的6U超高密度設計和并行計算理念,確保高性能計算。

  針對在中間層對數據調度應用的需求,騰訊云向量數據庫,可為多維向量數據提供高效存儲、檢索和分析能力。客戶可將私有數據經過文本處理和向量化后,存儲至騰訊云向量數據庫,從而創建一個定制化外部知識庫。在后續查詢任務中,這個知識庫也能為大模型提供必要的提示,輔助AIGC應用產生更精確的輸出。

  而針對行業大模型開發與落地應用服務,騰訊云則在整個云底座之上推出了MaaS服務解決方案,為企業客戶提供涵蓋模型預訓練、模型精調、智能應用開發等一站式行業大模型解決方案。

  其中,值得一提的是騰訊云是業界最早提出走“向量數據庫”路線的云廠商,在大家對大模型部署還尚有技術路線爭議之初,騰訊就做了這個選擇。目前,向量數據庫+RAG(檢索增強)也已經成為業內使用頻率最多的大模型部署路線。

  可以看到,在回歸“產品優先”戰略后,騰訊云在大模型時代的打法也逐漸清晰——不盲目追隨行業,而是基于對AIGC的理解,做自己的產品迭代。

  不過,面對十年一遇的大模型機會,華為云、阿里云、百度云等云廠商也都在2023年爭先恐后地布局,騰訊云的壓力并不小。

  過去一年,華為云構建了包括以華為云昇騰AI云服務為算力底座、行業首個大模型混合云Stack 8.3,在MaaS層用盤古大模型在千行百業中落地。華為云還上線了昇騰AI云服務百模千態專區,收錄了業界主流開源大模型。可以看到,華為云集成了算力、政企、行業、生態等多方面的優勢,可謂火力全開。

  阿里云則是國內大廠中唯一做開源大模型的公司,說明心態最為開放、做平臺的決心最強。 阿里云在智能算力底座之上,打造了以機器學習平臺PAI為核心的PaaS服務,以及上層MaaS服務。其中,在開發者生態層,截至2023年11月1日,阿里云發起的AI模型社區魔搭已經有超過2300個模型,開發者超過280萬,模型下載次數也超過了1億多次。

  云廠商們掀起了新一輪廝殺,是因為大模型的紅利。

  AI的發展正在帶動用云需求的增長,并已成為云計算產業發展的第二增長曲線。畢竟,大模型的算力使用幾乎可以說是“無底洞”,此前業界曾預測OpenAI訓練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

  因此,在AIGC時代,各大云廠商都在探索如何基于AI重塑云計算技術和服務體系,開辟全新的服務場景和服務內容,從而能夠抓住這輪AI大模型升級發展所帶來的機會。

  大趨勢下,Cloud for AI不僅是云廠商的新機會,也是必答題。陳崢也表示,云廠商現階段所能夠做的就是提前進行技術產品布局,并將整個數據價值開放給客戶,從而讓客戶更好的利用數據。

IT產業網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
伊人国产精品| av中文资源在线资源免费观看| 久久亚洲国产精品尤物| 亚洲高清二区| 国产劲爆久久| 久久久影院免费| 欧美一区网站| 91精品91| 国产精品日本一区二区不卡视频 | 久久亚洲道色| 午夜宅男久久久| 在线一区视频观看| 久久精品 人人爱| 精品一区欧美| 日韩大片在线观看| 国产欧美日韩免费观看| 老司机久久99久久精品播放免费| 中文字幕在线看片| 麻豆久久一区二区| 日本不卡视频在线观看| 久久精品不卡| 91视频久久| 国产精品调教视频| 午夜日韩影院| 亚洲久久视频| 不卡中文一二三区| 日韩精品欧美| 中文在线а√在线8| 麻豆精品视频在线观看| 日本99精品| 中文字幕日韩欧美精品高清在线| 亚洲成人国产| 欧美成a人免费观看久久| 精品网站999| 国产欧美欧美| 日韩av影院| 日韩精品一区二区三区免费视频| 中文字幕日韩亚洲| 日韩不卡一区二区| 青青青国产精品| **爰片久久毛片| 日韩福利视频导航| 日韩高清在线一区| 国产精品色婷婷在线观看| 日本va欧美va精品| 久久三级中文| 国产美女高潮在线观看| 免费在线亚洲欧美| 精品一区不卡| 国产精品99视频| 国产精品99在线观看| 91欧美国产| 久久久水蜜桃av免费网站| 亚洲成人不卡| 亚洲福利国产| 国产精品毛片一区二区三区| 精品在线91| 日韩欧美2区| 国产精品调教视频| 欧美精选视频一区二区| 国产精品毛片一区二区三区| 亚洲91网站| 精品久久亚洲| 黄色日韩精品| 夜久久久久久| 日韩精品免费视频人成| 麻豆精品视频在线观看| 尤物tv在线精品| 中文字幕免费精品| 麻豆国产精品| 黄色免费成人| 国产精品久久久久9999高清| 日韩大片在线| 日本在线观看不卡视频| 成人日韩av| 亚洲一区区二区| 黄色精品视频| 在线免费观看亚洲| 亚洲女同av| 日韩精品一区二区三区中文在线| 精品国产欧美| 亚洲资源在线| 成人免费网站www网站高清| 日韩视频二区| 色婷婷综合网| 日韩精品一区二区三区中文字幕| 青青青免费在线视频| 四虎在线精品| 欧美日韩水蜜桃| 国产精品分类| 日韩中文字幕亚洲一区二区va在线| 久久精品99国产精品| 国产美女精品| 韩国久久久久久| 欧美自拍一区| 玖玖玖国产精品| 久久精品中文| 久久亚洲国产精品尤物| 日韩综合一区二区| 亚洲大片在线| 国产 日韩 欧美一区| 日韩高清二区| 亚洲免费福利一区| 欧美美女一区| 亚洲天堂av影院| 久久国产免费看| 国产精品外国| 国产一区日韩一区| 热三久草你在线| 欧美精品导航| 国产精品tv| 日韩精品久久理论片| 亚洲欧美日韩国产一区二区| 免费在线播放第一区高清av| 97精品国产99久久久久久免费| 日韩中文字幕亚洲一区二区va在线 | 国产日韩欧美一区| 免费在线观看一区二区三区| 日韩在线中文| 欧美日本不卡高清| 日本中文字幕一区二区视频| 亚洲综合另类| 视频一区二区国产| 国产精品日本| 亚洲精品护士| 欧美午夜网站| 国产精品视频3p| 国产一区二区视频在线看| 国产亚洲一区二区三区啪| 美女黄网久久| 亚洲一区二区免费在线观看| 亚洲欧洲一区| 免费人成在线不卡| 综合欧美精品| 日韩一区二区三区精品| 日本不卡在线视频| 日韩1区2区日韩1区2区| 日韩精品视频中文字幕| 日韩区欧美区| 国产美女久久| 欧美国产偷国产精品三区| 日本а中文在线天堂| 久久久水蜜桃av免费网站| 欧美在线亚洲综合一区| 黄色欧美日韩| 日韩一区精品字幕| 日韩精品久久久久久久软件91| 国产精品片aa在线观看| 久久一区亚洲| 日韩欧美一区二区三区在线视频| 日韩一区二区在线免费| 久久人人97超碰国产公开结果| 亚洲欧美一区在线| 中文字幕亚洲在线观看| 国产精品网在线观看| 中文字幕在线看片| 日韩精品一二三四 | 欧美日韩免费看片| 久久网站免费观看| 日韩午夜黄色| 久久国内精品| 91av亚洲| 中文亚洲免费| 麻豆视频久久| 狠狠爱成人网| 精品欧美日韩精品| 亚洲一区观看| 久久97视频| 视频一区二区不卡| 国产不卡精品| 亚洲日本久久| 久久精品影视| 亚洲精品人人| 日本欧美不卡| 国产亚洲欧美日韩在线观看一区二区 | a天堂资源在线| 丝袜诱惑制服诱惑色一区在线观看| 日韩av网站在线免费观看 | 石原莉奈一区二区三区在线观看| 国产精品入口久久| 亚洲免费成人| 中文字幕高清在线播放| 亚洲另类视频| 91精品久久久久久久久久不卡| 亚洲字幕久久| 激情婷婷综合| 国产精品www.| 蜜桃视频第一区免费观看| 日韩欧美三级| 久久超级碰碰| 美国欧美日韩国产在线播放| 国产伊人久久| 免费中文字幕日韩欧美| 色欧美自拍视频| 日韩av午夜在线观看| 99视频一区| 久久亚洲国产| 精品国产第一福利网站| 免费在线日韩av| 青青伊人久久|