8月14日,在“高質量完成‘十四五’規劃”系列主題新聞發布會上,國家發展改革委黨組成員、國家數據局局長劉烈宏介紹,在人工智能時代,Token,也就是大家通常所說的詞元,作為處理文本的最小數據單元,如同互聯網時代大家所說的“流量”。2024年初,我國日均Token的消耗量為1千億,截至今年6月底,日均Token消耗量已經突破30萬億,1年半時間增長了300多倍,這反映了我國人工智能應用規模的快速增長。
劉烈宏表示,作為人工智能發展的三大核心要素之一,數據在推動“人工智能+”過程中發揮著關鍵作用,特別是高質量數據集的建設至關重要,比如在醫療健康領域,通過標注的醫學影像高質量數據集,模型的疾病診斷準確率可以提升15%以上。
據了解,國家數據局持續推進高質量數據集建設工作。截至今年6月底,我國已經建設高質量數據集超過3.5萬個,總體量超過了400PB(1PB可存儲約5億張2MB大小的高清照片,400PB的總量相當于中國國家圖書館數字資源總量的140倍左右)。人工智能模型的訓練也推動了數據交易需求的攀升,截至今年6月底,各地高質量數據集累計交易額近40億元,數據交易機構掛牌的高質量數據集總規模達到了246PB。
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...