C114訊 9月24日消息(水易)今日,2025年中國國際信息通信展覽會開幕式在北京舉辦。在主論壇上,中國工程院院士鄔賀銓發(fā)表《開發(fā)數(shù)據(jù)要素推進數(shù)實融合》的主旨演講。
他表示,當(dāng)前,我們正進入智能體時代,AI將是數(shù)實融合發(fā)展新階段的最大變量,上云是支撐數(shù)實融合的關(guān)鍵,而數(shù)據(jù)作為推動數(shù)字化轉(zhuǎn)型走深走實的抓手,數(shù)據(jù)要素的發(fā)揮決定了數(shù)實融合的成效。
不過,當(dāng)前數(shù)據(jù)要素市場化面臨多重挑戰(zhàn)。據(jù)統(tǒng)計,72%的企業(yè)因權(quán)屬不清而拒絕數(shù)據(jù)共享;數(shù)據(jù)資產(chǎn)評估誤差幅度超過±300%;跨省政務(wù)數(shù)據(jù)調(diào)用平均耗時高達17天。另外,企業(yè)數(shù)據(jù)80%還要靠自身數(shù)據(jù),同時企業(yè)生產(chǎn)數(shù)據(jù)中僅2.9%被存儲,其中40%在一年內(nèi)未被有效利用。
以上種種嚴(yán)重制約了數(shù)據(jù)要素的流通與價值釋放。與此同時,企業(yè)對數(shù)據(jù)要素的開發(fā)仍存在困惑和顧慮,集中體現(xiàn)在不會用:需要專業(yè)技術(shù)支持;不敢用:涉及用戶隱私和數(shù)據(jù)安全風(fēng)險;不愿用:投入產(chǎn)出比不確定,回報周期長,麥肯錫預(yù)計平均超5年。
鄔賀銓表示,破解上述難題,激活數(shù)據(jù)要素價值需要在技術(shù)、制度和生態(tài)上協(xié)同,可從完善數(shù)據(jù)全生命周期開發(fā)與安全技術(shù)及服務(wù)入手。通過數(shù)字網(wǎng)絡(luò)基礎(chǔ)設(shè)施、算力基礎(chǔ)設(shè)施、數(shù)據(jù)流通利用基礎(chǔ)設(shè)施和數(shù)據(jù)安全基礎(chǔ)設(shè)施,完成數(shù)據(jù)預(yù)處理、數(shù)據(jù)資源調(diào)用、數(shù)據(jù)可信計算。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),包括數(shù)據(jù)生成、采集、存儲、標(biāo)識、編目、索引、清洗和標(biāo)注等步驟。
數(shù)據(jù)采集(生成)可通過API、爬蟲、傳感器實現(xiàn),但傳感采集成本高昂,同時中文開源語料庫不足,預(yù)計高質(zhì)量語料將在2026年面臨枯竭,此外原始數(shù)據(jù)的采集已跟不上AI訓(xùn)練的需求。因此,用AI生成數(shù)據(jù)成為必然趨勢,但需注意反復(fù)迭代可能導(dǎo)致數(shù)據(jù)失真,需附加標(biāo)記以示與原生數(shù)據(jù)區(qū)別,一定比例的原生數(shù)據(jù)仍是必須。采集完數(shù)據(jù)需要存儲,存儲需統(tǒng)一標(biāo)準(zhǔn)格式,便于結(jié)構(gòu)化調(diào)用。
數(shù)據(jù)標(biāo)識方面,網(wǎng)絡(luò)層依靠IPv6,應(yīng)用層依靠OID和UUID,但行業(yè)標(biāo)識標(biāo)準(zhǔn)各異,如金融SWIFT、醫(yī)療HL7,需針對性定義語義。值得一提的是,標(biāo)識字段如直接使用身份證號/手機號將導(dǎo)致隱私泄露,需采用哈希替代或采用UUID。
數(shù)據(jù)編目與索引方面,通過目錄分類(結(jié)構(gòu)化/半結(jié)構(gòu)化、存儲模式、敏感程度、來源、生成方式、使用頻度、流規(guī)模、任務(wù)類型、預(yù)處理等)和索引規(guī)則,實現(xiàn)數(shù)據(jù)高效檢索。
數(shù)據(jù)清洗需去重、補漏、邏輯校驗,以及脫敏和匿名化,同時避免過度清洗或惡意保留錯誤數(shù)據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)是為數(shù)據(jù)添加機器可讀標(biāo)簽,如拉框打點,當(dāng)前多依賴人力外包,需防范數(shù)據(jù)外泄和惡意代碼注入風(fēng)險。
數(shù)據(jù)資源調(diào)用前首先需要對數(shù)據(jù)供給/使用者進行接入認證,不僅需要源宿IP地址認證,還要采用屬性基訪問控制等方式提升安全性。
數(shù)據(jù)調(diào)用時,企業(yè)需明確自身數(shù)據(jù)需求,如財務(wù)分析、生產(chǎn)監(jiān)控,選擇云服務(wù)商完成數(shù)據(jù)預(yù)處理。調(diào)用第三方數(shù)據(jù)時需簽名驗證、PKI認證,可利用區(qū)塊鏈確權(quán),通過聯(lián)邦學(xué)習(xí)實現(xiàn)“可用不可見”,需嚴(yán)格審核第三方服務(wù)商資質(zhì),防范配置錯誤、內(nèi)部威脅等風(fēng)險。
數(shù)據(jù)開發(fā)時可以利用數(shù)據(jù)集成、數(shù)據(jù)建模、工作流調(diào)度和數(shù)據(jù)治理等工具鏈提升效率,需防范憑證泄露等風(fēng)險。模型與算力調(diào)用時,評估模型適用性,通過容器快速部署,根據(jù)任務(wù)類型調(diào)度算力資源。同時,需落實角色訪問控制、安全審批流程,遵守《數(shù)據(jù)安全法》和《個人信息保護法》。
數(shù)據(jù)需要可信計算,通過可信計算、隱私保護、存證和審計等技術(shù),形成可信數(shù)據(jù)空間。這是基于共識規(guī)則,聯(lián)接多方主體,實現(xiàn)數(shù)據(jù)資源共享共用的一種數(shù)據(jù)流通利用基礎(chǔ)設(shè)施。
鄔賀銓介紹,可信數(shù)據(jù)空間不僅有安全加密計算,還提供數(shù)據(jù)源認證和接入身份認證,提供數(shù)據(jù)資源目錄,提供數(shù)據(jù)格式和協(xié)議的轉(zhuǎn)換,對敏感數(shù)據(jù)提供過濾和去標(biāo)識化,提供算力調(diào)用和數(shù)據(jù)挖掘工具鏈,提供可信計算平臺和數(shù)據(jù)流通安全合規(guī)管理,支持聯(lián)邦學(xué)習(xí)與隱私計算等等,破解企業(yè)不會用、不敢用、不愿用的“三不”難題。
行業(yè)資訊、企業(yè)動態(tài)、業(yè)界觀點、峰會活動可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...