美女视频免费精品,97久久亚洲,91精品韩国
首頁 > 資訊 > 數字化

人工智能的創新基石:合成數據

2024/10/14 10:38      天翼智庫


  近期,合成數據在大模型中應用的話題引起廣泛關注。6月,英偉達發布新一代開源大模型Nemotron-4 340B,其指令模型訓練是在98%合成數據基礎上完成,此前英偉達還推出了合成數據生成工具Omniverse Replicator,能夠生成物理模擬的合成數據,用于自動駕駛汽車和機器人的訓練。7月,蘋果也發布了其自研的人工智能系統Apple Intelligence,在預訓練階段也大量使用了合成數據。圍繞合成數據的價值、應用、風險等,值得我們深入思考,基于此,本文從合成數據的概念入手,分析如何生成合成數據、其主要應用領域、使用合成數據的風險挑戰,并探索未來發展前景。

  合成數據概念及興起緣由

  合成數據并不是一個全新的概念,早在1993年,著名統計學家Donald Rubin在論文中提出合成數據的概念。近年來,隨著ChatGPT的火爆和生成式人工智能技術的發展,合成數據概念受到越來越多的關注。

  眾所周知,大模型訓練和開發對數據尤其是高質量數據的需求量日益增長。然而,現實世界中大模型訓練所需數據量卻日漸緊張,面臨“不夠用、不好用、不能用”等諸多問題。

  1.不夠用

  當前大模型訓練對數據的需求量遠超數據的增長量,知名研究機構Epoch AI在一篇論文中指出,到2026年,大模型將消耗盡所有高質量數據,低質量數據將在2030年~2050消耗殆盡,而所有圖像訓練數據在2030年~2060年被消耗完。2024年6月,《麻省理工技術評論》刊出一篇論文也指出,高質量數據將在2028年前后被消耗完(見圖1)。另外,由于成本問題,也會導致某些數據難以獲取。

  圖1 人類高質量數據存量與大模型訓練所需數據量的預測1

  2.不好用

  現實世界中存在數據質量參差不齊的問題,數據中存在錯誤、缺失、異常、格式不一致等情況,例如打了馬賽克的圖片,都會使得模型分析結果產生偏差。

  3.不能用

  隨著數據使用監管加強,數據隱私保護法律法規日益完善,對涉及個人隱私權、肖像權、個人真實信息等數據的保護力度加大,要求企業在大模型開發和應用中,不得隨意使用上述數據。

  這些問題一定程度上制約了人工智能發展,合成數據應運而生。合成數據(Synthetic Data)是指通過計算機算法生成的模擬數據,它模擬真實世界的數據分布和特征,通過數學模型和生成技術,來構建新的數據集,而不是直接來自現實世界的觀測或記錄。合成數據可以通過針對性的數據補充和強化,解決數據匱乏、數據質量不足等問題;可以規避數據隱私、安全、保密等風險,在醫療、金融等領域意義重大;還可以模擬和生成現實世界中難以采集到的邊緣場景,保持數據的多樣性。

  總之,合成數據為解決上述問題提供更多方向和思路,極大拓展了AI應用的可能性。Gartner、Accenture等著名咨詢公司都看好合成數據的發展前景,認為合成數據有望解決人工智能未來發展的“數據瓶頸”,成為推動AI技術更廣泛應用的核心要素。

  合成數據如何生成

  合成數據技術路線眾多,常用的有以下三種:基于LLMs生成的合成數據、基于GANs或者Diffusion Models生成的合成數據、基于統計和模擬生成的合成數據,在實際應用中多種方式往往相互協同和補充,以提升數據合成質量。

  1.由LLMs生成的合成數據。

  LLMs擁有卓越的語言理解和表達能力,以及強大的指令遵循能力,能夠為特定場景和領域創建定制的數據集。使用LLMs生成合成數據的常見做法,可分為提示工程和多步驟生成2。首先,基于高性能模型的提示工程生成合成數據,用于補充特定領域的數據,幫助輕量級或下一代模型進行監督學習。如Meta Llama 3的后訓練完全依靠從Llama 2獲得的合成數據;又如OpenAI計劃使用o1模型生成合成數據來訓練即將推出的Orion模型。其次,基于模型生成多步驟的合成數據,可用來補充思維鏈(CoT)的中間推理過程,促進模型的對齊與進化。如浙大、中科院等機構利用GPT-4-Turbo生成代碼繪制圖像,并逐步提示模型生成解釋答案的原理,從而組成多模態合成數據集,使用該數據集對Vanilla Llava-1.5-7B微調能顯著提升其視覺推理能力,在推理難度最高的路線圖場景中,準確率提升67.4%3。

  2.由GANs或者Diffusion Models等算法生成的合成數據。

  通過對抗訓練和逐步去噪的過程,模型能夠生成與真實數據高度相似的合成圖像樣本,廣泛應用于數據增強、醫療隱私等領域。

  3.基于傳統的統計和模擬等方法生成的合成數據。

  一方面通過觀察真實的統計分布,利用算法生成符合特定統計分布的數據。另一方面,可以通過模擬器等方法創建數據,如Sora文生視頻模型用到Unity、Unreal Engine等游戲引擎合成的視頻數據作為訓練集。

  目前,市面上有許多工具可生成合成數據,如英偉達發布3D仿真數據生成引擎Omniverse Replicator、微軟開源合成數據工具Synthetic Data Showcase等。6月14日,英偉達發布開源大模型Nemotron-4 340B,包含基礎模型Base、指令模型Instruct和獎勵模型Reward,也可用于生成高質量合成數據(流程見圖2),其中Instruct模型用于生成基于文本的合成輸出,Reward模型對生成的文本進行評估并提供反饋,指導迭代改進并確保合成數據的準確性。

  圖2 Nemotron-4模型生成合成數據的流程

  合成數據的應用實踐

  近年來合成數據在具身智能、自動駕駛等領域得到重點關注及廣泛應用,如成立于2023年初的光輪智能公司,專注于在自動駕駛、具身智能等領域提供合成數據解決方案,在2023年完成種子輪、天使輪、天使+三輪融資,累計融資金額達數千萬元人民幣,并于2024年5月底完成Pre-A輪融資。

  1.合成數據為具身智能帶來了豐富、可控且經濟的訓練與學習材料,提升具身智能系統在各種復雜環境和任務中的適應性和表現能力。

  人類遠程操控機器人完成任務并生成高質量數據,其收集成本高昂且耗時,合成數據成為“擴大機器人學習的強大且經濟”的有效途徑,通過數字孿生技術,讓機器人在虛擬世界學習如何操作和感知環境。如英偉達與UT提出MimicGen數據生成系統,通過對人類演示進行處理,自動生成不同場景下的大規模合成數據集,用于機器人的模仿學習。在Square、Coffee Preparation等18個任務中,只用175個人類示例就生成超過5萬個訓練數據集,并且在Square任務中,只用10個人類示例就生成了1000個訓練數據集,覆蓋不同場景配置,并將成功率從人類示例數據集的11.3%提升至90.7%,在復雜的Coffee Preparation任務中,成功率從12.7%提升到97.3%4。

  2.合成數據為自動駕駛領域帶來豐富的訓練資源,提升自動駕駛系統的性能和安全性。

  在自動駕駛車輛的開發過程中,邊緣場景(如復雜交通、惡劣天氣等)的數據采集尤為困難,國內領先的數據仿真平臺公司51Sim利用先進的仿真技術構建各類低概率、高風險的邊緣場景,增加訓練樣本和多樣性,提升感知算法泛化能力,幫助主機廠加速模型訓練。同時,51Sim參與北京大學牽頭的“面向自動駕駛場景的高真實感數據合成”研究課題5,通過將自動駕駛示范園區典型的真實場景與擬真度極高的渲染算法進行集成,生成帶有多模態數據標注的高逼真合成場景數據集,大幅推動視覺大模型和高速脈沖視覺模型算法研究評測在自動駕駛場景中的落地應用。

  合成數據的挑戰及應對

  由于合成數據的生成機制和技術特性限制,其應用存在一定隱憂。今年7月,Nature一篇最新論文顯示,運用合成數據迭代訓練9次,導致大模型不可避免走向崩塌。同樣,杜克大學助理教授Emily Wenger發表在Nature上的一篇社論文章也指出,基于合成數據訓練的大模型生成的圖像會扭曲狗的圖片。其本質原因是由于使用合成數據進行模型訓練會忽視異常值和偏差值,從而導致原始數據分布的長尾消失,而經常出現的內容被無限放大,模型越來越偏離原始數據分布。

  這正是合成數據應用存在的挑戰之一,即數據保真度問題,合成數據無法完全模擬真實世界的復雜性和多樣性,這會影響模型的訓練效果和推理能力。挑戰之二,即數據偏差問題,如果合成數據的生成過程本身存在偏差,例如人工惡意植入錯誤信息或誤導信息,合成數據會繼承甚至不斷放大這種偏差。挑戰之三,即可信度問題,合成數據的產生過程通常是“黑盒”的,難以解釋生成數據的具體原理和過程,可能導致對合成數據的來源和質量產生質疑。挑戰之四,即法律和監管問題,目前合成數據的監管體系尚不完善,如何確保合成數據的合規使用,如何解決帶來的新的安全問題,這都是需要進一步考慮和研究的問題。

  在技術方面,應對挑戰的有效方法之一是采取“混合數據”策略,即在大模型訓練中輸入多樣化的數據,保持真實數據的一定比例。如在大模型預訓練階段仍以真實數據為主導,合成數據作為針對性補充和拓展則保持較低占比(如5-10%);而在對齊階段,提升合成數據占比,使其與真實數據規模相當,甚至可以更高。其他應對方案還包括調整生成參數、提供多樣的提示等。

  在監管方面,應注重合成數據的隱私保護和數據安全、合規使用、法律和倫理考量、持續監督與評估等多方面的規范和引導。2024年7月15日,新加坡個人數據保護委員會(PDPC)發布了《合成數據生成指南》,對合成數據的生成技術、典型應用、生成步驟等進行詳細說明,提供了合成數據生成技術和方法指導,并強調了隱私保護與數據質量控制的重要性。歐盟頒布的《通用數據保護條例》(GDPR)對合成數據的生成和使用提出了監管要求;今年6月,歐盟數據保護監管機構(EDPS)發布的關于生成式人工智能數據合規指南,為合成數據的合規使用也提供了一定參考。我國于2022年11月發布《互聯網信息服務深度合成管理規定》,對深度合成技術使用進行系統性規定,促進深度合成服務規范發展。

  合成數據的未來發展展望

  合成數據領域正迎來快速發展,其應用前景廣闊,據Gartner預測,2024年AI訓練中用到的數據有60%是合成數據,到2030年絕大部分訓練數據將是合成數據。據著名市場調研機構Nester預測,全球合成數據的市場呈現蓬勃發展趨勢,年復合增長率達35%,預計到2035年底,合成數據市場規模將達124.5億美元(見圖3)。可見,合成數據作為數字經濟時代的“新型石油”,將為推動人工智能產業乃至經濟社會快速發展提供新動能。

  圖3 合成數據全球市場規模預測(億美元)6

  總之,合成數據或成為推動大模型能力躍遷的重要突破口,帶來廣闊市場前景和全新商業機會,但其本身也存在數據質量、技術突破、法律監管等挑戰,應從技術、產業、監管等多方面持續研究和探索,共同推動合成數據走向“科技向善”。

  注釋

  1.Will we run out of data? ,《麻省理工技術評論》,2024.6。

  2.On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, 《Computer Science》, 2024.06。

  3.Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model, 《Computer Science》, 2024.09。

  4.MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations,Conference paper,2023.10。

  5.該課題為科技部科技創新2030—— “新一代人工智能”重大項目“人工智能基礎模型支撐平臺與評測技術”中的課題研究五。

  6.數據來源:nester,https://www.researchnester.com/cn/reports/synthetic-data-generation-market/5711

  本文作者

  虞蘇妍

  戰略發展研究所

  高級分析師

  高級工程師,擁有20年通信行業研究經驗,長期從事產業研究、戰略評估等,近年來專注產業數字化、數字政府等領域。

  左芳芳

  戰略發展研究所

  二級分析師

  碩士,戰略發展研究天翼智庫數據中心,長期從事行業洞察與研究工作,近期聚焦產業數字化、數字政府、大數據等研究領域。

  田盼

  戰略發展研究所

  副主任分析師

  高級工程師,就職于中國電信研究院,長期從事產業數字化政策、需求和趨勢研究。

IT產業網微信二維碼logo

  行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
蜜臀久久精品| 快she精品国产999| 精品久久免费| 国产精品毛片在线| 91亚洲成人| 日韩欧美另类中文字幕| 超级白嫩亚洲国产第一| 亚洲欧美日韩一区在线观看| 久久三级毛片| 蜜臀av亚洲一区中文字幕| 国产精选在线| 电影91久久久| 国产欧美日韩综合一区在线播放| 一区在线免费| 日韩欧美一区免费| 视频一区视频二区在线观看| 日韩中文欧美| 精品视频免费| 国产情侣一区在线| 亚洲精品一级二级三级| 91精品二区| 99热精品久久| 欧美成人基地| 97精品国产一区二区三区| 麻豆视频久久| 国产精品久久久久久模特| 日韩中文字幕在线一区| 99riav国产精品| 日韩欧美精品综合| 人人草在线视频| 国产毛片精品| 蜜臀av国产精品久久久久| 国产一区二区三区精品在线观看| 国产乱码精品一区二区三区亚洲人 | 麻豆精品在线观看| 日韩久久一区| 国产精品视频3p| 国产麻豆一区| 久久99影视| 精品国产乱码久久久| 欧美aⅴ一区二区三区视频| 国产福利亚洲| 国产精品片aa在线观看| 国产精品一级在线观看| 国产精品亚洲综合在线观看| 麻豆成人91精品二区三区| 久久久久久色 | av一区在线| 好看不卡的中文字幕| 免费日韩成人| 97精品国产一区二区三区| 亚洲婷婷丁香| 久久网站免费观看| 国产极品久久久久久久久波多结野| 一区在线免费观看| 水蜜桃精品av一区二区| 成人av动漫在线观看| 美腿丝袜亚洲三区| 免费视频一区二区| 久久久久久黄| 国产精品久久久免费| 亚洲欧美日韩视频二区| 国产精品av一区二区| 福利一区二区| 日韩精品诱惑一区?区三区| 日韩精品视频网| 97精品一区| 丝袜美腿成人在线| 国产精品成人一区二区不卡| 欧美午夜精彩| 国产欧美日韩精品高清二区综合区 | 99视频精品全国免费| 国产亚洲一级| 久久一区精品| 日韩在线a电影| 91亚洲一区| 日本不卡视频在线| 欧美aa在线观看| 日本aⅴ精品一区二区三区| 精品久久免费| 日本在线不卡视频一二三区| 日韩在线观看一区| 欧美日本三区| 99国产精品私拍| 超碰在线99| 国产欧美88| 日韩中文字幕无砖| 久久国产中文字幕| 水蜜桃精品av一区二区| 91精品国产自产精品男人的天堂| 日韩一区三区| 国产91在线精品| 青草av.久久免费一区| 一区久久精品| 亚洲成人不卡| 久久男人av资源站| 久久精品午夜| 日本视频一区二区| 免费久久99精品国产| 999精品在线| 正在播放日韩精品| 国产精品久久久网站| 欧美亚洲色图校园春色| 综合激情婷婷| 视频一区二区不卡| 亚洲在线国产日韩欧美| 激情欧美国产欧美| 成人免费网站www网站高清| 精品一区二区三区中文字幕在线| 红桃视频国产精品| 亚洲精品888| 午夜电影亚洲| 欧美午夜不卡| 不卡一区综合视频| 亚洲精品一区二区妖精| 五月婷婷亚洲| 蜜臀av国产精品久久久久| 国产视频一区三区| 丝瓜av网站精品一区二区| 六月婷婷一区| 视频在线观看一区| 日韩av在线免费观看不卡| 亚洲日本欧美| 日韩一二三区在线观看| 免费看精品久久片| 亚洲欧洲国产精品一区| 日韩在线电影| 欧美久久久网站| 精品欧美日韩精品| 久久久久欧美精品| 午夜视频精品| 日韩精品电影一区亚洲| 久久国产欧美日韩精品| 久久99偷拍| 久久精品91| 丝袜亚洲精品中文字幕一区| 日本在线视频一区二区| 久久精品日韩欧美| 国内精品99| 亚洲久久视频| 麻豆网站免费在线观看| 国产韩日影视精品| 日韩av影院| 国产一区二区三区日韩精品| 亚洲调教视频在线观看| 四虎成人精品一区二区免费网站| 久久精品99久久久| 91亚洲成人| 亚洲欧美网站| 国产欧美亚洲一区| 亚洲91久久| 欧美亚洲tv| 99久久夜色精品国产亚洲狼 | 久久精品观看| 一区二区国产在线| 精品国产乱码久久久| 日韩成人亚洲| 亚洲日产av中文字幕| 精品欧美日韩精品| 欧美日韩国产一区二区三区不卡| 六月婷婷一区| 一本大道色婷婷在线| 日本不卡中文字幕| 欧美日韩在线二区| 国产精品久久久久久久久久久久久久久 | 国产一区二区精品| 国产高清精品二区| 亚洲激情不卡| 麻豆国产精品一区二区三区 | 国产精品欧美大片| 亚洲欧美一区在线| 欧美天堂一区二区| av亚洲在线观看| 国产一区2区| 日本久久二区| 亚洲二区三区不卡| 日本蜜桃在线观看视频| 日韩一区二区三免费高清在线观看 | 亚洲资源在线| 伊人久久大香线蕉av不卡| 国产精品hd| 午夜亚洲福利| 亚洲深爱激情| 欧美色图一区| 国产成人精品亚洲线观看 | 99久久精品网站| 国产成人黄色| 国产精品毛片视频| 中文字幕免费精品| 午夜久久久久| 欧美丝袜一区| 色在线视频观看| 久久超级碰碰| 日韩国产91| 日韩在线观看一区二区三区| 影音先锋国产精品| 欧美日韩国产综合网| 久久一区二区三区喷水| 日韩免费福利视频| av高清不卡|