人工智能的創新基石：合成數據

2024/10/14 10:38 天翼智庫

　　近期，合成數據在大模型中應用的話題引起廣泛關注。6月，英偉達發布新一代開源大模型Nemotron-4 340B，其指令模型訓練是在98%合成數據基礎上完成，此前英偉達還推出了合成數據生成工具Omniverse Replicator，能夠生成物理模擬的合成數據，用于自動駕駛汽車和機器人的訓練。7月，蘋果也發布了其自研的人工智能系統Apple Intelligence，在預訓練階段也大量使用了合成數據。圍繞合成數據的價值、應用、風險等，值得我們深入思考，基于此，本文從合成數據的概念入手，分析如何生成合成數據、其主要應用領域、使用合成數據的風險挑戰，并探索未來發展前景。

　　合成數據概念及興起緣由

　　合成數據并不是一個全新的概念，早在1993年，著名統計學家Donald Rubin在論文中提出合成數據的概念。近年來，隨著ChatGPT的火爆和生成式人工智能技術的發展，合成數據概念受到越來越多的關注。

　　眾所周知，大模型訓練和開發對數據尤其是高質量數據的需求量日益增長。然而，現實世界中大模型訓練所需數據量卻日漸緊張，面臨“不夠用、不好用、不能用”等諸多問題。

　　1.不夠用

　　當前大模型訓練對數據的需求量遠超數據的增長量，知名研究機構Epoch AI在一篇論文中指出，到2026年，大模型將消耗盡所有高質量數據，低質量數據將在2030年~2050消耗殆盡，而所有圖像訓練數據在2030年~2060年被消耗完。2024年6月，《麻省理工技術評論》刊出一篇論文也指出，高質量數據將在2028年前后被消耗完(見圖1)。另外，由于成本問題，也會導致某些數據難以獲取。

　　圖1 人類高質量數據存量與大模型訓練所需數據量的預測1

　　2.不好用

　　現實世界中存在數據質量參差不齊的問題，數據中存在錯誤、缺失、異常、格式不一致等情況，例如打了馬賽克的圖片，都會使得模型分析結果產生偏差。

　　3.不能用

　　隨著數據使用監管加強，數據隱私保護法律法規日益完善，對涉及個人隱私權、肖像權、個人真實信息等數據的保護力度加大，要求企業在大模型開發和應用中，不得隨意使用上述數據。

　　這些問題一定程度上制約了人工智能發展，合成數據應運而生。合成數據（Synthetic Data）是指通過計算機算法生成的模擬數據，它模擬真實世界的數據分布和特征，通過數學模型和生成技術，來構建新的數據集，而不是直接來自現實世界的觀測或記錄。合成數據可以通過針對性的數據補充和強化，解決數據匱乏、數據質量不足等問題;可以規避數據隱私、安全、保密等風險，在醫療、金融等領域意義重大;還可以模擬和生成現實世界中難以采集到的邊緣場景，保持數據的多樣性。

　　總之，合成數據為解決上述問題提供更多方向和思路，極大拓展了AI應用的可能性。Gartner、Accenture等著名咨詢公司都看好合成數據的發展前景，認為合成數據有望解決人工智能未來發展的“數據瓶頸”，成為推動AI技術更廣泛應用的核心要素。

　　合成數據如何生成

　　合成數據技術路線眾多，常用的有以下三種：基于LLMs生成的合成數據、基于GANs或者Diffusion Models生成的合成數據、基于統計和模擬生成的合成數據，在實際應用中多種方式往往相互協同和補充，以提升數據合成質量。

　　1.由LLMs生成的合成數據。

　　LLMs擁有卓越的語言理解和表達能力，以及強大的指令遵循能力，能夠為特定場景和領域創建定制的數據集。使用LLMs生成合成數據的常見做法，可分為提示工程和多步驟生成2。首先，基于高性能模型的提示工程生成合成數據，用于補充特定領域的數據，幫助輕量級或下一代模型進行監督學習。如Meta Llama 3的后訓練完全依靠從Llama 2獲得的合成數據;又如OpenAI計劃使用o1模型生成合成數據來訓練即將推出的Orion模型。其次，基于模型生成多步驟的合成數據，可用來補充思維鏈(CoT)的中間推理過程，促進模型的對齊與進化。如浙大、中科院等機構利用GPT-4-Turbo生成代碼繪制圖像，并逐步提示模型生成解釋答案的原理，從而組成多模態合成數據集，使用該數據集對Vanilla Llava-1.5-7B微調能顯著提升其視覺推理能力，在推理難度最高的路線圖場景中，準確率提升67.4%3。

　　2.由GANs或者Diffusion Models等算法生成的合成數據。

　　通過對抗訓練和逐步去噪的過程，模型能夠生成與真實數據高度相似的合成圖像樣本，廣泛應用于數據增強、醫療隱私等領域。

　　3.基于傳統的統計和模擬等方法生成的合成數據。

　　一方面通過觀察真實的統計分布，利用算法生成符合特定統計分布的數據。另一方面，可以通過模擬器等方法創建數據，如Sora文生視頻模型用到Unity、Unreal Engine等游戲引擎合成的視頻數據作為訓練集。

　　目前，市面上有許多工具可生成合成數據，如英偉達發布3D仿真數據生成引擎Omniverse Replicator、微軟開源合成數據工具Synthetic Data Showcase等。6月14日，英偉達發布開源大模型Nemotron-4 340B，包含基礎模型Base、指令模型Instruct和獎勵模型Reward，也可用于生成高質量合成數據(流程見圖2)，其中Instruct模型用于生成基于文本的合成輸出，Reward模型對生成的文本進行評估并提供反饋，指導迭代改進并確保合成數據的準確性。

　　圖2 Nemotron-4模型生成合成數據的流程

　　合成數據的應用實踐

　　近年來合成數據在具身智能、自動駕駛等領域得到重點關注及廣泛應用，如成立于2023年初的光輪智能公司，專注于在自動駕駛、具身智能等領域提供合成數據解決方案，在2023年完成種子輪、天使輪、天使+三輪融資，累計融資金額達數千萬元人民幣，并于2024年5月底完成Pre-A輪融資。

　　1.合成數據為具身智能帶來了豐富、可控且經濟的訓練與學習材料，提升具身智能系統在各種復雜環境和任務中的適應性和表現能力。

　　人類遠程操控機器人完成任務并生成高質量數據，其收集成本高昂且耗時，合成數據成為“擴大機器人學習的強大且經濟”的有效途徑，通過數字孿生技術，讓機器人在虛擬世界學習如何操作和感知環境。如英偉達與UT提出MimicGen數據生成系統，通過對人類演示進行處理，自動生成不同場景下的大規模合成數據集，用于機器人的模仿學習。在Square、Coffee Preparation等18個任務中，只用175個人類示例就生成超過5萬個訓練數據集，并且在Square任務中，只用10個人類示例就生成了1000個訓練數據集，覆蓋不同場景配置，并將成功率從人類示例數據集的11.3%提升至90.7%，在復雜的Coffee Preparation任務中，成功率從12.7%提升到97.3%4。

　　2.合成數據為自動駕駛領域帶來豐富的訓練資源，提升自動駕駛系統的性能和安全性。

　　在自動駕駛車輛的開發過程中，邊緣場景(如復雜交通、惡劣天氣等)的數據采集尤為困難，國內領先的數據仿真平臺公司51Sim利用先進的仿真技術構建各類低概率、高風險的邊緣場景，增加訓練樣本和多樣性，提升感知算法泛化能力，幫助主機廠加速模型訓練。同時，51Sim參與北京大學牽頭的“面向自動駕駛場景的高真實感數據合成”研究課題5，通過將自動駕駛示范園區典型的真實場景與擬真度極高的渲染算法進行集成，生成帶有多模態數據標注的高逼真合成場景數據集，大幅推動視覺大模型和高速脈沖視覺模型算法研究評測在自動駕駛場景中的落地應用。

　　合成數據的挑戰及應對

　　由于合成數據的生成機制和技術特性限制，其應用存在一定隱憂。今年7月，Nature一篇最新論文顯示，運用合成數據迭代訓練9次，導致大模型不可避免走向崩塌。同樣，杜克大學助理教授Emily Wenger發表在Nature上的一篇社論文章也指出，基于合成數據訓練的大模型生成的圖像會扭曲狗的圖片。其本質原因是由于使用合成數據進行模型訓練會忽視異常值和偏差值，從而導致原始數據分布的長尾消失，而經常出現的內容被無限放大，模型越來越偏離原始數據分布。

　　這正是合成數據應用存在的挑戰之一，即數據保真度問題，合成數據無法完全模擬真實世界的復雜性和多樣性，這會影響模型的訓練效果和推理能力。挑戰之二，即數據偏差問題，如果合成數據的生成過程本身存在偏差，例如人工惡意植入錯誤信息或誤導信息，合成數據會繼承甚至不斷放大這種偏差。挑戰之三，即可信度問題，合成數據的產生過程通常是“黑盒”的，難以解釋生成數據的具體原理和過程，可能導致對合成數據的來源和質量產生質疑。挑戰之四，即法律和監管問題，目前合成數據的監管體系尚不完善，如何確保合成數據的合規使用，如何解決帶來的新的安全問題，這都是需要進一步考慮和研究的問題。

　　在技術方面，應對挑戰的有效方法之一是采取“混合數據”策略，即在大模型訓練中輸入多樣化的數據，保持真實數據的一定比例。如在大模型預訓練階段仍以真實數據為主導，合成數據作為針對性補充和拓展則保持較低占比(如5-10%);而在對齊階段，提升合成數據占比，使其與真實數據規模相當，甚至可以更高。其他應對方案還包括調整生成參數、提供多樣的提示等。

　　在監管方面，應注重合成數據的隱私保護和數據安全、合規使用、法律和倫理考量、持續監督與評估等多方面的規范和引導。2024年7月15日，新加坡個人數據保護委員會(PDPC)發布了《合成數據生成指南》，對合成數據的生成技術、典型應用、生成步驟等進行詳細說明，提供了合成數據生成技術和方法指導，并強調了隱私保護與數據質量控制的重要性。歐盟頒布的《通用數據保護條例》(GDPR)對合成數據的生成和使用提出了監管要求;今年6月，歐盟數據保護監管機構(EDPS)發布的關于生成式人工智能數據合規指南，為合成數據的合規使用也提供了一定參考。我國于2022年11月發布《互聯網信息服務深度合成管理規定》，對深度合成技術使用進行系統性規定，促進深度合成服務規范發展。

　　合成數據的未來發展展望

　　合成數據領域正迎來快速發展，其應用前景廣闊，據Gartner預測，2024年AI訓練中用到的數據有60%是合成數據，到2030年絕大部分訓練數據將是合成數據。據著名市場調研機構Nester預測，全球合成數據的市場呈現蓬勃發展趨勢，年復合增長率達35%，預計到2035年底，合成數據市場規模將達124.5億美元(見圖3)。可見，合成數據作為數字經濟時代的“新型石油”，將為推動人工智能產業乃至經濟社會快速發展提供新動能。

　　圖3 合成數據全球市場規模預測(億美元)6

　　總之，合成數據或成為推動大模型能力躍遷的重要突破口，帶來廣闊市場前景和全新商業機會，但其本身也存在數據質量、技術突破、法律監管等挑戰，應從技術、產業、監管等多方面持續研究和探索，共同推動合成數據走向“科技向善”。

　　注釋

　　1.Will we run out of data? ，《麻省理工技術評論》，2024.6。

　　2.On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, 《Computer Science》, 2024.06。

　　3.Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model, 《Computer Science》, 2024.09。

　　4.MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations，Conference paper，2023.10。

　　5.該課題為科技部科技創新2030—— “新一代人工智能”重大項目“人工智能基礎模型支撐平臺與評測技術”中的課題研究五。

　　6.數據來源：nester，https://www.researchnester.com/cn/reports/synthetic-data-generation-market/5711

　　本文作者

　　虞蘇妍

　　戰略發展研究所

　　高級分析師

　　高級工程師，擁有20年通信行業研究經驗，長期從事產業研究、戰略評估等，近年來專注產業數字化、數字政府等領域。

　　左芳芳

　　戰略發展研究所

　　二級分析師

　　碩士，戰略發展研究天翼智庫數據中心，長期從事行業洞察與研究工作，近期聚焦產業數字化、數字政府、大數據等研究領域。

　　田盼

　　戰略發展研究所

　　副主任分析師

　　高級工程師，就職于中國電信研究院，長期從事產業數字化政策、需求和趨勢研究。

IT產業網微信二維碼logo

　　行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

人工智能的創新基石：合成數據

最新新聞

熱門新聞

新動態

關注度

最話題

人工智能的創新基石：合成數據

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題