亚洲不卡av不卡一区二区,日韩国产一区二区三区,麻豆国产欧美日韩综合精品二区
首頁 > 資訊 > 評論

143億美元天價并購背后,AI數據服務到底是怎樣一門生意?

2025/07/08 14:50      數智前線


  中美都在押注,數據標注為什么站到C位

  文|任曉漁

  編|徐鑫

  “親愛的特朗普總統,美國必須贏得AI戰爭。”今年年初,年僅 28 歲的 Alexandr Wang在川普就職典禮第二天,在華盛頓郵報為自己的數據標注服務公司Scale AI打出了整版廣告。

  Alexandr Wang這個看起來頗為“加戲”的動作,讓數據標注第一次走進普羅大眾視野。它也凸顯一個現實——在AI三要素里,相比模型和算力領域里的硝煙滾滾,大眾對數據領域的演進缺乏更多的認知。

  不過,兩周前,Meta以143億美金收購Scale AI 49%股權,這讓AI數據服務領域真正成為了全球關注焦點,也引發了美國數據標注產業的一場大地震。

  無獨有偶,除了美國巨頭押注AI數據服務價值,國內數據標注產業過去一年多里熱度也在不斷攀升,頂層設計和市場端都有不小的動作。7大國家級數據標注基地試點城市落地,國家數據局還集中發布了47個數據標注優秀案例集,同時,一批數據標注服務公司則迎來了業績的快速攀升。

  不過,在產業界的頻繁動作之外,業界又流行一個說法,數據標注正在加速自動化,技術進步正在許多標注任務逐漸消失。

  這讓人好奇,中美都在押注的領域,到底是怎樣一個產業?當下這一領域處在怎樣的發展階段?自動化會讓數據標注走開嗎?接下來競爭將如何展開?

  01

  并購案背后,AI基礎數據服務站上C位

  “數據是人工智能中最有價值的資產之一”,這句人工智能時代的共識,在Scale AI并購以及隨之而來的AI基礎數據服務產業震蕩中得到了絕佳的驗證。

  143億美金的并購金額,在Meta的并購歷史里僅次于收購whatsApp。Meta愿意支付這個價碼,背后是Meta對在當下大模型競爭里掉隊的焦慮。

  過去幾個月里,這家硅谷巨頭面臨著不小的壓力。今年4月,Meta發布的Llama 4 模型反饋不及預期,更大的模型Behemoth也被延期發布。

  被收購一方,Scale AI之所以能叫出天價,既要從這家公司在AI基礎數據服務領域的地位說起,又與數據標注和挖掘在當下的模型訓練中的重要位置密不可分。

  Scale AI成立于2016年,它最初是一個提供眾包服務的平臺,幫助企業完成一些內容審核、數據提取等需要人工操作的任務。之后隨著自動駕駛領域對數據審核與標注的龐大需求。Scale AI開始專注在數據標注領域,幫助客戶收集、清理、標注和管理大規模數據,助力自動駕算法研發。

  大模型浪潮來臨后,Scale AI收入從2022年的2.9億美元一下子飆升到2023年的7.6億美金,2024年繼續增長到8.7億美金。有消息稱預計2025年這家公司的營收將達到20億美金水平。

  如果你對它的營收沒有太多的概念,OpenAI 2024營收為37億美元。而根據Grand View Research數據顯示,2023年全球數據標注和服務市場規模達140.7億美元。其中,美國的市場規模達42億美元,全球占比近30%。Scale AI的收入規模,稱得上是數據基礎服務領域里的賣水人之一。

  Scale AI的客戶包括谷歌、蘋果、xAI、Meta、微軟和亞馬遜等在內的一眾硅谷巨頭。去年谷歌在Scale AI的花費約 1.5 億美元,是它的第一大客戶。

  科技媒體BI報道,今年4月,Scale AI為Google運行了至少38個活躍項目,占當時Scale AI在該列表上的107個生成式AI項目的三分之一以上。而服務xAI的數據項目里包含了一個名為Xylophone 的項目,主要是幫助訓練xAI的聊天機器人,提升其在廣泛話題上的對話能力。

  廣泛的客戶網絡,其實反映了數據標注和AI基礎數據服務在當下模型訓練中的重要位置。

  人工智能行業有一個提法,“垃圾進,垃圾出”,數據的質量十分影響模型的表現。而數據標注本質上是要把大量機器無法理解的非結構化數據翻譯成機器能理解的結構化數據。大模型浪潮下,由于數據參數規模空前,為了提升模型智能水平,圍繞著數據標注和處理的預算也在飆升。

  據AI 基礎數據服務廠商LXT2024年對322家有AI 項目經驗的美國企業的調研,整個2023年企業在訓練數據上的資金投入占這些企業的AI整體建設投入的15%。此前行業內還流傳一個說法,高質量的標注數據是ChatGPT效果區別于其他競爭對手的原因之一。

  重重因素之下,Meta做出了大手筆并購Scal AI的決定。也許在當下的Meta看來,通過與數據服務領域領頭羊合作,有助于其更好地獲得模型訓練的專有數據,并且能基于數據來訓練更高智能的模型,從而在當下大模型競爭中跟上節奏。

  這項大手筆收購也使得數據標注產業和人工智能供應鏈條發生了一系列連鎖反應。

  首先是,一大批與Meta的模型存在競爭關系的廠商紛紛開始切斷與Scale AI的合作。比如Scale AI的最大客戶谷歌就在交易達成后立即暫停了兩個代號為"Genesis"和"Beetle Crown"的項目合作。

  其次是,與Scale AI競爭的一批數據標注廠商們則趁機開拓客戶,比如Sapien,Appen、Prolific 和 Turing等企業成為不少AI廠商多元化數據標注供應商選擇時的候選。Sapien AI的CEO Rowan Stone還表示,在 Meta 交易后 48 小時內,他們平臺新增 4 萬名數據標注注冊者,服務器都崩了。

  在人們對Meta收購影響Scale AI標注數據中立性以及對商業機密泄漏的擔憂中,Scale AI也發表了平臺中立性聲明。

  但聲明發布并未止住行業內的各種爭議。一場行業大洗牌已經在進行中。

  02

  政策市場雙驅動,國內市場狂飆猛進

  海外數據標注產業大洗牌之際,過去一兩年里,中國作為全球人工智能產業增速最快的國家之一,數據需求快速增長,數據標注領域也隨之演進。

  首先是政策端的加持非常明顯,去年開始國內接連出臺與數據標注相關的政策法規,從頂層設計上為數據標注產業提供催化劑。

  去年6月,國家數據局發布首批7家數據標注基地試點城市名單,七個城市在數據標注產業的生態構建、能力提升和場景應用等方面扮演了先行先試的角色。

  IDC告訴數智前線,這一政策初衷是為了推動高質量數據集建設,目標也是為了更好的推動AI發展、為數據要素流通提供標準數據支持,在城市選擇上會綜合考慮城市需求、人才結構等因素。

  去年12月,數據標注領域又迎來了重磅綱領性文件。國家四部委聯合發布《關于促進數據標注產業高質量發展的實施意見》,明確提出了到2027年產業規模年均復合增長率超過20%的發展目標,為國內的數據標注產業構建起了產業發展的“四梁八柱”。

  同時,各地過去一年也不斷出臺相關的法規和政策,指導產業發展。

  同時,行業主管部門還積極樹標桿,推動行業標準化建設。今年4月,國家數據局在第八屆數字中國建設峰會“高質量數據集和數據標注主題交流活動”上發布了47個數據標注優秀案例集,涉及到醫療、交通、農業、能源等20余個領域。這些標桿案例提供了可復用的實踐范本,也為相關領域的標準統一、經驗共享打下了基礎。

  政策加持的同時,隨著大模型落地應用浪潮的到來,數據標注市場側熱度和規模也由明顯的提升。一批企業如海天瑞聲,澳鵬等都迎來了業績的快速增長。

  以澳鵬為例,今年2月澳鵬發布2024年年報顯示,去年其中國區業務營收突破4.2億,年增長達到71% ,其中的大模型/AIGC業務增長了526%。澳鵬披露,許多AI龍頭,特別是大模型 AI企業成為了澳鵬的客戶,大模型及大模型相關業務已經占據了澳鵬中國營收的40%。

  AI數據服務創業公司整數智能CEO林群書則告訴數智前線,去年隨著多模態模型的快速演進,他們感受到市場的數據標注需求呈現出指數級增長。

  一位行業資深人士認為,數據標注領域市場端的熱鬧,與過去一年多人工智能領域的結構性變化有關。以DeepSeek為代表的國產開源模型正極大拉平國內與海外的模型方面的差距,同時國產模型進步,對算力的消耗降低,緩解了許多企業的算力焦慮,使得數據層面重要性被提到更高位置。

  “數據的質量、規模和精準性將直接決定模型能力的上限,也成為模型落地效果的關鍵。”該人士告訴數智前線。

  產業的想象空間在快速打開。艾瑞咨詢的數據顯示,2024年中國人工智能基礎數據服務市場規模為58億元,2028 年規模將達到170億元,年復合增長率為30.84%。

  而IDC告訴數智前線,目前模型應用走向垂直領域,數據標注的場景需求主要圍繞自動駕駛、教育、醫療、金融、零售、政務等展開。

  市場熱度增加,數智前線觀察到,行業內的參與主體也在變多,競爭正變得激烈,同時,產業鏈上中下游界限也逐漸模糊起來。

  比如模型廠商可能從提供更完整的模型能力配套角度,在數據標注領域有相關的產品服務。典型的有智譜AI,去年它推出的Batch API,利用大模型技術來解決數據標注問題。百度智能云等數據標注服務。

  也有應用企業從AI落地的角度,在應用中推出了一些運營工具標注一些數據,降低場景內的幻覺。典型有瓴羊在智能客服Quick Service應用里推出AI運營中心,針對智能客服場景里的幻覺問題,通過訓練中心進行標注,將高質量數據來反哺模型,讓問答更加準確。

  “應用內的標注緩解模型幻覺服務于模型微調的環節,是基模現階段能力不足的一個補充或臨時方案”,一位數據標注行業人士告訴數智前線。

  03

  技術演進,讓數據標注走開?

  全球數據標注產業快速發展之際,也有一種聲音認為,數據標注領域可能會因為技術進步,面臨新的挑戰。比如就有人指出,未來AI會自動完成許多標注任務,標注領域的企業可能需要加速轉型。

  針對這一趨勢,數智前線同多位行業人士交流,業界普遍認為大模型時代,數據標注正逐漸走向復雜化、自動化和專業化。自動化浪潮并不意味著不需要標注。

  首先是數據標注的復雜化趨勢,它與大模型技術演進帶來的數據標注需求變化有關。

  主流大模型普遍采用了無監督自動學習機制,在預訓練環節大量使用無標注數據,而之后的監督微調(SFT)和基于人類反饋的強化學習(RLHF)階段,仍需要人工標注。

  一位數據標注行業人士介紹,基于人類反饋的強化學習(RLHF)環節,企業的數據需求,需要人去對機器給出的答案去做排序和對齊,把人文的傾向、三觀、喜好給機器學習。相比此前拉框畫圈式的簡單標注,在微調和RLHF環節,數據標注的復雜度變得更高,對標注團隊的要求也更高。

  行業內此前還傳說,在RLHF環節,一些團隊有博士團來完成標注任務。比如Scale AI就在RLHF環節招聘過幾十名博士來提供數據標注服務,而OpenAI內部同樣有幾十名博士來配合,在Scale AI標注之后做這些標注的質量檢測。

  而標注的自動化趨勢則與大模型技術進步用到數據標注領域有關,數據標注本身利用模型也實現了提質增效。海外的開源數據標注及清洗平臺Refuel AI此前就做過測試,AI能顯著提升數據標注的質量,也能降低數據標注的成本。

  各種NLP任務中模型標注相比人類標注的標簽準確度(與真實標簽的吻合度)明顯更高。每一列中數值最高者以綠色突出顯示。

  數智前線觀察到,目前,國內和海外數據標注廠商都在提升數據標注的自動化水平,將數據標注的任務從人工手動操作的勞動密集型向平臺化的自動標注方向去轉變。海外的Scale AI、海天瑞聲、澳鵬以及整數智能,都有自己的自動化數據標注平臺。

  除了專業數據服務商,一些企業內部的標注場景也在自動化。以自動駕駛場景為例,特斯拉此前組建了規模龐大的企業內數據標注團隊,但從2022年它們開始裁撤輔助駕駛系統開發的數據標注團隊規模,通過Dojo超級計算機來對海量視頻數據做無人監管標注和訓練。

  數據智能服務商每日互動總裁劉宇告訴數智前線,在當前激烈市場競爭下,對數據標注服務商而言,將自己的服務能力沉淀為標準化產品,對企業而言能提升競爭的門檻,“同樣的勞動力能更高效標注,標注質量以及供應穩定度更高”。

  不過,行業內也認為,這種自動化的趨勢并不意味著標注任務和專業服務商沒有了用武之地。實際上,隨著AI朝向垂直場景落地,專業領域里復雜任務對人工標注的需求是在增加的。

  “數據標注難度越來越高,當數據自動化程度越高,例如AI可以完成90%自動標注,剩下10%也更加關鍵。” IDC中國高級分析師李浩然告訴數智前線。

  一家AI應用廠商此前也告訴數智前線,單點的拉框打標工作,AI可能也能完成,但許多更專業的領域知識標注,只能通過人工完成。

  另外推理模型出現后,也非常需要思維鏈相關的數據。“它非常需要理解業務的專業人員,通過規則和模型參數的配置,來更好的拆解問題。“

  李浩然也提到,當數據可以被自動化標注、合成時,其可以為模型帶來的價值也會更低,企業會投入更多資源來人工標注更復雜的問題。“之前的教育題目可能是初高中,現在可能是大學題目,另外之前的圖片標注只需要圈出人臉,現在還需要輸入文本來理解圖片表達的含義,以及其中的結構關系。”

  這些趨勢下,數據標注領域的演進方向也變得明晰。

  一方面,行業的準入門檻從勞動密集性向技術密集型以及更高專業門檻演進。另外,由于玩家競爭的重心向技術能力、場景資源等復合性能力轉變,在更多玩家入場的同時,行業內的淘汰賽也已經同步展開,市場的競爭已經變得更加激烈。

IT產業網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
国产精品国产三级国产在线观看| 激情久久久久久| 日本精品在线播放| 韩国三级一区| 国产精选久久| 狠狠色狠狠色综合日日tαg| 国产精品17p| 免费精品视频最新在线| 美日韩一区二区三区| 在线亚洲免费| 肉色欧美久久久久久久免费看| 中文字幕av亚洲精品一部二部 | 人人精品人人爱| 日韩国产一区| 久久久久九九精品影院| 美女网站久久| 国产亚洲福利| 久久视频精品| 久久人人精品| 日韩免费在线| 欧美激情五月| 国产亚洲一区二区三区不卡| 蜜臀91精品一区二区三区| 久久一区二区三区喷水| 久久久久久久欧美精品| 日韩黄色免费网站| 在线亚洲激情| 99热精品在线| 欧美午夜精彩| 国产一区日韩一区| 婷婷成人综合| 亚洲综合不卡| 伊人精品在线| 在线亚洲激情| 99亚洲视频| 久久亚洲美女| 亚洲字幕久久| 日韩欧美中文字幕电影| 日本aⅴ免费视频一区二区三区| 欧美精品一二| 日韩视频在线一区二区三区 | 久久精品亚洲| 精品国产成人| 日本一区二区免费高清| 日本精品不卡| 亚洲成人一区| 亚州欧美在线| 另类综合日韩欧美亚洲| 四虎8848精品成人免费网站| 欧美亚洲日本精品| 成人日韩在线观看| 国产亚洲福利| 日韩不卡一区二区三区 | 欧美日韩尤物久久| 国产精品99免费看| 爽好久久久欧美精品| 日韩高清不卡在线| 91亚洲一区| 国产毛片久久| 欧美日韩1区2区3区| 精品国产中文字幕第一页| 不卡福利视频| 视频在线在亚洲| 久久这里只有| 久久国产精品毛片| 高清av一区| 香蕉久久久久久久av网站| 国产精品白浆| 激情婷婷综合| 国产一区丝袜| 午夜久久久久| 久久国内精品| 99精品视频精品精品视频| 亚洲美洲欧洲综合国产一区| 欧美黄页在线免费观看| 国产一在线精品一区在线观看| 欧美影院精品| 欧美成人亚洲| 麻豆国产欧美一区二区三区 | 日韩中文字幕区一区有砖一区 | 久久国产成人| 99久久夜色精品国产亚洲1000部| 欧美特黄视频| 天堂av在线一区| 911亚洲精品| 亚洲欧美久久久| 欧美日韩国产观看视频| 中文一区在线| 日韩不卡视频在线观看| 午夜精品影院| 欧美精选视频一区二区| 美美哒免费高清在线观看视频一区二区| 国产aa精品| 亚洲欧美日韩在线观看a三区| 国产成人精品免费视| 亚洲天堂久久| 日韩av专区| 亚洲伊人精品酒店| 激情欧美国产欧美| 日韩超碰人人爽人人做人人添| 欧美在线资源| 精品久久久久中文字幕小说| 久久国产免费看| 婷婷六月综合| 国产精品久久久久av电视剧| 日韩欧美中文在线观看| 日韩中文字幕麻豆| 日本国产精品| 欧美日韩在线观看首页| 亚洲成人va| 中文av在线全新| 蜜桃久久久久久| 99久久九九| 91精品xxx在线观看| 欧美一区二区三区久久| 亚洲另类黄色| 免费欧美一区| 性欧美长视频| 91超碰国产精品| 国产日韩综合| 久久婷婷丁香| 欧美在线影院| 999国产精品视频| 亚洲少妇在线| 极品日韩av| 蜜臀久久久久久久| 中文在线不卡| 国产视频一区欧美| 中文字幕日韩高清在线| 中文在线不卡| 日韩精品一区二区三区av| 黄色日韩在线| 日本一区二区三区中文字幕| 国产一区导航| 日韩成人在线看| 三级在线观看一区二区| 中文字幕一区日韩精品| 亚洲一区观看| 国产乱码精品一区二区三区亚洲人| 蜜桃免费网站一区二区三区| 国产麻豆一区二区三区| 日韩精品a在线观看91| 久久国内精品视频| 欧美另类综合| 日韩av中文在线观看| 国产精品chinese| 精品一区二区三区中文字幕 | 久久影院一区| 久久亚洲一区| 免费美女久久99| 综合激情五月婷婷| 日韩欧美久久| 成人午夜精品| 一区在线免费| 国产精品hd| 国模精品一区| 亚洲专区视频| 91精品婷婷色在线观看| 亚洲日产国产精品| 精品深夜福利视频| 成人国产精品一区二区免费麻豆| 亚洲视频综合| 亚洲精品字幕| 久久69成人| 久久免费黄色| 欧美一区自拍| 日韩深夜视频| 日韩二区三区在线观看| 美日韩一区二区三区| 亚洲欧美日本日韩| 欧美成人a交片免费看| 性欧美长视频| 国产在线|日韩| 视频一区欧美精品| 99视频精品全国免费| 日韩一级精品| 国产成人77亚洲精品www| 久久中文字幕av| 国产精品久久久久久久久久白浆 | av成人国产| 日韩在线欧美| 丝瓜av网站精品一区二区| 国产精品麻豆久久| 91九色精品国产一区二区| 99热免费精品| 极品日韩av| 欧美国产极品| 日韩激情一二三区| 成人久久一区| 久久精品一区二区国产| 黄色日韩在线| 精品国产乱码久久久| 日韩欧美高清一区二区三区| av免费不卡国产观看| 免费看久久久| 视频一区二区欧美| 日韩中文字幕一区二区三区| 激情亚洲影院在线观看| 一本大道色婷婷在线| 日韩av资源网|