国产欧美自拍,黄色日韩在线,美女视频一区在线观看
首頁 > 資訊 > 評論

AI數據告急,大廠盯上廉價年輕人

2024/09/03 16:55      字母榜


  為了拿到新數據、訓練AI大模型,字節等互聯網大廠正在親自下場,以單次300元不等的價格招募“AI錄音員”,定制語料庫。

  坐落于北京大鐘寺的字節辦公樓,集中了字節的抖音業務團隊和火山引擎業務團隊,從年初便開始招募素人為豆包大模型錄音。兩人結組、單次3小時,包括80分鐘的自由聊天,有提示詞的60組對話,單次結算金額為300元。

  長達3小時的錄音,有至少2名字節員工全程陪同。“對話不能水時長,要有內容和信息,質量太差會酌情扣款”,“不能修改提示詞,大模型理解不了”。從晚上6點到9點,字節員工在錄制過程中的指令,則更多透露著對于錄音質量的關注。

  實際上,成都、太原、貴州等二線城市,早已成了字節、百度、阿里等大廠的AI數據外包之城。“去年,數據標注、方言朗讀,專科生就能做。現在招的都是211、985的實習生帶外包。”某大模型產品經理表示。

  在9月剛剛推出視頻大模型的MiniMax,其創始人閆俊杰告訴字母榜,在上海,除了語料公司的高質量數據之外,MiniMax也會采購一些平臺化數據。

  數據、算法和算力是AI大模型的三大支柱,其中數據是大模型進行訓練的根基。但由于互聯網數據散布在不同平臺,并被重重壁壘所環繞,AI大模型可以用來訓練的公開數據正在走向枯竭。

  6月,研究機構Epoch AI發布了一項新研究預測,可用于AI語言模型公開訓練的數據,將在2026年到2032年間,被科技公司耗盡。而早在2023年5月,OpenAI首席執行官阿爾特曼便公開承認,AI公司在不久的將來會耗盡互聯網上所有的數據。

  如何尋找高質量的新數據“喂養”大模型,成了所有AI大模型團隊的共同難題。

  由于存在擅自使用第三方數據的嫌疑,一些大公司屢屢陷入糾紛。8月,OpenAI被超過100位YouTube主播集體訴訟,指控其擅自轉錄了數百萬個YouTube 視頻來訓練大模型。英偉達、蘋果、Anthropic等巨頭也涉及其中。

  對于大廠而言,擁有自己的閉源高質量數據,才能保證喂養大模型的數據時效性和質量。而跳過品控不穩定的第三方平臺,試圖親自下場為AI寫“劇本”,或許是大模型廠商們的一條新路子。

  A

  今年初,在小紅書等平臺上,悄悄出現了標價300元一次的AI錄音兼職。

  相比起BOSS直聘等平臺30-55元時薪的AI錄音兼職,300元單次、錄制地在北京大鐘寺的所謂“頭部大廠錄音兼職”顯得頗具誘惑力。

  8月,通過微信被拉到錄音群內時,字母榜(ID: wujicaijing)發現群內已經有了200多名等候錄音的人。由于規定為2人一組錄制對話,時間長達3小時,進群后,“找搭子”“有人和我一起錄嗎?”的微信消息彈出的最多。

  而實際上,300元一次,做AI錄音員,“給AI寫劇本”并不輕松。

  首先在錄音前,所有人都必須上傳一段2-3分鐘的對話錄音做“樣音”,字節的審核人員要通過樣音的效果來決定是否通知兼職錄音。而這個過程會有3名員工負責審核,其中2名員工審核都通過,才能直接預約錄音時間,如果不通過,還有交叉審核。

  在樣音二審過后,張雪在提交樣音的第二周預約了晚上6-9點的錄音時間。而在群聊內,不少人都被卡在了樣音環節,“審核老師喜歡能聊的,愛聊的。”情緒高昂的對話,內容有主題,讓更多的人卡在了篩選的第一道門檻。

  錄制當晚,張雪隔著錄音室的透明玻璃坐在椅子上,調節到語音能夠被清晰錄入的最佳位置,通過耳機收聽字節員工的指令。

  第一個環節,就是兩人80分鐘的無主題自由聊天。而字節人員的要求,則是聊天不能是“片湯話”,要有內容,同時每個話題都不能超過10分鐘,并且不能出現大段大段的獨白,要保證是相對平均的對話狀態。

  張雪和搭檔在錄音室內隔著巨大的頭麥對談,盡量不停頓地談話80分鐘。同時,還要盡量克制身體不能亂動,發出咳嗽聲、笑聲等擾亂錄音質量的聲音。

  為了保證語音質量,字節人員通過耳機不時插入,提示出現了雜音要重新錄制,或者聊天“不自然,引導痕跡過重”,也要重新錄制。高質量語音的標準是聊天自然、話題連續,情緒積極但不能搶話,還要有內容、不流水賬。經過反復重調,第一個環節就花費了近2個小時的時間。

  而到了第二個環節,要錄制有提示詞的60組對話。盡管有了劇本可供參考,但作為AI錄音員,張雪不僅要根據情境編對話,還要保證嚴格的對話模式,即上一組對話是A結束收尾,那么下一組對話必須由B開始。

  同時,為了適應大模型的調試需求,每一次的指令都必須清晰明確地說出提示詞,“可以詳細一些嗎?可以更詳細一些嗎?可以再詳細一些嗎?”而在耳機內,字節人員也明確表示,劇本都可以改,但只有提示詞不能動,換個說法,AI就可能難以識別。

  為了保證錄音質量,錄音不清晰、吞字或者情緒不足,都會重新錄制。等錄制結束,張雪離開大鐘寺,時間已經走到了晚上近10點。而一次3小時的錄音,字節人員一天要錄制3場,每周的日程幾乎都是滿的。

  除了北京,字節已經在上海、杭州、重慶、南京、成都、天津等多個城市招募錄音員。

  B

  對于渴求新數據的大模型廠商們來說,“砸錢拿數據”的操作并不新奇。

  2023年,隨著AI大模型成為新風口,大廠們不僅直接通過第三方公司購買數據,也創造出了“大數據標注師”、“AI編輯”等外包崗位。

  2023年,小語種專業的阿琳,在考研期間就通過BOSS直聘等網站,開始為大模型“打工”。

  通過一家叫做“X數據”的公司,阿霖為大模型圖片識別的文字內容做驗收,即檢驗大模型圖片識別后的小語種文字是否與圖片一致。按照“一個詞或一句話算一個核算框,一個框算1毛錢”的價格,核算幾百條,阿霖一次能賺幾十元。

  到了今年,阿霖同樣通過第三方的數據公司接單,做翻譯類的 AI 數據標注,價格漲成了1元多一條。但要人工判斷大模型翻譯出的法語等小語種是否準確,標注員不僅要找出錯誤之處,還要用不同的顏色,對5-6個大模型的翻譯內容進行標注。“有時看一條得花10-15分鐘”。

  為AI打工之后,阿霖也發現,這些大模型,一旦脫離了原本小語種的教科書語料庫,對于社交平臺新的用詞,或者小眾人群的慣用詞,即自身的數據庫沒有收錄,大模型就開始降智,“受限于版權,學不到新的文本內容,翻譯效果也受影響。”

  除了第三方外包公司,大廠也建立起了自己的數據基地。

  例如,百度的數據基地分布在如南昌、陽泉、太原、貴州等非一線城市,并在這些城市完成數據標注、方言朗讀等數據的采集,只需“招一些當地的專科生,會操作電腦就行。月工資也往往在3000-5000元之間。”美團也早就有了自己的駐廠AI訓練師。

  不過,相比起舍得砸錢的大廠,大模型四小龍們想要拿到高質量數據,難度高了不少。

  “核心的閉源高質量數據,往往都已經被大廠壟斷,AI創業公司,甚至是AI四小龍,都可能只能拿到邊緣數據。”某大模型廠商的算法人員Leo告訴字母榜。

  由于高質量數據能夠顯著提升模型效果,因此,在開源的公開數據數據之外,大模型廠商們為了實現技術迭代,需要更高質量的數據完成訓練。但這些數據往往被大公司把握,如國內的新聞數據掌握在騰訊、字節等大廠內部,海外則由Common Crawl、GDELT、The Pile等占據。

  在海外,即便是YouTube,也在6月底宣布,將向頂級唱片公司提供許可協議,以換取版權音樂用于訓練。OpenAI 一直在與 Politico、《大西洋月刊》、《時代》、《金融時報》等新聞出版商達成付費協議,使用并引用它們的新聞資料。

  當關鍵數據主要掌握在“渠道方”內部,比如騰訊、字節和Meta等公司,關鍵用戶數據早在移動互聯網時代被瓜分完畢,要想實現技術突圍,AI四小龍首先就得交一筆不小的“數據費”。

  C

  對于廠商們來說,行至大模型創業下半場,“大數據幻覺”也是大模型集體降智、測不出9.11和9.9哪個大的原因之一。

  當字母榜在MiniMax的海螺AI內輸入“一個小女孩懷里抱著一只布偶貓”,耗時2分鐘,生成的6秒視頻內,小女孩抱貓咪的手指細節豐富,只是懷里抱著的,并非是一只布偶貓。

  面對生成結果,MiniMax的視頻大模型員工解釋,“這是因為用于訓練大模型的數據,在貓咪的綁定圖片里,并沒有布偶貓。”

  當模型生成的內容與現實世界事實或用戶輸入不一致,即大模型出現幻覺,開始“胡說八道”。對于渴望新用戶的大模型廠商而言,生成效果顯然決定了產品是否有機會出圈。

  “輸入的指令是提取8月所有娛樂新聞,結果AI生成的是2019年8月的娛樂新聞內容。”在使用某頭部大模型產品時,忠實用戶孔昉已經抓到了好幾次AI“胡言亂語”的瞬間,或是編纂出根本不存在的引用文獻,或是不能理解近兩年的新概念,這讓孔昉對大模型產生了信任危機。

  現在,孔昉會同時用2-3個不同廠商的大模型“跑”同一個問題,然后交叉對比,對于時間、數量、文獻等關鍵信息,也會通過搜索引擎二次確認,“現在AI生成很像抽卡,效果不可控,而且還容易智障。”孔昉無奈道。

  而高質量數據或將逐漸耗盡,想要解決“大模型幻覺”問題,拿什么數據來“喂養”大模型,顯然頗為關鍵。

  某接近百度的人士告訴字母榜,大模型廠商們都會通過三方公司直接購買數據,省時省力但并“不省事”,就是因為購買來的數據,無論是文本、錄音還是視頻,質量都是不可控的。

  對于積極發展B端客戶的頭部大模型而言,針對某個客戶,更個性化地定制大模型成為如今大廠AI業務主要的收入來源。但想要訓練出這樣個性化的模型,就需要相應高標準篩選下的數據來“喂養”,甚至根據不同階段大模型的學習效果,進行數據需求的調控,“不是隨便買一堆語音來,大模型就能學會的”。

  在某三方數據工作做過AI翻譯的阿霖也發現,“作為提供數據的甲方,她所在的公司似乎并不真的關心大模型生成的語音質量。”

  對于專攻法語、西班牙語等小語種的阿霖來說,她需要為甲方同時對比5-6個大模型將小語種語音翻譯成文字的生成效果,但只需要粗略得打分,對于生成的5-6份文字,到底有哪些細節的語言差異,能夠如何改進,三方公司并不會詢問,“漠不關心”。

  而缺乏高質量數據,或許也正是不少用戶表示“用哪家的大模型生成的內容都差不多”的原因,也正是用戶一旦“一家大模型收費,就直接換另一家”的根因。

  對于用戶而言,宣稱追趕OpenAI,在技術上持續迭代的國產大模型,或許并無實質差異,也談不上成為忠誠用戶,這也給急著商業化的大模型廠商們蒙上了一層淡淡的陰影。

  因此,即便親自下場“為AI編劇本”費時費力又費錢,字節也趟出了一條新路子。而可以預見的是,為了解決商業化和用戶拉新的關鍵問題,大手筆咬牙“買數據”,恐怕將成為大模型廠商們的新賽點。

  (文中阿霖、孔昉、張雪為化名)

IT產業網微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
国产成人免费av一区二区午夜| 国产精品专区免费| 亚洲在线成人| 精品国产乱码久久久久久樱花| 国产高清一区| 青青草91视频| 999在线观看精品免费不卡网站| 国产激情久久| 免费看日韩精品| 日产精品一区| 久久只有精品| 国产日韩欧美三级| 9色精品在线| 91精品国产调教在线观看| 日韩av电影一区| 日韩中文字幕区一区有砖一区 | 免费日韩一区二区三区| 日韩精品一二三| 久久久水蜜桃av免费网站| 精品国产乱码久久久久久樱花| 日韩中出av| 日韩中文字幕1| 国产精品美女久久久浪潮软件| 深夜视频一区二区| 亚洲国产福利| 福利一区二区| 国产一区二区三区不卡av| 日韩高清三区| 日韩不卡一二三区| 日韩精选在线| 日韩国产一区二| 91国内精品| 国产黄色精品| 久久久久久夜| 亚洲免费播放| 亚洲综合电影| 国产福利一区二区精品秒拍| 蜜臀久久99精品久久久久久9| 亚洲婷婷免费| 久久中文字幕av| 美女久久久久| 国产亚洲毛片在线| 国产美女精品| 日本一区二区中文字幕| 亚洲91网站| 国产精品久久久免费| 婷婷综合福利| 日本午夜精品视频在线观看| 国产欧美日韩一区二区三区四区 | 日韩在线高清| 久久精品高清| 亚洲黄页一区| 亚洲欧美日本视频在线观看| 日韩视频一区| 日本天堂一区| 日韩电影免费在线观看| 中文在线不卡| 日本免费新一区视频| 日本成人精品| 精品国产乱码| 欧美日韩高清| 国产视频一区二区在线播放| 福利一区在线| 日韩精品一二三四| 国产成人精品一区二区三区免费 | 精品三级久久久| 国内在线观看一区二区三区| 成人国产精品一区二区免费麻豆| 欧美国产小视频| 欧美午夜不卡| 国产精品探花在线观看| sm捆绑调教国产免费网站在线观看| 亚洲v在线看| 久久国产88| 麻豆精品视频在线观看| 国产精品对白| 欧美成a人国产精品高清乱码在线观看片在线观看久 | 麻豆久久久久久久| 久久蜜桃精品| 日韩精品一区二区三区中文字幕| 国产成人免费精品| 日韩中文欧美在线| 国产精品99久久精品| 五月婷婷亚洲| 国产精品精品| 日本不卡一区二区| 欧美日韩水蜜桃| 国产成人a视频高清在线观看| 四虎精品永久免费| 不卡视频在线| 欧美不卡高清一区二区三区| 91成人在线精品视频| 女人天堂亚洲aⅴ在线观看| 激情综合婷婷| 国产精选久久| 日韩国产一二三区| 鲁大师成人一区二区三区| 久久久久久黄| 国产一二在线播放| 欧美日本三区| 日韩精品久久久久久久软件91| 免费不卡中文字幕在线| 精品国产亚洲一区二区三区在线| 日韩高清欧美激情| 日韩二区三区四区| 首页国产欧美日韩丝袜| 一区视频在线| 欧美在线亚洲| 亚洲欧美综合| 欧美日韩国产高清电影| 欧美成a人免费观看久久| 久久国产免费看| 日韩精品三级| 日韩精品a在线观看91| 国产一区二区高清| 99pao成人国产永久免费视频| 激情久久久久久久| 自拍日韩欧美| 欧美91福利在线观看| 欧美日韩在线网站| 精品欧美久久| 日韩精品一卡二卡三卡四卡无卡| 免费在线看一区| 日本不卡视频在线观看| 91精品国产自产在线丝袜啪| 欧美日韩调教| 四虎成人av| 日本在线精品| 亚洲黄色在线| 亚洲综合专区| 97se亚洲| 成人在线免费观看91| 日韩精品电影| 国产农村妇女精品一二区| 亚洲日韩中文字幕一区| 国产日韩欧美三级| 精品久久视频| 久久精品观看| 日本一不卡视频| 麻豆国产91在线播放| 国产美女高潮在线观看| 亚洲无线一线二线三线区别av| 日韩视频中文| 欧美一区自拍| 精品视频一区二区三区在线观看 | 青青草精品视频| 国产成人免费av一区二区午夜| 伊人久久av| 国产精品三上| 国产精品成人国产| 国产在线|日韩| 日韩精品一二三四| 国内自拍视频一区二区三区| 久久久久亚洲| 日韩欧美精品一区二区综合视频| 国产精品极品在线观看| 欧美日韩免费观看视频| 亚洲欧美不卡| 国产伊人久久| 99在线|亚洲一区二区| 国产精品中文字幕亚洲欧美| 欧洲av一区二区| 亚洲3区在线| 国产在线|日韩| 青草国产精品| 激情五月色综合国产精品| 国产欧美日韩一区二区三区在线| 久久免费国产| 国产精品美女久久久久久不卡| 波多野结衣久久精品| 亚洲综合色婷婷在线观看| 成人片免费看| 日韩精品免费视频一区二区三区| 精品欧美一区二区三区在线观看| 欧美日韩亚洲一区| 欧美高清一区| 色婷婷综合网| 青青在线精品| 久热综合在线亚洲精品| 国产成人a视频高清在线观看| 免费不卡在线视频| 国产99精品| 日韩大片在线播放| 久久精品xxxxx| 免费国产亚洲视频| 久久国产中文字幕| 国产成人精品一区二区三区免费| 综合欧美亚洲| 在线国产一区二区| 亚洲天堂av影院| 麻豆久久一区二区| 中文在线日韩| 久久亚洲图片| 五月婷婷亚洲| 日韩精品永久网址| 精品国产一区二区三区噜噜噜| 亚洲久久一区| 丝袜诱惑制服诱惑色一区在线观看| 日韩毛片视频| а√天堂8资源中文在线|