亚洲一级影院,国产一区二区视频在线看,久久超级碰碰
首頁(yè) > 資訊 > 評(píng)論

開(kāi)啟 AIGC 時(shí)代的那個(gè)人,一分錢(qián)都沒(méi)賺到

2023/04/26 14:09      極客公園 Founder Park


  2021 年的時(shí)候,一位基金經(jīng)理在 Discord 上找到了人在德國(guó)的高中老師克里斯托夫·舒曼。

  基金經(jīng)理愿意承擔(dān)舒曼開(kāi)源項(xiàng)目的所有云計(jì)算成本,沒(méi)有任何附加條件。

  一開(kāi)始舒曼不敢相信會(huì)有這樣的好事,直到幾周之后,他獲得了 AWS 云端 GPU 的訪(fǎng)問(wèn)權(quán)。

  他的項(xiàng)目是 LAION,世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集。

  那位基金經(jīng)理名叫 Emad,他創(chuàng)辦了 Stability.AI,開(kāi)啟了 AIGC 的時(shí)代。

  開(kāi)源萬(wàn)歲。

  以下內(nèi)容來(lái)源 Bloomberg,GPT 翻譯的,F(xiàn)ounder Park 做了些微小的校對(duì)。

  在德國(guó)漢堡郊區(qū)的一所郊區(qū)房子前,單詞「LAION」用鉛筆潦草地寫(xiě)在郵箱上。

  這是一個(gè)龐大的數(shù)據(jù)收集工作的背后人物,這個(gè)工作是人工智能潮流的核心,并引發(fā)了一個(gè)越來(lái)越激烈的關(guān)于如何監(jiān)管它的爭(zhēng)議。

  這個(gè)人是高中教師克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的熱情項(xiàng)目。當(dāng)舒曼不是在向德國(guó)青少年教授物理和計(jì)算機(jī)科學(xué)時(shí),他與一小隊(duì)志愿者一起建立了世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集,已經(jīng)被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。

  像 LAION 這樣的數(shù)據(jù)庫(kù)對(duì)于 text2image 的 生成式 AI 模型非常重要,它們依賴(lài)于它們來(lái)解構(gòu)和創(chuàng)建新圖像所需的大量視覺(jué)材料。這些產(chǎn)品的首次亮相是一個(gè)范式轉(zhuǎn)移事件:它將科技行業(yè)的人工智能競(jìng)賽推向了*,但也引發(fā)了許多道德和法律問(wèn)題。

  在幾個(gè)月內(nèi),針對(duì)生成式 AI 公司 Stability AI 和 Midjourney 的版權(quán)侵權(quán)訴訟頻發(fā),批評(píng)者對(duì)其中暴力、性化和其他問(wèn)題圖像的數(shù)據(jù)集發(fā)出警報(bào),他們指責(zé)這些數(shù)據(jù)集包含了幾乎不可能解決的偏見(jiàn)。

  但這并不是舒曼的關(guān)注點(diǎn),他只想讓數(shù)據(jù)自由。

  01

  40 億美元 → 零收益

  這位 40 歲的老師和受過(guò)演員訓(xùn)練的人,兩年前在一個(gè) AI 愛(ài)好者的 Discord 服務(wù)器上創(chuàng)建了 LAION。OpenAI 的*版 DALL·E 是一個(gè)深度學(xué)習(xí)模型,用于響應(yīng)文字 prompt 生成圖片,例如,按要求創(chuàng)建一個(gè)粉色雞坐在沙發(fā)上的圖像。

  舒曼受到啟發(fā),但也擔(dān)心它會(huì)鼓勵(lì)大型科技公司使更多數(shù)據(jù)專(zhuān)有化。

  「我立刻明白,如果這個(gè)只集中在一個(gè)、兩個(gè)或三個(gè)公司,對(duì)社會(huì)的影響將非常糟糕,」舒曼說(shuō)。

  作為回應(yīng),他和服務(wù)器上的其他成員決定創(chuàng)建一個(gè)開(kāi)源數(shù)據(jù)集來(lái)幫助訓(xùn)練 t2i 擴(kuò)散模型,這是一個(gè)類(lèi)似于用數(shù)百萬(wàn)張閃卡向某人教授一種外語(yǔ)的幾個(gè)月的過(guò)程。該組使用由加利福尼亞州非營(yíng)利組織 Common Crawl 收集的原始 HTML 代碼來(lái)定位網(wǎng)絡(luò)上的圖像并將其與描述性文本相關(guān)聯(lián)。它不使用任何手動(dòng)或人工策劃。

  幾周后,舒曼和他的同事?lián)碛辛?300 萬(wàn)張圖像文本對(duì)。三個(gè)月后,他們發(fā)布了一個(gè)含有 4 億文本標(biāo)注圖片的數(shù)據(jù)集。現(xiàn)在,這個(gè)數(shù)字已經(jīng)超過(guò)了 50 億,使 LAION 成為*的免費(fèi)圖像和標(biāo)注數(shù)據(jù)集。

  隨著 LAION 的聲譽(yù)不斷提高,團(tuán)隊(duì)一直在無(wú)償工作,2021 年獲得了機(jī)器學(xué)習(xí)公司 Hugging Face 的一次捐贈(zèng)。然后有一天,一位前對(duì)沖基金經(jīng)理進(jìn)入了 Discord 聊天室。

  Emad Mostaque 主動(dòng)提出承擔(dān)計(jì)算能力的費(fèi)用,沒(méi)有任何附帶條件。他想要啟動(dòng)自己的開(kāi)源生成式 AI 業(yè)務(wù),并渴望利用 LAION 來(lái)訓(xùn)練他的產(chǎn)品。團(tuán)隊(duì)最初嘲笑這個(gè)提議,認(rèn)為他是一個(gè)瘋子。

  舒曼說(shuō):「我們一開(kāi)始非常懷疑,但經(jīng)過(guò)四周左右,我們獲得了云端的 GPU 資源,這些資源通常的費(fèi)用約為 9000 美元或 10000 美元!

  當(dāng) Mostaque 在 2022 年創(chuàng)辦 Stability AI 時(shí),他使用了 LAION 的數(shù)據(jù)集來(lái)訓(xùn)練 Stable Diffusion,并雇用了該組織的兩名研究人員。一年后,Stability AI 目前正在尋求 40 億美元的估值,這在很大程度上得益于 LAION 提供的數(shù)據(jù)。

  舒曼沒(méi)有從 LAION 中獲利,他對(duì)此不感興趣!肝胰匀皇且幻咧欣蠋煛N揖芙^了各種公司的工作邀請(qǐng),因?yàn)槲蚁M3知?dú)立!

  02

  數(shù)據(jù)集就是

  AI 時(shí)代的石油

  像 LAION 這樣的數(shù)據(jù)庫(kù)中的許多圖像和鏈接,一直以來(lái)都明目張膽地存在于網(wǎng)絡(luò)上,有些甚至已經(jīng)存在數(shù)十年之久。

  它需要 AI 的興起才揭示出它的真正價(jià)值,因?yàn)閿?shù)據(jù)集越大且越多樣化,其中的圖像質(zhì)量越高,AI 生成的圖像就會(huì)越清晰、更精確。

  這一認(rèn)知反過(guò)來(lái)又引發(fā)了許多法律和倫理問(wèn)題,即公開(kāi)可用的材料能否用于填充數(shù)據(jù)庫(kù)——如果答案是肯定的,那么創(chuàng)作者是否應(yīng)該得到報(bào)酬。

  為了建立 LAION,創(chuàng)始人們從 Pinterest、Shopify 和 AWS 等公司中獲取了視覺(jué)數(shù)據(jù)——這些公司并未就 LAION 使用它們的內(nèi)容是否違反了其服務(wù)條款發(fā)表評(píng)論。還包括來(lái)自 YouTube 縮略圖、DeviantArt 和 EyeEm 等作品集平臺(tái)的圖像、來(lái)自包括美國(guó)國(guó)防部在內(nèi)的政府網(wǎng)站的照片,以及來(lái)自新聞網(wǎng)站如《每日郵報(bào)》和《太陽(yáng)報(bào)》的內(nèi)容。

  如果你問(wèn)舒曼,他會(huì)說(shuō)任何在網(wǎng)上免費(fèi)提供的東西都是公平競(jìng)爭(zhēng)的。但目前歐盟還沒(méi)有 AI 監(jiān)管,即將公布的 AI Act,其語(yǔ)言將在今年夏天早些時(shí)候確定,也不會(huì)規(guī)定版權(quán)材料是否可以包含在大型數(shù)據(jù)集中。

  相反,立法者正在討論是否包括一項(xiàng)規(guī)定,要求 AIGC 背后的公司披露其產(chǎn)品訓(xùn)練所使用的數(shù)據(jù)集中包含了哪些材料,從而給這些材料的創(chuàng)作者提供采取行動(dòng)的選擇。

  歐洲議會(huì)議員 Dragos Tudorache 告訴彭博社,這一規(guī)定背后的基本思想很簡(jiǎn)單:「作為生成式 AI 的開(kāi)發(fā)者,你有義務(wù)記錄和透明地披露你在算法訓(xùn)練中使用的版權(quán)材料。」

  這種規(guī)定對(duì)于 Stability AI 不是問(wèn)題,但對(duì)于其他 t2i 模型可能會(huì)帶來(lái)問(wèn)題「沒(méi)有人知道 Open AI 實(shí)際上用來(lái)訓(xùn)練 DALL·E 2 的是什么,」舒曼說(shuō),以此作為技術(shù)公司封鎖公共數(shù)據(jù)的例子。這也將顛覆現(xiàn)有的數(shù)據(jù)收集現(xiàn)狀。

  「在這個(gè)領(lǐng)域中,慣例是假定您不需要同意或不需要通知人們,或者他們甚至不需要知道這一點(diǎn)。人們有一種自認(rèn)為擁有權(quán)利的感覺(jué),即無(wú)論網(wǎng)上有什么,您都可以爬取并將其放入數(shù)據(jù)集中,」Mozilla 基金會(huì)值得信賴(lài)的 AI 高級(jí)研究員 Abeba Birhane 說(shuō)道,他已經(jīng)研究了 LAION。

  盡管 LAION 沒(méi)有直接被起訴,但它已被列為兩起訴訟的被告:一起指控 Stability 和 Midjourney 違反 DMCA 版權(quán)法和公眾權(quán)利法,違法競(jìng)爭(zhēng)和違反 TOS,使用藝術(shù)家的版權(quán)圖片來(lái)訓(xùn)練其模型,另一起是由蓋蒂影像公司針對(duì) Stability 提出的,指稱(chēng) LAION 爬取了其 1200 萬(wàn)張圖片用于訓(xùn)練 Stable Diffusion。

  由于 LAION 是開(kāi)源的,因此不可能知道有多少其他公司使用了該數(shù)據(jù)集。谷歌已經(jīng)承認(rèn)它利用 LAION 幫助訓(xùn)練其 Imagen 和 Parti AI 文本到圖像模型。舒曼認(rèn)為其他大公司正在悄悄地這樣做,只是不會(huì)披露。

  03

  互聯(lián)網(wǎng)的黑暗面

  當(dāng)他的兒子玩《Minecraft》時(shí),舒曼坐在客廳里,將 LAION 比作「大信息技術(shù)海嘯」上的「小型研究船」,采集下面的樣本并展示給世界看。

  「這只是互聯(lián)網(wǎng)上公開(kāi)的資源的一小部分,」他說(shuō)到 LAION 的數(shù)據(jù)庫(kù),「因?yàn)榧词故俏覀冞@樣的人,只有來(lái)自捐贈(zèng)者的 1 萬(wàn)美元的預(yù)算,也能夠得到它!

  但是,公開(kāi)的并不總是公眾想要的,或者是合法允許看到的。除了貓和消防車(chē)的安全圖片,LAION 的數(shù)據(jù)集還包含了數(shù)百萬(wàn)張色情、暴力、兒童裸體、種族主義梗、仇恨符號(hào)、版權(quán)藝術(shù)和從私人公司網(wǎng)站上抓取的作品。

  舒曼表示,他不知道 LAION 的數(shù)據(jù)集中是否有兒童裸體照片,盡管他承認(rèn)他沒(méi)有深入審查數(shù)據(jù)。如果得到這樣的內(nèi)容通知,他說(shuō),他將立即刪除與之相關(guān)的鏈接。

  在開(kāi)始組裝數(shù)據(jù)庫(kù)之前,舒曼咨詢(xún)了律師并運(yùn)行了自動(dòng)化工具來(lái)過(guò)濾非法內(nèi)容,但他對(duì)于清洗 LAION 的數(shù)據(jù)并不感興趣,而是希望從中學(xué)習(xí)。

  「我們可以從發(fā)布的數(shù)據(jù)中過(guò)濾出暴力內(nèi)容,」他說(shuō),「但我們決定不這樣做,因?yàn)樗鼘⒓铀俦┝z測(cè)軟件的開(kāi)發(fā)。」LAION 提供了一個(gè)撤下表格以請(qǐng)求刪除照片,但是該數(shù)據(jù)集已經(jīng)被下載了數(shù)千次。

  從 LAION 中提取的攻擊性?xún)?nèi)容似乎已經(jīng)整合到了 Stable Diffusion 中,盡管最近已經(jīng)加強(qiáng)了過(guò)濾器,但很容易生成假的伊斯蘭國(guó)斬首照片或大屠殺圖像。

  一些專(zhuān)家認(rèn)為,這樣的材料也可能在 AI 模型本身內(nèi)部產(chǎn)生偏見(jiàn):即使文本提示沒(méi)有暗示主題的種族,像 Dall·E-2 和 Stable Diffusion 這樣的工具也因復(fù)制種族刻板印象而受到批評(píng)。

  這些偏見(jiàn)是谷歌決定不發(fā)布經(jīng)過(guò) LAION 訓(xùn)練的 Imagen 的原因。

  當(dāng)被要求發(fā)表評(píng)論時(shí),Stability AI 表示,它在 LAION 數(shù)據(jù)庫(kù)的一個(gè)策劃子集上對(duì) Stable Diffusion 進(jìn)行了訓(xùn)練。該公司在一封電子郵件中寫(xiě)道,它試圖「為該模型提供比原始 SD 更多樣化和廣泛的數(shù)據(jù)集」,并嘗試使用「LAION 的 NSFW 過(guò)濾器」刪除「成人內(nèi)容」。

  即使是基于開(kāi)源的人工智能的支持者也警告說(shuō),在未加篩選的數(shù)據(jù)集上訓(xùn)練人工智能的影響。

  根據(jù) Hugging Face 的機(jī)器學(xué)習(xí)和社會(huì)團(tuán)隊(duì)負(fù)責(zé)人 Yacine Jernite 的說(shuō)法,基于有污點(diǎn)的數(shù)據(jù)的生成式 AI 工具將反映其偏見(jiàn)!改P褪撬(xùn)練的內(nèi)容的非常直接的反映。」

  Jernite 補(bǔ)充說(shuō),在產(chǎn)品運(yùn)行后引入防護(hù)欄是不足夠的,因?yàn)橛脩?hù)總是會(huì)找到規(guī)避安全措施的方法。他們說(shuō):「當(dāng)你拿一個(gè)訓(xùn)練有素的模型來(lái)模擬人們?cè)诨ヂ?lián)網(wǎng)上的行為,并說(shuō):『好的,但不要這樣做。』人們會(huì)找到一種方法來(lái)讓它仍然這樣做!

  數(shù)據(jù)非營(yíng)利組織 Common Crawl 的創(chuàng)始人吉爾·埃爾巴茲(Gil Elbaz)懷疑「不能從訓(xùn)練集到生產(chǎn)之間畫(huà)一條直線(xiàn)」,并將該過(guò)程比作一個(gè)去博物館尋找靈感但被阻止復(fù)制藝術(shù)品的藝術(shù)家。他說(shuō),「重要的是社會(huì)決定哪些用例是合法的,哪些用例是不合法的!

  這不僅僅是由社會(huì)決定。隨著歐洲監(jiān)管機(jī)構(gòu)制定人工智能使用法規(guī),他們正在努力應(yīng)對(duì)的事實(shí)是,目前人工智能熱潮正在挖掘的數(shù)據(jù)多年來(lái)一直處于法律灰色地帶,而這一現(xiàn)狀現(xiàn)在才受到嚴(yán)重審查。歐洲議會(huì)成員圖多拉切 (Tudorache) 說(shuō):「沒(méi)有多年的數(shù)據(jù)積累,人工智能不可能達(dá)到這種復(fù)雜程度!

  但在舒曼的眼中,應(yīng)該監(jiān)控的不是數(shù)據(jù)集。在他看來(lái),人工智能的最壞情況是大型科技公司通過(guò)為監(jiān)管框架定制工具來(lái)排擠開(kāi)發(fā)人員!溉绻覀?cè)噲D放慢速度并過(guò)度監(jiān)管,」他警告說(shuō),「最終的風(fēng)險(xiǎn)是只有少數(shù)大型企業(yè)玩家能夠承擔(dān)所有正式要求。」

 

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門(mén)新聞

99热手机在线_五月天在线免费视频_波多野结衣之无限发射_美女一区二区三区视频_日韩在线观看a_天天天干夜夜夜操_日韩黄色片在线_97在线免费视频观看_天堂а√在线中文在线_88av.com_国产乱女淫av麻豆国产_日本a在线免费观看
аⅴ资源天堂资源库在线| 国产午夜精品一区在线观看| 亚洲精品国模| 三级精品视频| 免费国产自线拍一欧美视频| 久久精品亚洲| 免费看日韩精品| 国产精品观看| 亚洲午夜精品久久久久久app| 国产亚洲毛片在线| 久久久国产亚洲精品| 麻豆精品在线| 日韩二区三区在线观看| 免费精品一区| 日韩视频免费| 欧美极品一区二区三区| 日韩av资源网| 国产欧美三级| 久久亚洲风情| 美国av一区二区| 免费在线观看一区二区三区| 日韩欧美一区二区三区免费看| 日韩国产欧美在线视频| 亚洲精品综合| 欧美日韩调教| 91精品国产福利在线观看麻豆| 精品免费在线| 理论片午夜视频在线观看| 99成人超碰| 国产精品麻豆成人av电影艾秋| 欧美亚洲国产激情| 欧美日韩中文| 国产精品毛片| 成人va天堂| av资源新版天堂在线| 日本成人精品| 99pao成人国产永久免费视频| 亚洲一区导航| 久久久久中文| 国产欧美精品| 日韩高清中文字幕一区| 免费精品国产的网站免费观看| 国产一区二区三区网| 久久99精品久久久久久园产越南| 亚洲免费中文| 亚洲免费婷婷| 日韩精品一页| 人人爱人人干婷婷丁香亚洲| 中文字幕免费精品| 欧美精品影院| 日韩一区中文| 卡一精品卡二卡三网站乱码| 六月婷婷一区| 亚洲欧美网站在线观看| 日韩一区中文| 成人台湾亚洲精品一区二区| 鲁鲁在线中文| 婷婷激情综合| 亚洲午夜91| 日韩国产欧美在线视频| 国产一区二区三区网| 日韩中文欧美| 欧美日本一区| 在线亚洲激情| 你懂的国产精品| 欧美中文字幕一区二区| 伊人久久一区| 国产精品一区二区精品视频观看 | 精品国产一区二区三区噜噜噜| 福利一区二区免费视频| 国产精品av一区二区| 国产精品一区二区三区www| 久久精品青草| 精品视频一区二区三区在线观看| 午夜精品久久久久久久久久蜜桃| 蜜桃久久av一区| 国产成人精品一区二区三区在线| 蜜桃久久久久久| 亚洲大全视频| 欧美日韩一区二区综合| 国产精品二区影院| 国产精品日本欧美一区二区三区| 色乱码一区二区三区网站| 日韩精品免费视频一区二区三区| 国产精品av久久久久久麻豆网| 久久精品一区二区三区中文字幕| 亚洲日产av中文字幕| 激情久久五月| 99在线|亚洲一区二区| 鲁鲁在线中文| 影视先锋久久| 国产一区二区三区免费在线| 国产精品99在线观看| 久久亚洲国产精品尤物| 久久一区精品| 国产色播av在线| 亚洲特级毛片| 日本99精品| 麻豆视频久久| 激情综合自拍| 日韩在线成人| 红杏一区二区三区| 国产精品7m凸凹视频分类| 三级欧美韩日大片在线看| 日韩国产91| 欧美www视频在线观看| 精品国产乱码久久久久久樱花| 精品午夜av| 久久亚洲电影| av资源亚洲| 麻豆精品网站| 日本少妇一区| 国产精品红桃| 亚洲一级在线| 久久国产毛片| 精品欠久久久中文字幕加勒比| 成人精品中文字幕| 国产剧情一区二区在线观看| 午夜精品亚洲| 日韩免费精品| 日本欧洲一区二区| 国产一区二区三区国产精品| 综合激情五月婷婷| 福利一区在线| 国产免费av一区二区三区| 亚洲精品1区2区| 亚洲成人一区| 欧美日韩视频| 不卡视频在线| 99精品在线观看| 99久久夜色精品国产亚洲1000部| 国产精品成人国产| 久久99视频| 国产成人精品免费视| 日韩一区精品| 中文字幕一区日韩精品| 日韩综合精品| 亚洲精品午夜av福利久久蜜桃| 日韩精品看片| 欧美成人基地 | 在线日韩欧美| 婷婷国产精品| 欧美二三四区| 欧美午夜精彩| 欧美+日本+国产+在线a∨观看| 蜜桃成人精品| 亚洲二区三区不卡| 日韩av一二三| 福利一区二区| 鲁大师成人一区二区三区| 日韩精品欧美成人高清一区二区| 亚洲v天堂v手机在线| 日本少妇精品亚洲第一区| 久久免费影院| 亚洲欧美日韩综合国产aⅴ| 日韩欧美高清一区二区三区| 久久午夜影院| 亚洲免费一区二区| 国产精品任我爽爆在线播放| 久久久久亚洲精品中文字幕| 亚洲伦乱视频| 日本成人中文字幕在线视频| 日韩中文在线电影| 视频在线观看一区| 美女少妇全过程你懂的久久| 日韩精品一区二区三区中文| 欧美a级片一区| 久久亚洲精精品中文字幕| 激情五月综合网| av资源中文在线| 国产毛片久久久| 91成人网在线观看| 精品久久国产一区| 国产日韩视频| 爽好多水快深点欧美视频| 精品三级国产| 国产精品一区二区精品视频观看 | 国产视频一区二区在线播放| 夜久久久久久| 久久在线免费| 韩日一区二区三区| 国产精品av久久久久久麻豆网| 97国产成人高清在线观看| 日韩中文字幕| 日韩美女精品| 欧美一区久久| 久久国产高清| 亚洲aⅴ网站| 国产欧美一区二区三区精品观看| 日韩中文字幕1| 亚洲日产国产精品| 国产欧美日韩影院| 婷婷视频一区二区三区| 国产精品成人国产| 亚洲欧洲高清| 91成人网在线观看| 日本aⅴ精品一区二区三区| 日韩高清中文字幕一区| 欧美激情五月| 国产午夜精品一区二区三区欧美 |