首頁(yè) > 資訊 > 評(píng)論

開(kāi)啟 AIGC 時(shí)代的那個(gè)人，一分錢(qián)都沒(méi)賺到

2023/04/26 14:09 極客公園 Founder Park

　　2021 年的時(shí)候，一位基金經(jīng)理在 Discord 上找到了人在德國(guó)的高中老師克里斯托夫·舒曼。

　　基金經(jīng)理愿意承擔(dān)舒曼開(kāi)源項(xiàng)目的所有云計(jì)算成本，沒(méi)有任何附加條件。

　　一開(kāi)始舒曼不敢相信會(huì)有這樣的好事，直到幾周之后，他獲得了 AWS 云端 GPU 的訪(fǎng)問(wèn)權(quán)。

　　他的項(xiàng)目是 LAION，世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集。

　　那位基金經(jīng)理名叫 Emad，他創(chuàng)辦了 Stability.AI，開(kāi)啟了 AIGC 的時(shí)代。

　　開(kāi)源萬(wàn)歲。

　　以下內(nèi)容來(lái)源 Bloomberg，GPT 翻譯的，F(xiàn)ounder Park 做了些微小的校對(duì)。

　　在德國(guó)漢堡郊區(qū)的一所郊區(qū)房子前，單詞「LAION」用鉛筆潦草地寫(xiě)在郵箱上。

　　這是一個(gè)龐大的數(shù)據(jù)收集工作的背后人物，這個(gè)工作是人工智能潮流的核心，并引發(fā)了一個(gè)越來(lái)越激烈的關(guān)于如何監(jiān)管它的爭(zhēng)議。

　　這個(gè)人是高中教師克里斯托夫·舒曼(Christoph Schuhmann)，而 LAION 是他的熱情項(xiàng)目。當(dāng)舒曼不是在向德國(guó)青少年教授物理和計(jì)算機(jī)科學(xué)時(shí)，他與一小隊(duì)志愿者一起建立了世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集，已經(jīng)被用 AIGC，如谷歌的 Imagen 和 Stable Diffusion。

　　像 LAION 這樣的數(shù)據(jù)庫(kù)對(duì)于 text2image 的生成式 AI 模型非常重要，它們依賴(lài)于它們來(lái)解構(gòu)和創(chuàng)建新圖像所需的大量視覺(jué)材料。這些產(chǎn)品的首次亮相是一個(gè)范式轉(zhuǎn)移事件：它將科技行業(yè)的人工智能競(jìng)賽推向了*，但也引發(fā)了許多道德和法律問(wèn)題。

　　在幾個(gè)月內(nèi)，針對(duì)生成式 AI 公司 Stability AI 和 Midjourney 的版權(quán)侵權(quán)訴訟頻發(fā)，批評(píng)者對(duì)其中暴力、性化和其他問(wèn)題圖像的數(shù)據(jù)集發(fā)出警報(bào)，他們指責(zé)這些數(shù)據(jù)集包含了幾乎不可能解決的偏見(jiàn)。

　　但這并不是舒曼的關(guān)注點(diǎn)，他只想讓數(shù)據(jù)自由。

　　40 億美元 → 零收益

　　這位 40 歲的老師和受過(guò)演員訓(xùn)練的人，兩年前在一個(gè) AI 愛(ài)好者的 Discord 服務(wù)器上創(chuàng)建了 LAION。OpenAI 的*版 DALL·E 是一個(gè)深度學(xué)習(xí)模型，用于響應(yīng)文字 prompt 生成圖片，例如，按要求創(chuàng)建一個(gè)粉色雞坐在沙發(fā)上的圖像。

　　舒曼受到啟發(fā)，但也擔(dān)心它會(huì)鼓勵(lì)大型科技公司使更多數(shù)據(jù)專(zhuān)有化。

　　「我立刻明白，如果這個(gè)只集中在一個(gè)、兩個(gè)或三個(gè)公司，對(duì)社會(huì)的影響將非常糟糕，」舒曼說(shuō)。

　　作為回應(yīng)，他和服務(wù)器上的其他成員決定創(chuàng)建一個(gè)開(kāi)源數(shù)據(jù)集來(lái)幫助訓(xùn)練 t2i 擴(kuò)散模型，這是一個(gè)類(lèi)似于用數(shù)百萬(wàn)張閃卡向某人教授一種外語(yǔ)的幾個(gè)月的過(guò)程。該組使用由加利福尼亞州非營(yíng)利組織 Common Crawl 收集的原始 HTML 代碼來(lái)定位網(wǎng)絡(luò)上的圖像并將其與描述性文本相關(guān)聯(lián)。它不使用任何手動(dòng)或人工策劃。

　　幾周后，舒曼和他的同事?lián)碛辛?300 萬(wàn)張圖像文本對(duì)。三個(gè)月后，他們發(fā)布了一個(gè)含有 4 億文本標(biāo)注圖片的數(shù)據(jù)集。現(xiàn)在，這個(gè)數(shù)字已經(jīng)超過(guò)了 50 億，使 LAION 成為*的免費(fèi)圖像和標(biāo)注數(shù)據(jù)集。

　　隨著 LAION 的聲譽(yù)不斷提高，團(tuán)隊(duì)一直在無(wú)償工作，2021 年獲得了機(jī)器學(xué)習(xí)公司 Hugging Face 的一次捐贈(zèng)。然后有一天，一位前對(duì)沖基金經(jīng)理進(jìn)入了 Discord 聊天室。

　　Emad Mostaque 主動(dòng)提出承擔(dān)計(jì)算能力的費(fèi)用，沒(méi)有任何附帶條件。他想要啟動(dòng)自己的開(kāi)源生成式 AI 業(yè)務(wù)，并渴望利用 LAION 來(lái)訓(xùn)練他的產(chǎn)品。團(tuán)隊(duì)最初嘲笑這個(gè)提議，認(rèn)為他是一個(gè)瘋子。

　　舒曼說(shuō):「我們一開(kāi)始非常懷疑，但經(jīng)過(guò)四周左右，我們獲得了云端的 GPU 資源，這些資源通常的費(fèi)用約為 9000 美元或 10000 美元�！�

　　當(dāng) Mostaque 在 2022 年創(chuàng)辦 Stability AI 時(shí)，他使用了 LAION 的數(shù)據(jù)集來(lái)訓(xùn)練 Stable Diffusion，并雇用了該組織的兩名研究人員。一年后，Stability AI 目前正在尋求 40 億美元的估值，這在很大程度上得益于 LAION 提供的數(shù)據(jù)。

　　舒曼沒(méi)有從 LAION 中獲利，他對(duì)此不感興趣�！肝胰匀皇且幻咧欣蠋煛Ｎ揖芙^了各種公司的工作邀請(qǐng)，因?yàn)槲蚁Ｍ３知?dú)立�！�

　　數(shù)據(jù)集就是

　　AI 時(shí)代的石油

　　像 LAION 這樣的數(shù)據(jù)庫(kù)中的許多圖像和鏈接，一直以來(lái)都明目張膽地存在于網(wǎng)絡(luò)上，有些甚至已經(jīng)存在數(shù)十年之久。

　　它需要 AI 的興起才揭示出它的真正價(jià)值，因?yàn)閿?shù)據(jù)集越大且越多樣化，其中的圖像質(zhì)量越高，AI 生成的圖像就會(huì)越清晰、更精確。

　　這一認(rèn)知反過(guò)來(lái)又引發(fā)了許多法律和倫理問(wèn)題，即公開(kāi)可用的材料能否用于填充數(shù)據(jù)庫(kù)——如果答案是肯定的，那么創(chuàng)作者是否應(yīng)該得到報(bào)酬。

　　為了建立 LAION，創(chuàng)始人們從 Pinterest、Shopify 和 AWS 等公司中獲取了視覺(jué)數(shù)據(jù)——這些公司并未就 LAION 使用它們的內(nèi)容是否違反了其服務(wù)條款發(fā)表評(píng)論。還包括來(lái)自 YouTube 縮略圖、DeviantArt 和 EyeEm 等作品集平臺(tái)的圖像、來(lái)自包括美國(guó)國(guó)防部在內(nèi)的政府網(wǎng)站的照片，以及來(lái)自新聞網(wǎng)站如《每日郵報(bào)》和《太陽(yáng)報(bào)》的內(nèi)容。

　　如果你問(wèn)舒曼，他會(huì)說(shuō)任何在網(wǎng)上免費(fèi)提供的東西都是公平競(jìng)爭(zhēng)的。但目前歐盟還沒(méi)有 AI 監(jiān)管，即將公布的 AI Act，其語(yǔ)言將在今年夏天早些時(shí)候確定，也不會(huì)規(guī)定版權(quán)材料是否可以包含在大型數(shù)據(jù)集中。

　　相反，立法者正在討論是否包括一項(xiàng)規(guī)定，要求 AIGC 背后的公司披露其產(chǎn)品訓(xùn)練所使用的數(shù)據(jù)集中包含了哪些材料，從而給這些材料的創(chuàng)作者提供采取行動(dòng)的選擇。

　　歐洲議會(huì)議員 Dragos Tudorache 告訴彭博社，這一規(guī)定背后的基本思想很簡(jiǎn)單：「作為生成式 AI 的開(kāi)發(fā)者，你有義務(wù)記錄和透明地披露你在算法訓(xùn)練中使用的版權(quán)材料。」

　　這種規(guī)定對(duì)于 Stability AI 不是問(wèn)題，但對(duì)于其他 t2i 模型可能會(huì)帶來(lái)問(wèn)題「沒(méi)有人知道 Open AI 實(shí)際上用來(lái)訓(xùn)練 DALL·E 2 的是什么，」舒曼說(shuō)，以此作為技術(shù)公司封鎖公共數(shù)據(jù)的例子。這也將顛覆現(xiàn)有的數(shù)據(jù)收集現(xiàn)狀。

　　「在這個(gè)領(lǐng)域中，慣例是假定您不需要同意或不需要通知人們，或者他們甚至不需要知道這一點(diǎn)。人們有一種自認(rèn)為擁有權(quán)利的感覺(jué)，即無(wú)論網(wǎng)上有什么，您都可以爬取并將其放入數(shù)據(jù)集中，」Mozilla 基金會(huì)值得信賴(lài)的 AI 高級(jí)研究員 Abeba Birhane 說(shuō)道，他已經(jīng)研究了 LAION。

　　盡管 LAION 沒(méi)有直接被起訴，但它已被列為兩起訴訟的被告：一起指控 Stability 和 Midjourney 違反 DMCA 版權(quán)法和公眾權(quán)利法，違法競(jìng)爭(zhēng)和違反 TOS，使用藝術(shù)家的版權(quán)圖片來(lái)訓(xùn)練其模型，另一起是由蓋蒂影像公司針對(duì) Stability 提出的，指稱(chēng) LAION 爬取了其 1200 萬(wàn)張圖片用于訓(xùn)練 Stable Diffusion。

　　由于 LAION 是開(kāi)源的，因此不可能知道有多少其他公司使用了該數(shù)據(jù)集。谷歌已經(jīng)承認(rèn)它利用 LAION 幫助訓(xùn)練其 Imagen 和 Parti AI 文本到圖像模型。舒曼認(rèn)為其他大公司正在悄悄地這樣做，只是不會(huì)披露。

　　互聯(lián)網(wǎng)的黑暗面

　　當(dāng)他的兒子玩《Minecraft》時(shí)，舒曼坐在客廳里，將 LAION 比作「大信息技術(shù)海嘯」上的「小型研究船」，采集下面的樣本并展示給世界看。

　　「這只是互聯(lián)網(wǎng)上公開(kāi)的資源的一小部分，」他說(shuō)到 LAION 的數(shù)據(jù)庫(kù)，「因?yàn)榧词故俏覀冞@樣的人，只有來(lái)自捐贈(zèng)者的 1 萬(wàn)美元的預(yù)算，也能夠得到它�！�

　　但是，公開(kāi)的并不總是公眾想要的，或者是合法允許看到的。除了貓和消防車(chē)的安全圖片，LAION 的數(shù)據(jù)集還包含了數(shù)百萬(wàn)張色情、暴力、兒童裸體、種族主義梗、仇恨符號(hào)、版權(quán)藝術(shù)和從私人公司網(wǎng)站上抓取的作品。

　　舒曼表示，他不知道 LAION 的數(shù)據(jù)集中是否有兒童裸體照片，盡管他承認(rèn)他沒(méi)有深入審查數(shù)據(jù)。如果得到這樣的內(nèi)容通知，他說(shuō)，他將立即刪除與之相關(guān)的鏈接。

　　在開(kāi)始組裝數(shù)據(jù)庫(kù)之前，舒曼咨詢(xún)了律師并運(yùn)行了自動(dòng)化工具來(lái)過(guò)濾非法內(nèi)容，但他對(duì)于清洗 LAION 的數(shù)據(jù)并不感興趣，而是希望從中學(xué)習(xí)。

　　「我們可以從發(fā)布的數(shù)據(jù)中過(guò)濾出暴力內(nèi)容，」他說(shuō)，「但我們決定不這樣做，因?yàn)樗鼘⒓铀俦┝z測(cè)軟件的開(kāi)發(fā)。」LAION 提供了一個(gè)撤下表格以請(qǐng)求刪除照片，但是該數(shù)據(jù)集已經(jīng)被下載了數(shù)千次。

　　從 LAION 中提取的攻擊性?xún)?nèi)容似乎已經(jīng)整合到了 Stable Diffusion 中，盡管最近已經(jīng)加強(qiáng)了過(guò)濾器，但很容易生成假的伊斯蘭國(guó)斬首照片或大屠殺圖像。

　　一些專(zhuān)家認(rèn)為，這樣的材料也可能在 AI 模型本身內(nèi)部產(chǎn)生偏見(jiàn)：即使文本提示沒(méi)有暗示主題的種族，像 Dall·E-2 和 Stable Diffusion 這樣的工具也因復(fù)制種族刻板印象而受到批評(píng)。

　　這些偏見(jiàn)是谷歌決定不發(fā)布經(jīng)過(guò) LAION 訓(xùn)練的 Imagen 的原因。

　　當(dāng)被要求發(fā)表評(píng)論時(shí)，Stability AI 表示，它在 LAION 數(shù)據(jù)庫(kù)的一個(gè)策劃子集上對(duì) Stable Diffusion 進(jìn)行了訓(xùn)練。該公司在一封電子郵件中寫(xiě)道，它試圖「為該模型提供比原始 SD 更多樣化和廣泛的數(shù)據(jù)集」，并嘗試使用「LAION 的 NSFW 過(guò)濾器」刪除「成人內(nèi)容」。

　　即使是基于開(kāi)源的人工智能的支持者也警告說(shuō)，在未加篩選的數(shù)據(jù)集上訓(xùn)練人工智能的影響。

　　根據(jù) Hugging Face 的機(jī)器學(xué)習(xí)和社會(huì)團(tuán)隊(duì)負(fù)責(zé)人 Yacine Jernite 的說(shuō)法，基于有污點(diǎn)的數(shù)據(jù)的生成式 AI 工具將反映其偏見(jiàn)�！改Ｐ褪撬�(xùn)練的內(nèi)容的非常直接的反映。」

　　Jernite 補(bǔ)充說(shuō)，在產(chǎn)品運(yùn)行后引入防護(hù)欄是不足夠的，因?yàn)橛脩?hù)總是會(huì)找到規(guī)避安全措施的方法。他們說(shuō)：「當(dāng)你拿一個(gè)訓(xùn)練有素的模型來(lái)模擬人們?cè)诨ヂ?lián)網(wǎng)上的行為，并說(shuō)：『好的，但不要這樣做。』人們會(huì)找到一種方法來(lái)讓它仍然這樣做�！�

　　數(shù)據(jù)非營(yíng)利組織 Common Crawl 的創(chuàng)始人吉爾·埃爾巴茲(Gil Elbaz)懷疑「不能從訓(xùn)練集到生產(chǎn)之間畫(huà)一條直線(xiàn)」，并將該過(guò)程比作一個(gè)去博物館尋找靈感但被阻止復(fù)制藝術(shù)品的藝術(shù)家。他說(shuō)，「重要的是社會(huì)決定哪些用例是合法的，哪些用例是不合法的�！�

　　這不僅僅是由社會(huì)決定。隨著歐洲監(jiān)管機(jī)構(gòu)制定人工智能使用法規(guī)，他們正在努力應(yīng)對(duì)的事實(shí)是，目前人工智能熱潮正在挖掘的數(shù)據(jù)多年來(lái)一直處于法律灰色地帶，而這一現(xiàn)狀現(xiàn)在才受到嚴(yán)重審查。歐洲議會(huì)成員圖多拉切 (Tudorache) 說(shuō)：「沒(méi)有多年的數(shù)據(jù)積累，人工智能不可能達(dá)到這種復(fù)雜程度�！�

　　但在舒曼的眼中，應(yīng)該監(jiān)控的不是數(shù)據(jù)集。在他看來(lái)，人工智能的最壞情況是大型科技公司通過(guò)為監(jiān)管框架定制工具來(lái)排擠開(kāi)發(fā)人員�！溉绻覀�?cè)噲D放慢速度并過(guò)度監(jiān)管，」他警告說(shuō)，「最終的風(fēng)險(xiǎn)是只有少數(shù)大型企業(yè)玩家能夠承擔(dān)所有正式要求。」

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

開(kāi)啟 AIGC 時(shí)代的那個(gè)人，一分錢(qián)都沒(méi)賺到

最新新聞

熱門(mén)新聞

新動(dòng)態(tài)

關(guān)注度

最話(huà)題

開(kāi)啟 AIGC 時(shí)代的那個(gè)人，一分錢(qián)都沒(méi)賺到

相關(guān)閱讀

最新新聞

熱門(mén)新聞

新動(dòng)態(tài)

關(guān)注度

最話(huà)題