OpenAI“草莓”值萬億嗎？

2024/09/18 11:14 字母榜

　　奧特曼和馬保國有什么共同點?答：都愛搞偷襲。

　　“草莓”的消息已經傳了幾個月，據說這是OpenAI內部的一個神秘項目，似乎和前代模型頗有些不同。但OpenAI一直諱莫如深，最接近曝光的時刻，是此前CEO山姆·奧特曼(Sam Altman)在社交媒體上發布的一張真·草莓照片。

　　就在前幾天，The Information還在爆料稱“草莓”將在未來兩周內發布。

　　即便在如此高的關注度下，OpenAI還是打了世界一個措手不及：當地時間9月12日下午，沒有任何預告，沒有任何發布會，OpenAI突然發布了新模型。

　　不過，新模型的名字不像“草莓”那樣美味，而是很正經，且饒有深意：o1。

　　要知道，此前OpenAI發模型一直以“GPT”系列迭代，從2018年的GPT-1到今年5月的GPT-4o無不如是。如今，OpenAI卻開辟新條線。

　　在官宣o1發布的官方博文中，OpenAI這樣說道：“作為早期模型，它還不具備使 ChatGPT 有用的許多功能……但對于復雜的推理任務來說，這是一個重大進步，代表了 AI 能力的新水平。鑒于此，我們將計數器重置回1并將此系列命名為 OpenAI o1。”

　　新模型目前只開放給ChatGPT付費訂閱用戶和部分程序員，為表該模型還不成熟，暫叫“o1-preview”，preview即為預覽之意。此外，OpenAI還順手發了小模型版本o1-mini。不管是o1-preview還是o1-mini，目前都有每周的回應條數限制。

　　奧特曼自己在社交媒體X上夸贊新模型是“我們迄今為止最強大、最一致的模型”之外，也強調“o1仍然存在缺陷，仍然有限”。

　　一向喜歡給ChatGPT潑冷水的AI學者蓋里·馬庫斯(Gary Marcus)則戲謔OpenAI此舉是“熟悉的配方”：公布演示demo、向有限的用戶開放、籌集資金、再來一遍。

　　o1發布的當下，OpenAI正在進行新一輪融資。根據彭博社最新消息，本輪融資將是百億美元規模、目標估值1500億美元的大事件。

　　先來看看模型本身。

　　正如此前的傳聞，o1的一大側重點是“推理”。而“推理”的背后的關鍵，則是“思考”。

　　對于用戶來說，最直觀的感受是o1-preview在回答問題之前，會花更長時間。

　　字母榜在o1-preview模型下，向ChatGPT提問“今天是幾月幾號星期幾”。問題發送后，ChatGPT逐一顯示自己正在進行的思考步驟：解答日期問題、審查指引、了解當前日期，而后才給出答案，標明“思考8秒”。

　　與之相比，在GPT-4o模型下，ChatGPT在3秒內直接給出回答，沒有顯示中間步驟。

　　“這是一款通過強化學習訓練的新型大預言模型，旨在執行復雜的推理任務。o1在回答問題前會進行思考——它可以在回答用戶之前產生一個內部的長‘思維鏈’。”OpenAI在博文中寫道。

　　這次o1模型發布，OpenAI官方對于技術細節透露得很少，反復強調的就是“思維鏈”。

　　據OpenAI解釋，o1在嘗試解決問題時使用思維鏈，就像人類在回答一個困難問題之前長時間地思考。通過強化學習，o1學會了精細化其思維鏈并優化使用策略。它能夠識別和糾正自己的錯誤，學會將復雜的步驟分解得更簡單。當前的方法不起作用時，它會嘗試不同的方法。

　　“這個過程極大地提高了模型的推理能力。”

　　那o1的能力究竟有多強呢?除了OpenAI一連發布的數條演示視頻之外，最有說服力的還得是測試成績。OpenAI表示，在許多推理密集的基準測試中，o1的表現“與人類專家相媲美”，優于以前的技術。例如在國際奧數考試(IMO)中，以前的技術得分13%，o1的得分高達83%。

　　在 Codeforces 編程比賽中，o1拿到89%的優異成績。OpenAI基于o1還針對性地開發了更擅長編程的o1-ioi，成績一舉超過93%的參賽者。

　　另一個被OpenAI特別拿出來“炫耀”的測試是GPQA-diamond，這是一個化學、物理學和生物學專業知識的基準測試。OpenAI邀請了擁有博士學位的專家一同比拼，發現“o1的表現超過了這些人類專家”。

　　OpenAI還稱，啟用視覺感知能力后，o1在MMMU測試中的得分為78.2,%，“成為第一個能夠與人類專家競爭的模型”。此外，57個MMLU子類別中，o1在54個子類別上超過了GPT-4o。

　　總之，o1比起OpenAI之前的模型，更注重推理能力，在數學和編程等方面的能力尤其得到提升，說夸張點兒簡直是拳打博士，腳踢專家，而且通過“思維鏈”，還有望減少模型的幻覺。

　　不過，目前o1還處在比較早期的階段，正如奧特曼強調的“還有缺陷，仍然有限”。

　　僅在字母榜的淺淺嘗試中，o1-preview就發生過錯誤。如提問“9.11和9.9哪個大”，GPT-4o回答錯誤，o1-preview同樣回答錯誤，一本正經地表示“9.11確實大于9.9.因為9.11(即9.11)比9.9(9.90)要大”。啰唆中帶著一絲滑稽，更別提思考花費了15秒。

　　The Information也報道稱，一些試用了o1-preview的用戶表示，很多互動“不值得額外等待10到20秒的時間”，他們更喜歡GPT-4o的響應速度。

　　目前開放給付費用戶的是o1-preview和o1-mini，但次數有限制：o1-preview每周30條消息，o1-mini每周50條消息。

　　下周開始，ChatGPT的企業用戶和教育(Edu)用戶也可以訪問這兩種模型。OpenAI還表示未來想向所有用戶免費提供o1-mini，但具體的時間并未公布。

　　這還是OpenAI首次在發布模型的時候加上類似“preview(預覽)”的后綴，此前不管是GPT-4還是GPT-4o都是直接發布完全體。

　　o1的一個不容忽視的特點是：貴。

　　開發人員訪問o1的成本非常高：在API方面，o1-preview每100萬個輸入令牌或模型解析的文本塊收費15美元，是GPT-4o的三倍，每100萬個輸出令牌收費60美元，是GPT-4o的四倍。

　　The Atlantic在報道中分析稱，o1專門被設計成需要更多時間的，這必然會消耗更多資源，增加AIGC盈利的難度。

　　本文開頭提到的馬庫斯(Gary Marcus)是人類神經科學和人工智能交叉領域的學者，紐約大學榮譽教授，同時也是AI初創公司Geometric Intelligence的創始人兼CEO，他更加深入人心的角色是“AI界的刺兒頭”，多次批評OpenAI。

　　在他看來，OpenAI突然發布o1-preview的舉動更多是一種宣傳手段。

　　畢竟OpenAI正在進行一輪重要的融資，據彭博社近日的最新報道，OpenAI正在商談以1500億美元估值從投資者那里籌集65億美元，此外還想以循環信貸的方式從銀行籌集50億美元。

　　“發demo，向有限用戶開放、籌錢、重復”，馬庫斯這樣總結OpenAI的“手段”。

　　今年7月，The Information曾報道OpenAI今年可能虧損高達50億美元。其中OpenAI今年的員工成本約15億美元，AI訓練和推理成本可能高達70億美元，而年收入則預計在35億美元到45億美元之間。

　　當時The Information就預言，照這個燒錢速度，OpenAI很快就得出來融資，上一次OpenAI的重要融資還是2023年初，微軟投了百億美元。

　　OpenAI已經不是第一次在關鍵節點釋放“不成熟的產品”。

　　去年10月，OpenAI傳出尋求出售股票的消息，當時被傳的可能估值是860億美元。但是次月OpenAI發生了驚人的高層巨變，奧特曼被踢出公司，又很快重回CEO崗位，贏得了“宮斗”。但股票出售計劃由此被短暫耽擱，直到11月底才有交易“重回正軌”的消息。彼時就有知情人士表示，員工擔心這次突發事件會影響股票出售，影響公司的估值。

　　有趣的是，在今年2月15日，OpenAI突然公布了一個全新的視頻生成模型Sora，演示demo引起外界震動。不出三日，《紐約時報》報道，OpenAI完成了員工出售股份的交易，公司估值“如期”超過800億美元。

　　如今已經過去了半年多，Sora遲遲未向大眾開放，甚至沒有推進大規模的測試。外界開始懷疑，Sora其實根本沒有足夠的算力支撐運行。市場研究機構Factorial Funds發布的報告認為，部署Sora需要72萬張英偉達***芯片。

　　9月初，《臺灣經濟日報》報道臺積電的A16埃米級芯片已經有大客戶下單，除了蘋果之外，還有OpenAI。而OpenAI將用定制芯片提升Sora的視頻生成能力。這似乎也印證著此前Sora遇到了算力卡點。

　　如今草莓味的ChatGPT來了，也許很快，我們就能看到OpenAI成功完成新一輪融資、估值超萬億元的消息。

IT產業網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

OpenAI“草莓”值萬億嗎？

最新新聞

熱門新聞

新動態

關注度

最話題

OpenAI“草莓”值萬億嗎？

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題