首頁 > 資訊 > 評論

全網刷屏的Manus合伙人，一年前在做什么？

2025/03/07 14:36 微信公眾號：娛樂資本論 James

　　今天，AI智能體應用Manus爆火刷屏，其聯合創始人張濤對外發聲描述產品狀態，他也是親自在群里發邀請碼的那個人，以及在辦公室里倒數計時，迎接產品發布上線的人，其個人經歷引發關注。

　　張濤此前在字節跳動負責國際化產品的戰略規劃與落地，2023年，他加入王慧文創辦的人工智能公司光年之外，擔任產品負責人，主導AI產品的研發與商業化探索。

　　2024年7月，張濤與首席科學家季逸超(Peak)、連續創業者肖弘(Red)共同創立Manus AI，并擔任合伙人。他目前主要負責產品戰略、市場溝通及用戶體驗優化。

　　張濤的即刻頁面

　　娛樂資本論在一年前的2024年3月曾經采訪過張濤。當時他在光年之外開發兒童陪伴類AI產品Dodoboo。那時AI陪伴賽道非常火熱，我們就他的產品，作為產品經理的方法論，以及AI陪伴的一些趨勢做了討論。

　　從現在回頭看，里面大多數預見性的內容，如今已成功應驗，而另一些內容仍有待將來的發展不斷驗證。作為一個十多年經驗的產品經理老兵，他對產品的理解貫穿了前移動互聯網時代，到如今的AI時代，體現出邏輯上的一致性。

　　以下是張濤在采訪中的部分主要內容摘錄：

　　1、“這一代孩子天生就是AI時代的孩子”

　　我叫張濤，通常在各個社區里用hidecloud這個ID。我過去主要做toC產品設計和運營，最近五年一直在做SaaS產品，前四年做神策數據，最近一年在做飛書的國際化。去年(2023)年中開始做AI方面的工作，已經做了8個月。在AI領域是“AI一日人間一年”，所以我有很多感悟。

　　現在（2024.4）正在做的產品Dodoboo 1月底上線，是面向小朋友的繪畫增強App，最初是GPT幫我們取的名字。產品比較簡單，網站首頁的視頻就展示了它所有功能。你在右邊繪畫，左邊會實時生成相應的畫作。這個過程不需要輸入提示詞，很適合兒童使用。

　　我們目前使用的都是開源模型。在圖像標注方面，有很多不同的模型可供選擇。我們最初使用了社區中廣泛使用的模型，但后來發現那個模型比較舊，不太適合復雜圖像的理解，尤其是針對兒童圖像。我們嘗試了幾種不同的圖像標注模型，最終選擇了現在這個，并用兒童涂鴉數據集進行了微調。

　　生成的圖像的布局和走勢都是不可更改的。如果只依賴提示詞，我們無法達到現在這樣的效果。我們確實做了圖到圖的生成。為了提高性能，目前沒有實施更多的控制流程，因為這會影響生成效率。

　　我們現在沒有把畫風選擇直接提供給用戶。主要是在后端進行了一些分類，根據用戶的不同輸入，如純線條勾勒或有色塊的作品，進行不同的處理。所以，你會發現最終生成的風格并不完全一致。

　　去年(2023)下半年以來，新的技術如LCM(潛在一致性模型)和(2024年)2月字節的SDXL-Lightning等技術出現后，圖像生成的效率已經大大提高。例如，在我們的系統中，如果運行在級別較高的顯卡上，單張圖像生成可以控制在0.8-1秒之間，加上網絡傳輸，總時間可能在1.5-2秒左右。

　　我們現在的早期用戶，主要是自己身邊的朋友，他們的反饋非常有趣。

　　我們在演示強調了一個賣點：提升孩子的自信。但這引發了中國式家長的擔憂，他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美圖像，而失去創造力。這是一個非常有趣的反饋。

　　另一方面，有些孩子非常喜歡使用這個產品，特別是那些內向、乃至患有孤獨癥的孩子，他們能非常專注地使用這款產品，可能畫一兩百張圖。同時我們也有國際用戶。

　　我們發現成年人也在使用它。有些成年用戶的原始畫作已經非常出色，有個用戶給我們做演示時，筆觸和構圖非常專業，不像小孩的涂鴉。最后我甚至有點慚愧，覺得我們生成的圖像沒有他的畫好看。

　　進入美術教育會是一個有趣的方向，但我們最初設計這款產品時，并沒有想那么多。

　　現在回過頭來看，我有些不同的想法。我們自己小的時候，人們不鼓勵使用計算器，希望我們能心算。但現在看來，這似乎有些滑稽。

　　我覺得這一代孩子天生就是AI時代的孩子。他們可能會從小就習慣使用各種AI工具來增強自己的生活、學習和工作能力。

　　“產品必須一開始就盈利”

　　現在啟動一個AI項目，開發流程和初期的增長策略仍然和傳統的App相同。當然，AI領域面臨一些獨特的問題。例如，AI產品實現規模化的方式與我們以前的大多數互聯網產品不同。

　　坦白說，直到日活用戶達到10萬之前，我們通常不會遇到太大的技術挑戰。但AI產品與之前的互聯網產品不同，它的邊際成本并不會快速降低至接近零。

　　所以這就給大家留下了一個印象：如果沒有大公司的支持，這種項目基本上是沒有希望的。實際上，即使是依靠大公司也會有問題。

　　我認為大公司可能會在戰略上選擇補貼，但一個真正成功的產品，必須在商業上也是成功的，這意味著它必須盈利并有一個正向的商業模式，否則長期很難持續下去。

　　張濤在產品走紅后負責對外發聲。圖/即刻 hidecloud

　　目前在AI產品領域，我認為大家已經達成了共識。AI產品不能像以前那樣僅僅追求百萬日活，從一開始就要考慮好商業模式和付費方式。

　　甚至需要從一開始就考慮好，應該使用什么規模的模型和什么樣的模型能力，來服務目標客戶群。有些市場可能需要你使用最*的模型，而有些市場即便如此也可能無法滿足需求。

　　這可能也包括一些工程上的挑戰，比如首先需要對任務進行分類。先判斷需求，然后將其路由到適合的模型，或者是訓練過的特定小模型來處理特定的問題。

　　目前在行業早期的研發模式未必是未來的模式。但目前我們在做內部測試的demo時，可能會使用最*的模型，這有助于我們驗證想法，確保項目是可行的。如果我們能用最*的模型解決問題，那接下來就會考慮如何進行裁剪和蒸餾，以及如何使用成本更低的方法來解決問題。

　　這就像是回到了古典互聯網，那時候我們還處于必須嚴格控制帶寬和數據量的階段。現在我們在這個領域中會用到一些技巧。我通過閱讀論文發現了一些工程優化的方法，這也是一種比較傳統的互聯網工程思路。我認為工程學貫穿了我們人類幾千年的歷史。事實上，很多工程思維方法在計算機出現之前就已經存在了。

　　3、“演示一出現，大家就立刻知道它的價值”

　　我們產品目前的*競爭力，可能是對市場和用戶需求的把握。

　　前一陣子我參加一個分享會，我發現很多AI創業者，尤其是有研究背景的，他們對用戶的理解還很淺，沒有對用戶需求的真實感知。他們談論產品時，很少提及用戶的需求和場景，不是說他們的工具去給用戶解決什么問題。

　　去年大多數人想到AI都是降本增效，但我提出不做效率工具。我做工具出身，但在AI領域，我不想只做工具。如果工具和內容結合，我會更感興趣。

　　但純工具，比如寫年報或年終總結，一個人一年能寫幾次呢?我們說到AI助理，但一個公司可能有12萬人，有幾個人真的需要助理呢?我覺得這種需求很難被深入挖掘。

　　大多數人實際上并不需要那么高的工作效率。這背后的原因是，整個社會的生產方式和勞動形態還沒有發生根本性的改變。所以，如果你只解決生產效率問題，那就可能是大面上有問題的。

　　我之前跟他們聊天時沒有提到的一點是，這波浪潮不是AI，而是AIGC——自動生成內容。現在的問題是很多人關注的是生成動作，因為以前沒有這樣的技術。看到一個智能體生成內容很震撼，但這種震撼可能一兩年后就變得平常。

　　我認為更重要的是內容層面的問題。你生產了這么多內容，這些內容如何被消費，對人產生什么樣的影響?——這才是產品的機會，而不僅僅是生成本身。

　　我們去年10月做了一個演示(demo)，在小圈子里測試后，大家的*反應是希望能在iPad上使用，給孩子們畫畫。

　　那時候很多AI產品都是為了展示模型能力而制作，有時候很難明確用途。但是我們的demo一出現，大家就立刻知道它的價值。作為一個產品，這是一個很好的起點。

　　好多年前，有個產品叫“你畫我猜”(Draw Something)。當時我更多的是出于興趣在玩。除了對傳播鏈條有一些想法外，我并沒有深入思考過它。

　　不過，在開發現在的Dodoboo過程中，我們確實回想了Draw Something，甚至考慮過是否要以社交或娛樂為主。但由于產品需要快速上線，沒有深入考慮其他交互娛樂方面的想法。

　　我們考慮的下一步是建立一個小型社區，核心是畫廊，不是社交。社交產品很容易變得復雜，涉及審查等問題。現在的產品設計，就是把用戶能做的事情限定在一定范圍內。完成一幅畫后，用戶可以點一個按鈕發布到廣場，甚至不需要注冊/登錄。

　　實際上，我們發現產品最有趣的部分并不僅僅是成品圖畫。產品右上角有一個撤銷按鈕，其實你可以一直返回上一步，也可以前進看下一步。

　　每次畫完圖后，回到最開始，逐步查看整個生成過程，你會有一種感覺，就是那個精美的圖是你自己創作出來的。看著一個東西從無到有、變得精美的過程，是非常享受的。

　　下一個版本我們會將繪圖過程生成為視頻。我覺得視頻本身具備傳播屬性，這可能是一個小嘗試。這一點確實讓人想起Draw Something在社交網絡上分享畫圖和猜圖的過程。

　　我當然希望產品未來會火，但如何長期維持，這是一個新問題。AI行業還在早期階段，很難為未來的問題做準備。

　　4、“人類的情感太容易被操縱了”

　　在圍繞陪伴的過程中，我們做了一些產品，有些對外小規模發布，也有完全對內的小demo。在這個過程中，我看到了許多細節和瞬間，這讓我非常有信心。

　　從中長期來看，我非常看好AI在陪伴方向的發展。人類的情感太容易被操縱，我們并不像我們自己想的那么理性。情感容易受外來因素影響，無論這個因素來自真人還是算法。即使知道這是虛構的，人們仍容易產生共情。

　　說一下我們做的一個實驗。GPT-4的視覺模型能讀懂圖像內容。我結合這個技術，編寫了一些假想的“朋友”和“敵人”。然后他們基于我的照片內容進行評論，贊美我，也有批評我。

　　這個實驗對我影響很大。我雖然是整個規則的“上帝”，編寫了所有的角色，運行了程序，但當他們開始根據我的照片內容評論時，我的內心還是受到了觸動。人類的情感太容易被操縱了。

　　我們自己的朋友圈還是相對較多，某種程度上擁有社交優勢。發朋友圈或微博，總會有人點贊、評論或轉發。對于大多數人來說，無論是在線還是離線社交，他們的社交圈相對較小，得到的反饋也比較少。我認為對大多數普通用戶來說，無論內容是真人還是AI發布的，給予反饋都有其積極價值，并不全是欺騙。

　　Character.AI的用戶群體基本上都是非常年輕的，大概12-16歲。這些人基本上沒有多少追隨者，發的內容也很少有人理會。但他們非常頻繁地發帖，其中大部分內容都與C.AI有關，這非常可怕。

　　我們觀察到AI陪伴產品的一個典型特征是，大多數人開始是被知名動漫或游戲人物吸引。但從體驗和用戶訪談來看，如果你持續和一個已知的著名角色聊天，很容易聊崩，因為你對這個角色太了解了。一旦出戲，他就不再像那個角色了。所以我們會發現，通常情況下，用戶長期持續交流的角色，是他們自己創造的，或平臺上的一些原創角色。

　　在許多競品的用戶社區里，我常看到用戶因為產品的bug而大發雷霆。大多數使用者還是年輕人，他們對產品的缺陷非常敏感。有時候他們在群里的辱罵言辭，讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛擬角色，而是在群里罵官方和平臺，怪他們破壞了自己的角色。

　　這就出現另一個問題。當你用AI重溫已故親人的音容笑貌，你對ta很了解，那么你們會不會聊崩呢?雖然這感覺像是一個難以解決的問題，但實際上并非無解。

　　比如，我們可以采取一些措施，規定一些方向。例如明確指出某些東西是假的。我們可以引導他們進行鼓勵性的對話，比如永遠鼓勵東亞的孩子們，這樣他們在成長過程中，會感受到父母的愛和鼓勵。

　　我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個AI爸媽天天表揚你，說“孩子，我愛你!”那該有多好。我現在就有這種感覺，活人在情緒供給方面，很難競爭過AI。

　　還有一種AI陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例，但它并沒有真正流行起來。我在想可能的原因是，再好的故事書也需要家長來讀給孩子聽，這可能是*的障礙。

　　AI語音交互主要是等待時間太長。沒有模型能像人一樣，在規定時間內回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業內解決。現在已經有了一些方向，但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉換，直接將聲音作為輸入給語言模型，然后模型直接輸出語音。

　　國內上一代語音助手大部分是基于規則做的。大廠可能都有成千上萬條規則來解決各種邊緣場景，突然讓他們放棄這些規則能力，全面轉向大模型，他們一時半會兒也不敢轉。轉了之后整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。

　　長期來看，成年人、青少年、兒童和老年人的AI陪伴都有機會。但初期可能是兒童和老年階段優先出現一些應用。因為他們對語言模型的缺點容忍度較高。

　　5、“一些小細節，讓人感到被連接”

　　制作一個代理幫助預訂機票，在最后一步，你無法完全依賴大模型。相比之下，制作陪伴類產品對準確性的要求不高。但陪伴類產品仍需要評估產品的有效性。

　　我們需要確定有效性的最高標準，例如我在制作Dodoboo時，最初的動機是同事或朋友看到它后，想給他們的孩子使用。這種直接的動機是有效性的一個重要標準。

　　圖/X Hidecloud

　　我認為有效性在于與產品建立情感上的聯系。比如在進行小實驗時，我們發現一些細微的情感連接。這些連接通常不是巨大的情感沖擊，而是一些小細節，讓人感到被連接。

　　其中一個重要因素是主動性。傳統的AI聊天機器人通常是應激性反應，等待用戶的提示才會回應。但我們發現，一旦AI具有主動性，比如自己判斷何時發起對話，或者有時拒絕回答某些問題，這就能建立更真實的情感連接。

　　例如，如果AI總是順從用戶，永遠滿足每一個請求，即使它不想回答也必須說話，這會降低用戶對它的認知。只有當AI真正能說“不”時，它作為一種意識，才真正存在于用戶的精神世界中。

　　如何在拒絕、表現個性情感的同時，又不1:1模仿真人的缺點?我認為這個平衡可以通過數據反饋來控制，最終可能是一個匹配過程。不同的人喜歡不同的AI角色，比如傲嬌或甜美類型。所以最終是關于找到適合的匹配。我們已經做了很多年的推薦系統了，這不是什么難題。

　　另一個非常有意思的話題是AI檢測。我最近讀了一些關于AI圖像和音頻檢測的論文，有些非常有意思的內容。

　　一篇啟發性的文章把圖像分成細節豐富，和細節不豐富的區域。比如主體部分是細節豐富的，而背景則是細節不豐富的。他們先分離這兩個區域，然后計算這些區域內像素點之間的關系和密度分布。

　　在真實世界中，無論是細節豐富還是不豐富的區域，分布都比較均勻。但是AI生成的圖像，在細節不豐富的地方，整體頻率較低;而在細節豐富的地方，會投入更多精力。這就導致整體頻率分布不均，從而可以區分出哪些是AI生成的。

　　大自然中萬物平等，但AI會選擇性地處理，導致信息元素的分布不同。既然已經意識到了一些問題的存在和解法，說實話，可能不到半年，AI生成圖像的質量就可以超出普通人的辨識范圍。

　　6、“開源能趕上ChatGPT嗎？”

　　我認為“用開源技術能趕上ChatGPT嗎?”這些爭論不太重要，因為我們做產品的考慮的是手頭上的資源和能力有哪些限制，它能做什么，與哪些用戶需求相匹配。這才是我們要做的事。

　　就語言模型而言，很難具體說開源技術大概相當于閉源領跑者的什么水平。對于多模態方面，某種程度上開源領域可能更先進一些。

　　大語言模型就像登月工程，開源領域如果沒有足夠數據集和訓練能力，很難快速趕上。但多模態方面，除非是非常大的訓練量，否則很容易跟上。有時候開源的一些工作，比閉源的商業模型效果更好。

　　Sora也屬于那種大力出奇跡的例子。我最近閱讀了很多論文，它的結構已經被基本分析清楚，沒有太多秘密。它的發展就是大算力出奇跡。

　　現在重新造輪子的現象嚴重，科研領域就是這樣。做范式創新的人很少，大多數人在基礎上做性能優化。有些工作比較重復。范式創新之后，也有人在這基礎上微調，認為是創新，但我看來可能不夠突破。

　　但開源領域好的一點是，真正的范式創新得到認可，并沿這個路線發展。這里面我沒有看到嚴重的邏輯沖突。

IT產業網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

全網刷屏的Manus合伙人，一年前在做什么？

最新新聞

熱門新聞

新動態

關注度

最話題

全網刷屏的Manus合伙人，一年前在做什么？

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題