今天,AI智能體應用Manus爆火刷屏,其聯合創始人張濤對外發聲描述產品狀態,他也是親自在群里發邀請碼的那個人,以及在辦公室里倒數計時,迎接產品發布上線的人,其個人經歷引發關注。
張濤此前在字節跳動負責國際化產品的戰略規劃與落地,2023年,他加入王慧文創辦的人工智能公司光年之外,擔任產品負責人,主導AI產品的研發與商業化探索。
2024年7月,張濤與首席科學家季逸超(Peak)、連續創業者肖弘(Red)共同創立Manus AI,并擔任合伙人。他目前主要負責產品戰略、市場溝通及用戶體驗優化。

張濤的即刻頁面
娛樂資本論在一年前的2024年3月曾經采訪過張濤。當時他在光年之外開發兒童陪伴類AI產品Dodoboo。那時AI陪伴賽道非常火熱,我們就他的產品,作為產品經理的方法論,以及AI陪伴的一些趨勢做了討論。
從現在回頭看,里面大多數預見性的內容,如今已成功應驗,而另一些內容仍有待將來的發展不斷驗證。作為一個十多年經驗的產品經理老兵,他對產品的理解貫穿了前移動互聯網時代,到如今的AI時代,體現出邏輯上的一致性。
以下是張濤在采訪中的部分主要內容摘錄:
1、“這一代孩子天生就是AI時代的孩子”
我叫張濤,通常在各個社區里用hidecloud這個ID。我過去主要做toC產品設計和運營,最近五年一直在做SaaS產品,前四年做神策數據,最近一年在做飛書的國際化。去年(2023)年中開始做AI方面的工作,已經做了8個月。在AI領域是“AI一日人間一年”,所以我有很多感悟。
現在(2024.4)正在做的產品Dodoboo 1月底上線,是面向小朋友的繪畫增強App,最初是GPT幫我們取的名字。產品比較簡單,網站首頁的視頻就展示了它所有功能。你在右邊繪畫,左邊會實時生成相應的畫作。這個過程不需要輸入提示詞,很適合兒童使用。
我們目前使用的都是開源模型。在圖像標注方面,有很多不同的模型可供選擇。我們最初使用了社區中廣泛使用的模型,但后來發現那個模型比較舊,不太適合復雜圖像的理解,尤其是針對兒童圖像。我們嘗試了幾種不同的圖像標注模型,最終選擇了現在這個,并用兒童涂鴉數據集進行了微調。
生成的圖像的布局和走勢都是不可更改的。如果只依賴提示詞,我們無法達到現在這樣的效果。我們確實做了圖到圖的生成。為了提高性能,目前沒有實施更多的控制流程,因為這會影響生成效率。
我們現在沒有把畫風選擇直接提供給用戶。主要是在后端進行了一些分類,根據用戶的不同輸入,如純線條勾勒或有色塊的作品,進行不同的處理。所以,你會發現最終生成的風格并不完全一致。
去年(2023)下半年以來,新的技術如LCM(潛在一致性模型)和(2024年)2月字節的SDXL-Lightning等技術出現后,圖像生成的效率已經大大提高。例如,在我們的系統中,如果運行在級別較高的顯卡上,單張圖像生成可以控制在0.8-1秒之間,加上網絡傳輸,總時間可能在1.5-2秒左右。
我們現在的早期用戶,主要是自己身邊的朋友,他們的反饋非常有趣。
我們在演示強調了一個賣點:提升孩子的自信。但這引發了中國式家長的擔憂,他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美圖像,而失去創造力。這是一個非常有趣的反饋。
另一方面,有些孩子非常喜歡使用這個產品,特別是那些內向、乃至患有孤獨癥的孩子,他們能非常專注地使用這款產品,可能畫一兩百張圖。同時我們也有國際用戶。
我們發現成年人也在使用它。有些成年用戶的原始畫作已經非常出色,有個用戶給我們做演示時,筆觸和構圖非常專業,不像小孩的涂鴉。最后我甚至有點慚愧,覺得我們生成的圖像沒有他的畫好看。
進入美術教育會是一個有趣的方向,但我們最初設計這款產品時,并沒有想那么多。
現在回過頭來看,我有些不同的想法。我們自己小的時候,人們不鼓勵使用計算器,希望我們能心算。但現在看來,這似乎有些滑稽。
我覺得這一代孩子天生就是AI時代的孩子。他們可能會從小就習慣使用各種AI工具來增強自己的生活、學習和工作能力。
“產品必須一開始就盈利”
現在啟動一個AI項目,開發流程和初期的增長策略仍然和傳統的App相同。當然,AI領域面臨一些獨特的問題。例如,AI產品實現規模化的方式與我們以前的大多數互聯網產品不同。
坦白說,直到日活用戶達到10萬之前,我們通常不會遇到太大的技術挑戰。但AI產品與之前的互聯網產品不同,它的邊際成本并不會快速降低至接近零。
所以這就給大家留下了一個印象:如果沒有大公司的支持,這種項目基本上是沒有希望的。實際上,即使是依靠大公司也會有問題。
我認為大公司可能會在戰略上選擇補貼,但一個真正成功的產品,必須在商業上也是成功的,這意味著它必須盈利并有一個正向的商業模式,否則長期很難持續下去。

張濤在產品走紅后負責對外發聲。圖/即刻 hidecloud
目前在AI產品領域,我認為大家已經達成了共識。AI產品不能像以前那樣僅僅追求百萬日活,從一開始就要考慮好商業模式和付費方式。
甚至需要從一開始就考慮好,應該使用什么規模的模型和什么樣的模型能力,來服務目標客戶群。有些市場可能需要你使用最*的模型,而有些市場即便如此也可能無法滿足需求。
這可能也包括一些工程上的挑戰,比如首先需要對任務進行分類。先判斷需求,然后將其路由到適合的模型,或者是訓練過的特定小模型來處理特定的問題。
目前在行業早期的研發模式未必是未來的模式。但目前我們在做內部測試的demo時,可能會使用最*的模型,這有助于我們驗證想法,確保項目是可行的。如果我們能用最*的模型解決問題,那接下來就會考慮如何進行裁剪和蒸餾,以及如何使用成本更低的方法來解決問題。
這就像是回到了古典互聯網,那時候我們還處于必須嚴格控制帶寬和數據量的階段。現在我們在這個領域中會用到一些技巧。我通過閱讀論文發現了一些工程優化的方法,這也是一種比較傳統的互聯網工程思路。我認為工程學貫穿了我們人類幾千年的歷史。事實上,很多工程思維方法在計算機出現之前就已經存在了。
3、“演示一出現,大家就立刻知道它的價值”
我們產品目前的*競爭力,可能是對市場和用戶需求的把握。
前一陣子我參加一個分享會,我發現很多AI創業者,尤其是有研究背景的,他們對用戶的理解還很淺,沒有對用戶需求的真實感知。他們談論產品時,很少提及用戶的需求和場景,不是說他們的工具去給用戶解決什么問題。
去年大多數人想到AI都是降本增效,但我提出不做效率工具。我做工具出身,但在AI領域,我不想只做工具。如果工具和內容結合,我會更感興趣。
但純工具,比如寫年報或年終總結,一個人一年能寫幾次呢?我們說到AI助理,但一個公司可能有12萬人,有幾個人真的需要助理呢?我覺得這種需求很難被深入挖掘。
大多數人實際上并不需要那么高的工作效率。這背后的原因是,整個社會的生產方式和勞動形態還沒有發生根本性的改變。所以,如果你只解決生產效率問題,那就可能是大面上有問題的。
我之前跟他們聊天時沒有提到的一點是,這波浪潮不是AI,而是AIGC——自動生成內容。現在的問題是很多人關注的是生成動作,因為以前沒有這樣的技術。看到一個智能體生成內容很震撼,但這種震撼可能一兩年后就變得平常。
我認為更重要的是內容層面的問題。你生產了這么多內容,這些內容如何被消費,對人產生什么樣的影響?——這才是產品的機會,而不僅僅是生成本身。
我們去年10月做了一個演示(demo),在小圈子里測試后,大家的*反應是希望能在iPad上使用,給孩子們畫畫。
那時候很多AI產品都是為了展示模型能力而制作,有時候很難明確用途。但是我們的demo一出現,大家就立刻知道它的價值。作為一個產品,這是一個很好的起點。
好多年前,有個產品叫“你畫我猜”(Draw Something)。當時我更多的是出于興趣在玩。除了對傳播鏈條有一些想法外,我并沒有深入思考過它。
不過,在開發現在的Dodoboo過程中,我們確實回想了Draw Something,甚至考慮過是否要以社交或娛樂為主。但由于產品需要快速上線,沒有深入考慮其他交互娛樂方面的想法。
我們考慮的下一步是建立一個小型社區,核心是畫廊,不是社交。社交產品很容易變得復雜,涉及審查等問題。現在的產品設計,就是把用戶能做的事情限定在一定范圍內。完成一幅畫后,用戶可以點一個按鈕發布到廣場,甚至不需要注冊/登錄。
實際上,我們發現產品最有趣的部分并不僅僅是成品圖畫。產品右上角有一個撤銷按鈕,其實你可以一直返回上一步,也可以前進看下一步。
每次畫完圖后,回到最開始,逐步查看整個生成過程,你會有一種感覺,就是那個精美的圖是你自己創作出來的。看著一個東西從無到有、變得精美的過程,是非常享受的。
下一個版本我們會將繪圖過程生成為視頻。我覺得視頻本身具備傳播屬性,這可能是一個小嘗試。這一點確實讓人想起Draw Something在社交網絡上分享畫圖和猜圖的過程。
我當然希望產品未來會火,但如何長期維持,這是一個新問題。AI行業還在早期階段,很難為未來的問題做準備。
4、“人類的情感太容易被操縱了”
在圍繞陪伴的過程中,我們做了一些產品,有些對外小規模發布,也有完全對內的小demo。在這個過程中,我看到了許多細節和瞬間,這讓我非常有信心。
從中長期來看,我非常看好AI在陪伴方向的發展。人類的情感太容易被操縱,我們并不像我們自己想的那么理性。情感容易受外來因素影響,無論這個因素來自真人還是算法。即使知道這是虛構的,人們仍容易產生共情。
說一下我們做的一個實驗。GPT-4的視覺模型能讀懂圖像內容。我結合這個技術,編寫了一些假想的“朋友”和“敵人”。然后他們基于我的照片內容進行評論,贊美我,也有批評我。
這個實驗對我影響很大。我雖然是整個規則的“上帝”,編寫了所有的角色,運行了程序,但當他們開始根據我的照片內容評論時,我的內心還是受到了觸動。人類的情感太容易被操縱了。
我們自己的朋友圈還是相對較多,某種程度上擁有社交優勢。發朋友圈或微博,總會有人點贊、評論或轉發。對于大多數人來說,無論是在線還是離線社交,他們的社交圈相對較小,得到的反饋也比較少。我認為對大多數普通用戶來說,無論內容是真人還是AI發布的,給予反饋都有其積極價值,并不全是欺騙。
Character.AI的用戶群體基本上都是非常年輕的,大概12-16歲。這些人基本上沒有多少追隨者,發的內容也很少有人理會。但他們非常頻繁地發帖,其中大部分內容都與C.AI有關,這非常可怕。
我們觀察到AI陪伴產品的一個典型特征是,大多數人開始是被知名動漫或游戲人物吸引。但從體驗和用戶訪談來看,如果你持續和一個已知的著名角色聊天,很容易聊崩,因為你對這個角色太了解了。一旦出戲,他就不再像那個角色了。所以我們會發現,通常情況下,用戶長期持續交流的角色,是他們自己創造的,或平臺上的一些原創角色。
在許多競品的用戶社區里,我常看到用戶因為產品的bug而大發雷霆。大多數使用者還是年輕人,他們對產品的缺陷非常敏感。有時候他們在群里的辱罵言辭,讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛擬角色,而是在群里罵官方和平臺,怪他們破壞了自己的角色。
這就出現另一個問題。當你用AI重溫已故親人的音容笑貌,你對ta很了解,那么你們會不會聊崩呢?雖然這感覺像是一個難以解決的問題,但實際上并非無解。
比如,我們可以采取一些措施,規定一些方向。例如明確指出某些東西是假的。我們可以引導他們進行鼓勵性的對話,比如永遠鼓勵東亞的孩子們,這樣他們在成長過程中,會感受到父母的愛和鼓勵。
我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個AI爸媽天天表揚你,說“孩子,我愛你!”那該有多好。我現在就有這種感覺,活人在情緒供給方面,很難競爭過AI。
還有一種AI陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例,但它并沒有真正流行起來。我在想可能的原因是,再好的故事書也需要家長來讀給孩子聽,這可能是*的障礙。
AI語音交互主要是等待時間太長。沒有模型能像人一樣,在規定時間內回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業內解決。現在已經有了一些方向,但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉換,直接將聲音作為輸入給語言模型,然后模型直接輸出語音。
國內上一代語音助手大部分是基于規則做的。大廠可能都有成千上萬條規則來解決各種邊緣場景,突然讓他們放棄這些規則能力,全面轉向大模型,他們一時半會兒也不敢轉。轉了之后整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。
長期來看,成年人、青少年、兒童和老年人的AI陪伴都有機會。但初期可能是兒童和老年階段優先出現一些應用。因為他們對語言模型的缺點容忍度較高。
5、“一些小細節,讓人感到被連接”
制作一個代理幫助預訂機票,在最后一步,你無法完全依賴大模型。相比之下,制作陪伴類產品對準確性的要求不高。但陪伴類產品仍需要評估產品的有效性。
我們需要確定有效性的最高標準,例如我在制作Dodoboo時,最初的動機是同事或朋友看到它后,想給他們的孩子使用。這種直接的動機是有效性的一個重要標準。

圖/X Hidecloud
我認為有效性在于與產品建立情感上的聯系。比如在進行小實驗時,我們發現一些細微的情感連接。這些連接通常不是巨大的情感沖擊,而是一些小細節,讓人感到被連接。
其中一個重要因素是主動性。傳統的AI聊天機器人通常是應激性反應,等待用戶的提示才會回應。但我們發現,一旦AI具有主動性,比如自己判斷何時發起對話,或者有時拒絕回答某些問題,這就能建立更真實的情感連接。
例如,如果AI總是順從用戶,永遠滿足每一個請求,即使它不想回答也必須說話,這會降低用戶對它的認知。只有當AI真正能說“不”時,它作為一種意識,才真正存在于用戶的精神世界中。
如何在拒絕、表現個性情感的同時,又不1:1模仿真人的缺點?我認為這個平衡可以通過數據反饋來控制,最終可能是一個匹配過程。不同的人喜歡不同的AI角色,比如傲嬌或甜美類型。所以最終是關于找到適合的匹配。我們已經做了很多年的推薦系統了,這不是什么難題。
另一個非常有意思的話題是AI檢測。我最近讀了一些關于AI圖像和音頻檢測的論文,有些非常有意思的內容。
一篇啟發性的文章把圖像分成細節豐富,和細節不豐富的區域。比如主體部分是細節豐富的,而背景則是細節不豐富的。他們先分離這兩個區域,然后計算這些區域內像素點之間的關系和密度分布。
在真實世界中,無論是細節豐富還是不豐富的區域,分布都比較均勻。但是AI生成的圖像,在細節不豐富的地方,整體頻率較低;而在細節豐富的地方,會投入更多精力。這就導致整體頻率分布不均,從而可以區分出哪些是AI生成的。
大自然中萬物平等,但AI會選擇性地處理,導致信息元素的分布不同。既然已經意識到了一些問題的存在和解法,說實話,可能不到半年,AI生成圖像的質量就可以超出普通人的辨識范圍。
6、“開源能趕上ChatGPT嗎?”
我認為“用開源技術能趕上ChatGPT嗎?”這些爭論不太重要,因為我們做產品的考慮的是手頭上的資源和能力有哪些限制,它能做什么,與哪些用戶需求相匹配。這才是我們要做的事。
就語言模型而言,很難具體說開源技術大概相當于閉源領跑者的什么水平。對于多模態方面,某種程度上開源領域可能更先進一些。
大語言模型就像登月工程,開源領域如果沒有足夠數據集和訓練能力,很難快速趕上。但多模態方面,除非是非常大的訓練量,否則很容易跟上。有時候開源的一些工作,比閉源的商業模型效果更好。
Sora也屬于那種大力出奇跡的例子。我最近閱讀了很多論文,它的結構已經被基本分析清楚,沒有太多秘密。它的發展就是大算力出奇跡。
現在重新造輪子的現象嚴重,科研領域就是這樣。做范式創新的人很少,大多數人在基礎上做性能優化。有些工作比較重復。范式創新之后,也有人在這基礎上微調,認為是創新,但我看來可能不夠突破。
但開源領域好的一點是,真正的范式創新得到認可,并沿這個路線發展。這里面我沒有看到嚴重的邏輯沖突。
榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...