作者|洋紫
“夏日午后,休息時凝視遠山或樹枝,直到 ‘靈韻降臨’,人與景物產生一種神秘共鳴。”
德國哲學家本雅明在代表作《機械復制時代的藝術作品》中,如是形容這種獨一無二、物我兩忘的審美體驗。這是一種難以復刻的獨特感受,與AI支配下泥沙俱下、批量生產的虛幻景觀大相徑庭。
人類如蘆葦般孱弱,卻因思想而擁有尊嚴。我們可以聽見聲音、接收畫面、有身體的觸感,也可以知道空間感的放大縮小、呼吸的節律,以及細默之處未曾言明的情感表達。這些細膩幽微的情緒,是人類最難以被模擬與替代的部分。
“Technology is an extension of life.(技術是生命的一種延伸)”。凱文凱利在《科技想要什么》一書中曾表達過同樣的觀點,如果人類與 AI 發展的終極理想,是實現人與技術的共生共舞,讓人工智能真正擁有接近人的思考、生命力與表達力,那么一個不容忽視的現實是:時至今日,人與 AI 最主流的交互方式,依然停留在文字層面。
這也成為人機協同路上一道難以繞開的障礙 —— 我們大量的所見、所思、所感,仍無法與 AI 實現真正的身臨其境。譬如一位癡迷奇石、對石頭懷有極致熱愛的人,若想將他眼中萬千石頭的肌理、氣韻與特質傳遞給 AI,單純的文字描述遠不足夠。一個集圖像、視覺、聲音于一體的 “石頭數字館”,才能真正支撐他與 AI 并肩鑒賞、共情共鳴。
那么,什么才是對于用戶來說更自然、更具有粘性的交互方式?

過去半年,一款名為Chance AI的app快速在紐約大學(NYU)、南加州大學(USC)等北美校園風靡,學生們用Chance AI看穿搭、逛展覽、比較球鞋和卡牌、記錄皮膚狀態、觀察植物與寵物,甚至看圖寫詩。其獨特性在于,Chance AI 提出了一個新的產品形態,即Visual Agent:在視覺之上建立解釋層,讓AI不僅看到事物,更參與解釋其意義,進而幫助用戶形成判斷與品味。
在Chance AI看來,視覺不是輸入方式,而是人類的認知系統。“對人類來說,視覺才是最直覺的操作系統,而不是輸入框。”Chance AI創始人兼CEO曾熙告訴霞光社,“從第一天開始做產品,我們的首頁就是沒有任何輸入框的。在我們的產品里面唯一的輸入框就是出現在評論區,但是現在更多人是用語音,點開只有一個拍照按鍵,進來以后用戶不用輸入prompt,one tap,因為這才是人類最直覺的方式。”
使用方式也很簡單,只需要通過Chance AI拍攝任何圖片,Chance AI就會快速將圖片內容轉為對于圖片深層次含義的解讀。每一個圖片都不只限于“閱讀”,更多在于“理解”,即在認識的基礎上解釋看見事物的意義;
此外,Chance AI也有Live模式,即實時視覺交互系統(Real-time Visual Intelligence System),在Live模式中,用戶可以一邊看,一邊與Chance AI交流,它還會做出對于畫面的實時視覺理解(Real-time perception)以及連續推理(Continuous reasoning,而非單次響應)。
巴塞爾藝術周現場,觀眾使用Chance AI「Visual Agent – Live」,在觀看作品的過程中與AI實時交流與理解
Chance AI的交互方式,打破了過去兩年間,AI通過輸入框提問、隨后獲得答案的主流形態。曾熙向霞光社表示,產品設計的差異源自年輕人認識世界的底層邏輯不同,對從小使用emoji、meme和縮寫溝通的Gen Z來說,他們本身就是visual native:更習慣通過圖像和直覺理解世界,而不是先組織語言再提問。也就是說,越來越多的年輕人對于現實世界的認知方式是從“先提問再理解” 轉變為“先看見再理解”。
對圖像的精準理解離不開Chance AI的技術突破。MMMMU-Pro 是目前最嚴苛的多模態基準測試之一,它通過過濾純文本可解題、增加選項干擾,并將問題嵌入圖像中,真正考察 AI 是否具備人類級別的視覺理解與跨學科推理能力,而非依賴模式匹配或文字捷徑。Chance AI Visual Agent 在 MMMU 相關評測中以 86.07% 的準確率位列世界第一,在藝術理解、結構分析與跨語境解釋等任務上表現優秀,甚至超越了人類在2024年的成績。
實際操作上也可見Chance AI的出色表現,如下圖所示,為一塊坐標于洛杉磯的市中心的石頭,在Chance AI的“看見”里,不只有關于石頭的來歷故事——即一位藝術家把這個石頭從內華達州搬過來花了1300萬美金,還有這一故事背后的意義:這場搬運是為了體現美國的種族和階級對立的問題。

更重要的是,Chance AI真正意義上做到了千人千面地幫助人理解世界。在Chance AI,每個人的頁面都是個性化的,因為不同人看見、感受的世界存在差異。而在Chance AI已經布局的不同國家/地區,用戶之間的差異化也能反饋出地區的特性,這是Chance AI的獨特價值——勾勒用戶眼中的世界。
在效率工具泛濫的當下,Chance AI的魅力在于,當用戶以主動探索的方式理解事物,他會逐漸形成自己的判斷:什么是好的,什么是有價值的。也正因此,人們在使用AI過程中常出現的顧慮,如是否會面對更為千篇一律的AI流水線產品、AI是否會讓人喪失思考的能力,似乎不再需要猶疑。個性化的反饋、對事物更深的理解,都能讓用戶開始重新激發好奇心——那些曾經習以為常的東西,會再次變得值得被解讀。
一些北美高校學生們表示,“有時候我不是想問什么,我只是想看看它會怎么看。”“I started noticing things I used to ignore”,這或許也符合了Chance AI對于年輕一代認知世界的判斷:“視覺讓理解更直接,也讓好奇心重新成為驅動力。用眼睛理解世界,正在成為一種新的基礎行為。”而這一“主動探索”的體驗感,形成了用戶與Chance AI的持續使用粘性。
事實上,人類對現實的認知,往往始于視覺,先看見,再感受,然后逐漸形成判斷。“visual reasoning是幫助你找到它的Perception跟knowledge,然后再加上connection就是它的社會共識,這樣組成了今天的產品形態。”曾熙告訴霞光社。
與此同時,行業層面也展現出了年輕用戶傾向于使用視覺交互的趨勢:其一是,多模態交互(Lens / Circle to Search / AI Overviews)在年輕用戶中的增長最快;其二,Google Lens每月產生超過三十五億次級視覺搜索請求。
截至目前,Chance AI的全球年輕用戶已突破20萬,在iOS歐美多個國家進入下載榜Top 3,并在Product Hunt上兩次獲得當日最佳產品(Product of the Day)。在剛剛過去的香港Art Central藝術展上,Chance AI也作為官方創新合作伙伴,深度融入觀眾的觀展體驗,這一能力也首次得到了真實場景的驗證。
面向未來的可能性,曾熙表示,手機拍照分享目前是圖片數據來源最直接、量最大的場景。“現在我們的數據是,每個北美的女生每天會拍2.8次的穿搭,這是非常海量的數據。”而視覺數據本身就創造了價值,“我們想把Visual Agent engine這‘發動機’給搭好,以后我們會有更豐富的數據,會形成視覺的社區,這就是最大的價值。”
曾熙早年在 University of Barcelona 獲得博士學位,研究方向集中在認知科學與當代藝術,關注人類如何通過視覺理解世界、形成判斷與意義。 隨后,他先后在 OnePlus、OPPO 負責產品與設計,并參與構建面向數億用戶的硬件定義與系統體驗。 在ByteDance期間,他在Flow擔任產品與設計高級總監,參與AI相關產品從0到1的探索(豆包)體系的早期構建。豆包代表了這一代 AI 產品的典型形態:以對話為核心入口。
這段經歷讓他意識到一個結構性問題:當前AI已經非常擅長“生成語言”和“回答問題”(尤其是大廠的必爭之地,因為離LLM很近),但對于人類如何在現實世界中形成理解,尤其是基于視覺的直覺判斷——仍然缺乏支持。因為這直接決定了,每一個事物的“意義”。
在他看來,這不是一個功能缺失,而是一個交互范式的空白:AI已經很會“說”,但還不夠會“看”。Chance AI正是在這個判斷下誕生:如果AI的下一階段不只是回答問題,而是參與人類理解世界的過程,那么視覺能力可能會成為新的入口。他正在為了下一個時代的AI終端做準備。
我們處在一個科技大發展的時代,無數高速迭代的科技產品快速出現、又快速成為舊聞,科技已經包圍、席卷了人的工作與生活。對科技產品的贊嘆和恐懼,交織在一起,成為現代人普遍的心理情結。
而在每一場技術的變遷中,一個有趣的現象是:如何落地從來不是由發明者決定的,而是由用戶和它如何交互決定。比如作為通信工具的手機,最終演變成了觸屏的交互方式,才能變為用戶日日、時時無法離身的“肉體外掛”。
AI時代的交互或許也是無處不在的。在談及“Chance”這一名稱的由來時,曾熙表示,這個名字源于他對當下生活方式的一種觀察。在高度算法化的環境中,人們越來越習慣沿著被推薦的路徑前行,日常經驗變得可預測且重復,而真正具有啟發性的時刻,往往來自那些未被預設的“偶然”。
這些“偶然”的瞬間,或許才是生命特有的視角。不再來自技術的機械和重復,而是一個充滿“人味兒”的生命脈動。
榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...