10月31日,由聲網與 RTE 開發者社區聯合主辦的 Convo AI & RTE 2025 第十一屆實時互聯網大會在北京正式開幕。本屆大會以“AI 有聲”為主題,匯聚了全球頂尖的 RTE&對話式 AI 專家、開發者、企業代表與生態伙伴,共同探討實時互動(RTE)與對話式 AI (Convo AI) 深度融合的新場景、新架構與新機遇。在主論壇上,聲網創始人兼 CEO 趙斌、微軟(中國)首席技術官韋青、Agora 聯合創始人 Tony Wang 等嘉賓分別帶來主題演講和圓桌討論。

趙斌:RTE 服務量首破萬億分鐘,對話式 AI 將成為下一代 AI Infra 重要部分
在今年的 RTE 2025 實時互聯網大會開場演講中,聲網創始人兼 CEO 趙斌宣布,聲網年度服務分鐘數首次突破1萬億分鐘,標志著 RTE 技術已成為不可或缺的關鍵基礎設施。與此同時,視頻高清化比例在過去兩年增長超過10倍,海外市場720p 以上分辨率流量占比已超 80%,WebRTC 全球搜索熱度呈現爆發式增長,這一切標志著實時互動行業正迎來新一輪創新熱潮。

然而,在基礎設施日趨完善的同時,產業依然面臨著從"連通"到"對話"的本質挑戰。當交互對象從“人與人” 擴展到 “人與AI”,實時互動在環境感知與交互自然度上仍存在明顯缺陷。行業數據顯示,僅21%的用戶對現有 AI 對話體驗滿意,部分服務的用戶流失率高到“不可接受”。究其根源,人類對話中僅有7%的信息來自語言內容,超過90%的信息感知依賴于語調、表情和肢體語言等非語言要素。要實現真正的“類人對話”,企業必須系統性攻克低延遲響應、自然打斷、上下文管理、情感理解與表達等復雜挑戰。

多模態大語言模型(LLM)的出現讓計算機具備了類人的實時語音對話能力,為解決這些挑戰帶來了全新路徑。趙斌表示,對話式 AI 正驅動RTE從能夠 “正常對話” 到 “聲情并茂”的關鍵躍遷,為 RTE 行業帶來一個不可估量的全新市場。

Deepgram 和 Opus Research 調研顯示,67%的企業已將語音 AI 智能體置于戰略核心位置,84%的企業計劃在未來一年增加相關投入。在開發者生態中,全球范圍內也正掀起一場實時語音技術的新浪潮,對話式 AI 與語音智能體創業公司呈現爆發式增長態勢。Y Combinator 近期的孵化團隊中,語音智能體公司占比顯著提升;ARK Invest 預測 AI 陪伴賽道有機會從3000萬美元上漲到700-1500億美元;聲網對話式 AI相關用量在2025年第三季度實現151%的環比增長,這一切都展現出強勁的市場需求。
而在眾多應用場景中,對話式 AI 將在情感陪伴、智能硬件、在線教育三大場景中率先實現規模化落地。在大會現場,趙斌演示了 AI 客服的功能,充分展現了當前對話式 AI 在實時交互與場景理解方面取得的突破性進展。

為幫助企業和開發者把握這一歷史機遇,聲網在大會上正式發布了《2025對話式AI發展白皮書》及《對話式 AI 好奇者手冊 》,為行業提供了一套系統的實踐指南。同時,聲網推出了對話式 AI 引擎 2.0,對話式 AI 開發套件、對話式 AI 模型評測平臺和對話式 AI Studio,加速對話式 AI 在實時互動行業的應用創新,開啟 RTE+AI 的新篇章。
行業資訊、企業動態、業界觀點、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...