近日,在AICon全球人工智能開發與應用大會上,字節跳動數據平臺大模型評測技術負責人系統分享了其團隊在Data Agent(數據智能體)自動化評測領域的技術創新與實踐。面對大模型在數據行業應用日益廣泛但效果評估標準不一的挑戰,字節跳動數據平臺提出了一套覆蓋技術選型、研發迭代至業務效果驗證的“三層評測框架”,并倡導以“評估驅動開發”(EDD)的新范式,以推動大模型在數據分析、商業智能等領域的深度賦能與可靠落地。
隨著大模型技術不斷成熟,其在數倉開發、ChatBI問答及深度分析Agent等場景的應用顯著提升了數據處理效率。然而,如何科學、客觀地評估這些應用的實際效果,避免“線上表現與線下評測脫節”,已成為行業關注的焦點。據相關負責人介紹,傳統軟件測試的用例執行方法難以適用于大模型,評測需綜合考量效果(如事實性、有用性、無害性)、性能(如響應速度、時延)與穩健性(如容錯與抗干擾能力)等多方面指標。
為解決上述問題,字節跳動數據平臺團隊構建了一套分層評測體系。底層為“基礎能力評測”,通過引入多個業界公認的基準測試集,為不同模型設立準入門檻,確保進入實驗階段的模型具備扎實的工具調用、代碼生成與復雜指令理解能力。中間層為“組件評測”,將復雜的Agent任務拆解為召回、規劃、執行、總結等單元模塊,進行精細化評估,以快速定位問題、推動高效迭代。頂層為“端到端業務效果評測”,通過構建貼近真實場景的評測集,并建立“數據飛輪”機制,持續將線上實際案例轉化為評測數據,確保評估結果真實反映用戶體驗。
在Text-to-SQL這一數據領域核心任務的評測中,該團隊創新提出基于“語義等價”的自動化評測方法。傳統方法依賴執行結果正確性或文本相似度,易因數據不完備或語法差異導致誤判。字節跳動數據平臺采用Apache Calcite將SQL轉換為抽象語法樹(AST)與執行層語法表示(RelNode),結合圖匹配網絡(GMN)計算邏輯層面的相似度。相關方法在多項基準測試中表現優于傳統手段,顯著提升了SQL準確性評估的可靠性。
面對“深度研究”類Data Agent產品帶來的復雜挑戰,字節跳動數據平臺還探索了“以Agent評測Agent”的前沿路徑;“挑錯易、復盤可行”等原則,評測Agent通過自我反思、多Agent協作及代碼復算等方式,對分析報告的深度、準確性、可讀性與穩定性進行多維度自動化校驗。
分享中談到,未來自動化評測將更注重線上線下一致性、多模態能力覆蓋及與模型訓練的深度結合。通過將評估更緊密融入Agent架構,有望實現從“測試驅動”到“評估驅動”的范式轉變,最終推動大模型應用更精準、高效地創造業務價值。
行業資訊、企業動態、峰會活動可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...