火山引擎分享Data Agent評測體系，提出“評估驅動開發”新范式

2025/12/03 14:03 IT產業網

　　近日，在AICon全球人工智能開發與應用大會上，字節跳動數據平臺大模型評測技術負責人系統分享了其團隊在Data Agent(數據智能體)自動化評測領域的技術創新與實踐。面對大模型在數據行業應用日益廣泛但效果評估標準不一的挑戰，字節跳動數據平臺提出了一套覆蓋技術選型、研發迭代至業務效果驗證的“三層評測框架”，并倡導以“評估驅動開發”(EDD)的新范式，以推動大模型在數據分析、商業智能等領域的深度賦能與可靠落地。

　　隨著大模型技術不斷成熟，其在數倉開發、ChatBI問答及深度分析Agent等場景的應用顯著提升了數據處理效率。然而，如何科學、客觀地評估這些應用的實際效果，避免“線上表現與線下評測脫節”，已成為行業關注的焦點。據相關負責人介紹，傳統軟件測試的用例執行方法難以適用于大模型，評測需綜合考量效果(如事實性、有用性、無害性)、性能(如響應速度、時延)與穩健性(如容錯與抗干擾能力)等多方面指標。

　　為解決上述問題，字節跳動數據平臺團隊構建了一套分層評測體系。底層為“基礎能力評測”，通過引入多個業界公認的基準測試集，為不同模型設立準入門檻，確保進入實驗階段的模型具備扎實的工具調用、代碼生成與復雜指令理解能力。中間層為“組件評測”，將復雜的Agent任務拆解為召回、規劃、執行、總結等單元模塊，進行精細化評估，以快速定位問題、推動高效迭代。頂層為“端到端業務效果評測”，通過構建貼近真實場景的評測集，并建立“數據飛輪”機制，持續將線上實際案例轉化為評測數據，確保評估結果真實反映用戶體驗。

　　在Text-to-SQL這一數據領域核心任務的評測中，該團隊創新提出基于“語義等價”的自動化評測方法。傳統方法依賴執行結果正確性或文本相似度，易因數據不完備或語法差異導致誤判。字節跳動數據平臺采用Apache Calcite將SQL轉換為抽象語法樹(AST)與執行層語法表示(RelNode)，結合圖匹配網絡(GMN)計算邏輯層面的相似度。相關方法在多項基準測試中表現優于傳統手段，顯著提升了SQL準確性評估的可靠性。

　　面對“深度研究”類Data Agent產品帶來的復雜挑戰，字節跳動數據平臺還探索了“以Agent評測Agent”的前沿路徑�；�“挑錯易、復盤可行”等原則，評測Agent通過自我反思、多Agent協作及代碼復算等方式，對分析報告的深度、準確性、可讀性與穩定性進行多維度自動化校驗。

　　分享中談到，未來自動化評測將更注重線上線下一致性、多模態能力覆蓋及與模型訓練的深度結合。通過將評估更緊密融入Agent架構，有望實現從“測試驅動”到“評估驅動”的范式轉變，最終推動大模型應用更精準、高效地創造業務價值。

IT產業網微信二維碼logo

　　行業資訊、企業動態、峰會活動可發送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

火山引擎分享Data Agent評測體系，提出“評估驅動開發”新范式

最新新聞

熱門新聞

新動態

關注度

最話題

火山引擎分享Data Agent評測體系，提出“評估驅動開發”新范式

相關閱讀

最新新聞

熱門新聞

新動態

關注度

最話題

火山引擎分享Data Agent評測體系，提出“評估驅動開發”新范式