言犀基礎(chǔ)大模型

2024/01/15 14:48 中國通信院華東分院

　　京東科技是京東集團旗下專注于以技術(shù)為政企客戶服務(wù)的業(yè)務(wù)子集團，秉承科技引領(lǐng)、助力城市及產(chǎn)業(yè)數(shù)智化升級的使命，我們致力于為政府、企業(yè)、金融機構(gòu)等各類客戶提供全價值鏈的技術(shù)性產(chǎn)品與服務(wù)。基于人工智能、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等前沿科技，依托京東多年耕耘供應(yīng)鏈的積累，京東科技是最懂產(chǎn)業(yè)的數(shù)智化解決方案提供商，面向不同行業(yè)提供以供應(yīng)鏈為基礎(chǔ)的數(shù)智化解決方案。

　　2021 年 1 月，京東科技在原京東數(shù)科與京東智聯(lián)云基礎(chǔ)上重組完成，融合了兩大技術(shù)業(yè)務(wù)板塊的綜合實力，京東科技現(xiàn)已成為整個京東集團對外提供技術(shù)服務(wù)的核心平臺，擁有豐富的產(chǎn)業(yè)理解力、深厚的風(fēng)險管理能力、用戶運營能力和企業(yè)服務(wù)能力，能面向不同行業(yè)為客戶提供行業(yè)應(yīng)用、產(chǎn)品開發(fā)與產(chǎn)業(yè)數(shù)字化服務(wù)。京東作為一家新型實體企業(yè)，擁有著深厚的產(chǎn)業(yè)基因和供應(yīng)鏈場景，源于真實的業(yè)務(wù)需求、深度復(fù)雜的場景任務(wù)和廣泛的實體經(jīng)濟發(fā)展要求，促使京東的 AI 技術(shù)是面向知識密集型、任務(wù)型場景，解決真實產(chǎn)業(yè)問題的技術(shù)。且京東云旗下的言犀團隊在任務(wù)型智能對話交互關(guān)鍵技術(shù)方向擁有豐富的積累和廣泛的落地，擁有包括文本生成、語音生成、對話生成等系列領(lǐng)先技術(shù)，并打造出了智能客服系統(tǒng)、京小智平臺商家服務(wù)系統(tǒng)、智能政務(wù)熱線、言犀數(shù)字人等系列產(chǎn)品和解決方案。

　　京東科技深耕人工智能領(lǐng)域多年，形成了從算法到應(yīng)用場景的鏈路，并通過自研推出言犀基礎(chǔ)大模型，賦予客戶在各自行業(yè)中快速構(gòu)建、部署，應(yīng)用人工智能的能力。通過言犀基礎(chǔ)大模型，企業(yè)可以建立從業(yè)務(wù)的大量數(shù)據(jù)中自我學(xué)習(xí)、自驅(qū)迭代的能力，并實現(xiàn)對企業(yè)實施、運營、維護的一體化覆蓋，同時言犀大模型中的小型化技術(shù)能夠使企業(yè)具備云管邊端協(xié)同運營的能力，增強企業(yè)面對非標(biāo)準(zhǔn)化、算力通訊資源受限場景的應(yīng)對能力，和面對業(yè)務(wù)變化的快速響應(yīng)能力。

　　需求分析

　　目前基礎(chǔ)大模型正處于蓬勃發(fā)展階段，各行業(yè)、各領(lǐng)域以構(gòu)建數(shù)字化、線上化、搭建虛擬仿真場景為主要應(yīng)用。在當(dāng)前階段下，基礎(chǔ)大模型面臨著以下問題：一、由于基礎(chǔ)技術(shù)的限制以及大部分企業(yè)在大模型應(yīng)用和硬件設(shè)備開發(fā)能力的不足，從而導(dǎo)致無法自主生產(chǎn)原生 AI 模型。

　　二、除了用戶單點大模型開發(fā)技術(shù)能力的不足，在各行業(yè)鏈條中的軟硬件互通、數(shù)據(jù)標(biāo)準(zhǔn)化和應(yīng)用功能融合等問題中都存在著無法克服的壁壘。

　　三、大模型訓(xùn)練硬件的能源消耗問題，在當(dāng)前全球綠色經(jīng)濟的背景下，平穩(wěn)運行離不開大規(guī)模的數(shù)據(jù)中心和云計算中心等基礎(chǔ)設(shè)施的支撐，而大部分企業(yè)則無法滿足以上的要求，從而無法實現(xiàn)大模型的應(yīng)用。

　　針對以上情況，開發(fā)言犀基礎(chǔ)大模型，以實現(xiàn)低門檻構(gòu)建基于人工智能技術(shù)的解決方案，是本項目需要解決的問題。

　　案例介紹

　　京東推出的言犀基礎(chǔ)大模型，將著力圍繞內(nèi)容生成、人機對話、用戶意圖理解、信息抽取、情感分類等幾大類任務(wù)，圍繞零售、物流、金融、健康、政務(wù)場景進行落地應(yīng)用。

　　1) 優(yōu)質(zhì)的場景和數(shù)據(jù)讓模型產(chǎn)業(yè)屬性更強

　　京東的言犀大模型，是扎根產(chǎn)業(yè)的原生大模型。憑借著從基礎(chǔ)設(shè)施、模型層、MaaS 層、SaaS 層全棧的技術(shù)布局，打造多款端到端的大模型技術(shù)產(chǎn)品。

　　言犀大模型擁有三個差異化的特性：

　　第一，它是產(chǎn)業(yè)原生的，有更強的產(chǎn)業(yè)屬性。

　　第二，它是價值驅(qū)動的，有更高的應(yīng)用價值。

　　第三，它是開放協(xié)同的，有更快的迭代效率。

　　另一方面，京東連接著產(chǎn)業(yè)互聯(lián)網(wǎng)和消費互聯(lián)網(wǎng)，在對內(nèi)實踐和對外產(chǎn)業(yè)數(shù)智化過程中積累了眾多優(yōu)質(zhì)的數(shù)據(jù)，區(qū)別于一些通用域數(shù)據(jù)的靜態(tài)數(shù)據(jù)，京東的數(shù)據(jù)是“鮮活的”，憑借每年產(chǎn)生數(shù)百億的交互數(shù)據(jù)，保證了模型的持續(xù)迭代和優(yōu)化。京東的大模型是在預(yù)訓(xùn)練階段就接了 70% 通用域數(shù)據(jù)和接近 30% 京東特有的產(chǎn)業(yè)數(shù)據(jù)相結(jié)合去做訓(xùn)練，這就保證了模型擁有大模型的“常識”，并擁有產(chǎn)業(yè)模型的“專業(yè)”。

　　2) 京東言犀大模型技術(shù)架構(gòu)

　　京東言犀大模型是基于京東云的高性能計算集群，采用 Megatron+DeepSpeed 的分布式訓(xùn)練框架，訓(xùn)練的 Decoder-Only 架構(gòu)模型。在通用知識獲取方面，言犀大模型添加了約 30% 的京東域自身的產(chǎn)業(yè)數(shù)據(jù)，并通過構(gòu)建高質(zhì)量的指令數(shù)據(jù)，幫助模型具備更強的產(chǎn)業(yè)屬性。除了模型訓(xùn)練本身，京東言犀大模型還在模型的轉(zhuǎn)換層和服務(wù)層進行了自研算法的深耕，提升了大模型本身的推理速度和部署性能，讓大模型的能力能夠充分的下沉到業(yè)務(wù)端，并通過集成平臺能力打造真正的模型及服務(wù)。

　　3) 前沿的算法能力保證模型具備高應(yīng)用價值

　　預(yù)訓(xùn)練層面

　　源于業(yè)務(wù)應(yīng)用需求，京東在 2020 年就提出了 K-PLUG 模型，將領(lǐng)域知識注入大模型中，以提高大模型的專業(yè)性和忠實度，并在 2021 年對該項工作進行了發(fā)表。K-PLUG 方法是基于 Transformer 模型架構(gòu) X 京東的產(chǎn)業(yè)知識進行的預(yù)訓(xùn)練。

　　該算法幫助模型在實體屬性抽取準(zhǔn)確率為 96%;在生成式多輪對話 ROUGE-L(指標(biāo)主要是對比機器生成的內(nèi)容與人類的標(biāo)準(zhǔn)內(nèi)容的匹配度)，以 27% 領(lǐng)先于斯坦福經(jīng)典的 Pointer-Generator;在上下文多輪問答知識檢索率以 74% 準(zhǔn)確率領(lǐng)先于行業(yè)。

　　推理部署層面

　　除了在大模型的預(yù)訓(xùn)練階段，言犀大模型通過上述算法增強了產(chǎn)業(yè)領(lǐng)域知識，在模型的推理層面，京東言犀采用量化矩陣算子融合、自適應(yīng)參數(shù)矩陣量化、自動算子切分與卡間并行、內(nèi)存優(yōu)化與緩存等多種策略，將推理速度提升 6.2 倍，且在“首字”推理速度的大模型推理難點上，京東言犀大模型采用自研的算法，極大程度的提升了大模型在推理方面的性能。在部署方向，依靠流式推理有效解碼傳輸機制、動態(tài)批處理、異構(gòu)集群部署等方法，將部署成本降低了 90%。

　　此外，京東言犀大模型還擁有配套的 AI 開發(fā)計算平臺，用于快速的模型迭代，效率提升 10 倍以上，讓模型能夠不斷的學(xué)習(xí)新的知識。

　　4) 澎湃算力打造開放協(xié)同的大模型生態(tài)

　　為了訓(xùn)練大模型，京東早在 2021 年就在重慶建成了大模型集群，也是全國首個基于 DGX SuperPOD 架構(gòu)的超大規(guī)模計算集群—天琴，該集群在保障京東自身大模型訓(xùn)練的同時，還將集群的每秒浮點運算次數(shù)提升 40%，多卡線性加速比提升 90%，為后續(xù)大模型的持續(xù)發(fā)展打下良好的基礎(chǔ)。

　　另一方面，為了更好的應(yīng)對大模型背景下的海量數(shù)據(jù)存儲問題，京東還自研了向量數(shù)據(jù)庫 Vearch，支持百億級向量監(jiān)檢索，召回實現(xiàn)毫秒級延遲，智能儲存分層實現(xiàn)成本降低 60%，大幅提升了模型推理泛化能力與推理效率。

　　效益分析

　　該解決方案以京東全產(chǎn)業(yè)鏈為核心優(yōu)勢，從產(chǎn)業(yè)場景、軟件平臺、安全合規(guī)等多個方面為用戶帶來價值。

　　產(chǎn)業(yè)場景方面 : 用戶將借助京東積累的歷史行業(yè)知識，低成本快速構(gòu)建該用戶所在細(xì)分領(lǐng)域大模型應(yīng)用，使用戶快速取得局部市場的先發(fā)優(yōu)勢(量化標(biāo)準(zhǔn)為縮短開發(fā)周期及成本降低)。

　　軟件應(yīng)用方面 : 為了讓模型有更好的能力和應(yīng)用，京東將開發(fā)言犀大模型過程中積累下來的能力解耦整合出來，以大模型開發(fā)平臺的形式開放給京東的合作伙伴。該平臺以京東云的私有云、公有云和混合云等高性能計算集群為底座，內(nèi)置了包括數(shù)據(jù)、模型訓(xùn)練和部署推理等工具能力，不僅支持京東自身的言犀框架，也同時會支持各個主流的開源模型框架，促進大模型生態(tài)的發(fā)展。

　　安全合規(guī)方面：言犀 AI 大模型具備數(shù)據(jù)隱私和內(nèi)容安全可控的價值：

　　5) 數(shù)據(jù)隱私安全

　　我司在人機交互研究中進行訓(xùn)練數(shù)據(jù)處理、人工智能模型的訓(xùn)練時，嚴(yán)格遵守使用深度合成技術(shù)中的個人隱私保護要求，確保訓(xùn)練數(shù)據(jù)數(shù)據(jù)來源合法性，并使用脫敏數(shù)據(jù)進行模型訓(xùn)練。

　　6) 內(nèi)容生成可控性

　　惡意代碼、插件和網(wǎng)絡(luò)釣魚電子郵件有可能被 ChatGPT 生成。為了杜絕此安全隱患，京東云言犀團隊會在模型訓(xùn)練時引入人工反饋機制降低和杜絕模型生成有害信息的回復(fù)。同時引入審核 API 來阻止某些有害內(nèi)容的輸出，例如，當(dāng)收到要求編寫用于從被黑客攻擊的設(shè)備竊取數(shù)據(jù)的代碼或制作網(wǎng)絡(luò)釣魚電子郵件時，模型會拒絕該要求并指出此類內(nèi)容是“非法、不道德且有害的”。

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

　　行業(yè)資訊、企業(yè)動態(tài)、業(yè)界觀點、峰會活動可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

言犀基礎(chǔ)大模型

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題

言犀基礎(chǔ)大模型

相關(guān)閱讀

最新新聞

熱門新聞

新動態(tài)

關(guān)注度

最話題