前言:作者詮釋了智能化運維是一種全新的數字化能力,是企業數字化轉型的必備能力,以及如何擁有這種能力。
作者:楊辰
上海擎創信息技術有限公司CEO、中治研(北京)國際信息技術研究院特約高級研究員,曾在BMC、HP等國際科技企業擔任技術、產品要職,擁有20多年信息系統運維管理和專家服務經驗。專注在智能運維數據治理和模型、產品研發。
一、為什么數字化轉型中企業必須具備智能運維能力
數字化轉型是當前每一家企業都必須面對的挑戰和機遇,猶如滾滾洪流,奔流向前,如果沒有能夠抓住時機進行數字化轉型,那可能只會失去競爭力而黯然離開歷史舞臺。
對于很多企業來說,數字化轉型等同于一種生命力的重塑,因為它能夠幫助企業建構一套以客戶為中心的系統,通過重塑企業中人員、流程和數據的協同模式,能夠為客戶創造更大價值,提升企業在數字時代的競爭力。以金融服務行業為例,根據IDC分析報告,FinTech在金融行業的應用正逐步呈現出金融服務場景化、平臺化、智能化的發展趨勢,以云計算和大數據為首的科技發展推動著金融行業的業務場景創新與技術應用創新,而核心目標就是“以客戶為中心”。

著名科技趨勢分析組織Gartner將數字化轉型細分為信息數字化、業務數字化兩個方面。在企業的業務流程中,對于已經由信息技術支撐的業務品種來說,信息數字化即通過相應的技術令其過程數據得以留存,并利用其提升及優化業務運行效率;而對于不具備信息技術支撐的業務品種,就需要通過新技術的運用構建相應的數字化業務。無論是信息數字化,還是業務數字化,在其背后都會涌現日益復雜的業務系統、基礎架構和日益增長的運維數據,這對于企業運維而言,都是非常巨大的挑戰。
在傳統運維方式下,工具眾多但各自為政、數據處理和實時分析能力薄弱且依賴于經驗和規則,導致故障的根因定位十分困難,解決問題效率非常低下,運維的實用性就大打折扣。因此必須借助一定的手段和方式,如對客戶的IT運維數據實現全量的集中化管理,實現數據實時處理、智能分析和預測,進行多維度高效根因定位。
而這些都是智能運維AIOps所具備的。智能運維是一種全新的數字化運維能力,也將是數字化轉型的必備能力。智能運維相對于傳統運維模式而言,能夠在四個方面有本質的效能提升:
• 運維數據治理。通過高性能實時處理的數據平臺廣泛采集、處理和分析數字化業務運行過程中的多樣化運維數據,包括告警、指標、日志、配置以及運維工單等類別,不僅提升了運維大數據的治理能力,優化了數據質量,而且為進一步激活運維數據的價值打下了良好基礎;
• 業務數字化風險。使運維人員不僅提升了歷史運維數據的分析能力并且能夠對實時數據進行異常檢測和問題預判,有效降低數字化業務的運行風險,提升可用性、穩定性;
• 運維人力成本。使真正意義上的跨域根因定位成為可能,降低對專業運維人員經驗技能的依賴,迅速縮短故障排查時間并有效降低人力成本;
• 業務側影響力。以業務視角利用多元化數據提高運營分析和決策能力,比如端到端的分析業務交易狀態,提供給業務、客服部門及時反饋和決策支持依據,充分增強業務影響力;
二、智能運維能力建設的五大困惑
數字化轉型勢在必行,而智能運維模式顯然優勢諸多,因此其能力建設是大部分傳統運維人必須要思考的事務。但因為智能運維畢竟還是最近幾年出現的新興事物,在企業建設智能運維能力的過程中,許多企業勢必會面臨著方方面面的挑戰和困惑。下面來我們來談一談幾種典型的困惑。
困惑一:智能運維=機器學習算法?
在一些人看來,智能運維就是智能算法加上傳統運維,只需加入機器學習算法即可,與傳統運維唯一的區別就是算法的有無。究竟是否如此?我們借鑒一個成熟市場的例子來看這個困惑的答案。Google開源的安卓系統現在已經成為大多數安卓平臺手機的系統標準,市場上這樣的手機有數百個品牌,幾十億部之多,如果說軟件代碼的本質就是算法,那么這幾百個品牌手機的核心算法都是安卓。但是若在圖中的三款手機中選擇,不考慮價格的情況下,相信很多人一定會選擇體驗更好的小米或者華為手機,而不會考慮邊上的雜牌機。

既然都是安卓系統,為什么會出現這種情況?原因在于算法(源代碼、操作系統)對于一個產品而言雖說重要但并非全部,它僅是一款優秀產品的基礎,決定產品優秀與否還有其他關鍵因素。這就如同合適的機器學習算法之于智能運維,它只是一個基礎,并不意味著全部。智能運維還需要貼合用戶需求的算法建模、功能設計和工程化落地能力,這才是產品用戶體驗的關鍵因素。在智能運維建設中普遍存在三個挑戰,都需要考慮除算法之外的數據平臺能力:
挑戰一,任何算法若生產可用必須要經過數據訓練和建模,在過程中數據質量、參數調整和結果的分析比對的便利性都很重要,在運維過程中也會有許多情況需要對既有模型做優化調整,這就必須要構建數據平臺和機器學習平臺的能力,否則無法使算法產生生產效能;
挑戰二,功能設計必須場景化,實用化,并考慮和既有運維手段的銜接,否則算法也無用武之力;
挑戰三,智能運維能力所需的數據平臺工程化水平門檻很高,包括大規模流式數據處理能力,算法的分布式運算和遷移學習等,都不是傳統運維工具所具備的數據能力,無法直接疊加。
困惑二:運維成熟度不高不敢考慮智能運維?
在傳統運維向智能化轉型的過程中,可以從兩個維度來設計其演進的路線。橫向看是數據類別維度,運維數據主要分為告警、指標和日志三類,日志的量最大。這三類數據占到運維數據的80%以上,其他運維數據如配置關系、工單和業務數據等,也有一定的參考價值。 而從縱向來看,則是對數據處理和分析的能力維度,智能運維的本質就是逐步提升對運維數據的分析處理能力。

因此要談到最佳實踐,對于運維成熟度度高的的企業,可以按照數據處理能力的維度,統一規劃、分層實施,實現從運維數據局部集中到跨域集中,也就是先建立運維大數據平臺,通過加強數據治理、優化數據質量,而后再過渡到基于算法的統計分析乃至流式實時處理,構建多樣化智能運維場景,逐層實現智能運維能力建設。但這種方式并非放之四海而皆準,對于成熟度不高的企業,迫切需要解決的是實際運維問題,而智能運維這時應該能成為解決實際問題的工具,它可以根據客戶當前的運維成熟度選擇具體應用場景,按照不同的路線圖進行建設,這才是智能運維的應有的能力。
例如一家城市商業銀行,它目前最大的問題可能只是監控效能低下,誤報漏報多,我們可以先從集中告警入手,利用算法去重降噪,再查看相關告警之間的有效告警場景,篩選出最可能影響業務問題的告警。在提高告警處理效率后,再通過分析告警的源頭,進一步解決監控指標靜態閾值設定不準確的問題,用智能異常檢測替代之,從而根本上提升監控效能。這就是場景化方式導入智能運維的方法。
困惑三:已經建設了大數據平臺還需要建設專門的運維大數據平臺嗎?
智能運維能力依賴于運維數據的處理分析能力,因此運維大數據平臺的建立和通過數據治理提高數據質量非常重要,它是構建相應的智能運維場景的基礎。運維數據的處理分析由于有其特殊的要求,不僅僅是數據規模大,而且數據處理的時效性要求極高,這是因為許多運維數據需要在高速流引擎中進行復雜的聚合、計算、判斷比較等操作以滿足機器學習算法要求,這也是運維工作場景的特色,那就是必須“快”,否則一旦故障發生久了,一切就都失去了分析意義。
而傳統為業務構建的大數據平臺,主要用于存儲和分析數據,這種分析往往是離線數據的歷史分析,對時效性要求不高,因此不具備支撐智能運維的能力。
因此運維大數據應該考慮獨立建設,但可以將基于HDFS的Hadoop架構大數據平臺作為歸檔的數據平臺,比如運維數據里應該根據分析效能分類為冷、溫、熱數據,其中具備長期檢索價值但沒有短期分析意義的冷數據,可以歸檔到Hadoop集群中,這就要求運維數據平臺的架構設計要考慮其開放性。
困惑四:建設智能運維必須先完成運維自動化建設?
#FormatImgID_4#
自動化的基礎是既有運維事務的標準化,即按照一種標準程序批量執行作業,相當于圖中的機械手,而智能運維是一種判斷決策能力,它是根據對情況判斷決策用哪種機械手來操作,即便沒有機械手也并不意味著可以不做決策,二者并無依賴關系。
在運維智能化過程中可以不斷發現新的規律性場景,因而可以持續做標準化和進一步的自動化處理,而在DevOps建設中也可以融入智能化的處理能力,比如對日志異常的實時分析診斷以及對于平臺和容器指標的實時異常檢測和根因分析,對于之后的迭代調參會十分方便。
根據著名心理學家丹尼爾康納曼的著作《快思慢想》,人類其實具備一套偉大的運維管理機制,分為理性思考和直覺思考兩個系統,而實際運行中,人類會不斷通過理性思考過程,把能梳理成標準化的結果變成直覺系統可以直接運行的標準操作,一旦觸發相關條件就立即執行相應的操作并可以不斷優化。比如初學開車司機必須全身貫注,根據情況做出判斷,而且反應很慢,但熟練的司機則可以隨時迅速判斷做出正確動作。實際上企業運維的成熟度目標與此十分相似,就是要不斷將“慢想”的流程逐步轉變為“快思”,這就是智能運維和自動化運維的關系。
困惑五:智能運維=日志大數據分析?
#FormatImgID_5#
日志是運維數據中很重要的一類,數量占比很大,是智能運維中應該分析處理的重要數據源之一,但是日志大數據分析并不等同于智能運維。傳統日志的處理偏向事后分析,智能運維對日志的處理增加了事中監控乃至事前預判能力,這是日志分析所不具備的能力。
傳統運維考慮的日志分析工具,都是偏向于事后分析,即事先必須了解日志結構,再進行相應操作把價值信息提煉出來。而智能運維則是提升了它這種能力,它能夠通過算法識別日志的語義結構,優化日志結構化的方式,提升事后分析的能力,更重要的是還能在日志產生的過程中對其進行指標化的監控,并且在事前發現出現異常模式的日志,從而進行故障預判,這對于日志分析來說是一個質的飛躍。
智能運維考慮的是不同類別數據如指標、告警和日志等數據的相關關系和聯動關系,并不僅僅考慮像日志這一種單獨門類的數據,日志分析僅是智能運維所具備能力的一種而已。比如在具體運維過程中,往往需要綜合利用告警、指標和日志間的相關關系來尋找問題根源,這就需要打通日志與其它數據的關系。
三、如何開啟智能運維之旅的三點建議
綜上所述,結合自身運維成熟度和具體運維挑戰有序開啟智能運維能力建設才是硬道理,在起航前,有三個建議可以分享:
首先,起步得穩。充分評估當前運維手段的實際情況和具體痛點,找到較快就能和既有運維手段相融的方案,一定要考慮數據平臺建設的必須能力和開放性,不要引入多個數據孤島。
第二,目標要準。不要企圖一次性解決所有問題,要聚焦解決有選擇性的具體目標,對目標的達成要有持續改進計劃,要盯住不放,直到出效果為止。這里要考慮智能運維平臺是否有反饋和迭代學習的機制,因為持續改進往往依賴機器學習和人工經驗的融合,達到目標不是一蹴而就的。
最后,思謀當遠。一定要有階段路標和走向運維全面數據化和智能化的規劃路線圖,謀定而后動,要充分考慮引入智能運維方案后過渡期中人員角色和職能甚至流程的變化,任何新技術手段的引入都是人員、流程、工具三者的有機結合。
寄語
智能運維發展正如火如荼,Gartner預見其為下一代運維,認為到2022年將有近50%的企業用戶部署智能運維。雖然目前不少企業已經在積極投入建設,也還有一些企業處在迷茫階段,對這種趨勢不太清晰,借用著名作家威廉吉布森的話,“未來已來,只是分布不均。”

其實我們從手機的發展史中便可窺見一二,如圖所示,從1998年Nokia5110到2007年初代iPhone(智能手機)的出現,再到目前最新款的手機,其實就是一個新技術賦能的過程,一開始我們驚喜的稱呼iPhone為“智能手機”,而今天再沒有人叫它“智能手機”因為這就是手機該有的樣子。所以運維也是如此,在企業數字化轉型大潮中,“智能”是運維本該有的樣子。
榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt.cn(把#換成@)。
海報生成中...