原文:《關于AIOps智能運維,這些你都知道嗎?》

據(jù)Gartner研究,在過去幾年內,IT運營人員 (IT Ops) 發(fā)生了巨大變化。這種變化的推動力來自于企業(yè)IT運營團隊認為傳統(tǒng)IT管理技術和方法已經(jīng)無法適應數(shù)字化業(yè)務轉型。

Gartner預測,我們會看到當前的IT應用程序會發(fā)生劇變,而且我們管理整個IT生態(tài)系統(tǒng)的方式也會改變。這些變化的關鍵是Gartner所稱的AIOps平臺。

AIOps是什么?

AIOps指多層技術平臺,這些平臺采用分析和機器學習技術分析從多種IT運營工具和設備收集的大數(shù)據(jù),自動實時確定并應對問題,從而實現(xiàn)IT運營的自動化和增強。

Gartner解釋了AIOps平臺如何采用下圖所示模式而運行。AIOps包含兩個主要組件:大數(shù)據(jù)和機器學習。它要求摒棄孤立的IT數(shù)據(jù),以整合觀測數(shù)據(jù)(例如在監(jiān)控系統(tǒng)和工作日志中發(fā)現(xiàn)的數(shù)據(jù))和大數(shù)據(jù)平臺內部的交流數(shù)據(jù)(通常存在于工作單、事故和事件記錄中)

然后,AIOps針對匯總的IT數(shù)據(jù)實施一種綜合的分析和機器學習 (ML) 戰(zhàn)略。這樣做的預期成效是獲得持續(xù)的洞察力,進而采用自動化能力實現(xiàn)持續(xù)改進和修復。AIOps可視為核心IT功能的持續(xù)集成和部署 (CI/CD)。

Gartner的AIOPS平臺示意圖

AIOps將三個不同的IT專業(yè)結合在一起 — 服務管理、性能管理和自動化 — 以實現(xiàn)持續(xù)洞察和改進的目標。在我們新的IT加速環(huán)境中,AIOps是一種識別策略,必須采用由大數(shù)據(jù)和機器學習支撐的新理念。

AIOps的來歷

對于傳統(tǒng)企業(yè)來說,AIOps并不是一個全新的理念,而是IT運營分析和管理(ITOA/ITOM)體系與大數(shù)據(jù)和人工智能技術結合的產(chǎn)物。

AIOps智能運維以ITOA/ITOM系統(tǒng)所采集的運維大數(shù)據(jù)為基礎,利用人工智能和機器學習算法對運維數(shù)據(jù)進行深入分析,涵蓋IT監(jiān)控,應用性能管理、外網(wǎng)監(jiān)控、日志分析,系統(tǒng)安全等方面。

市面上流行的傳統(tǒng)運維管理平臺,其核心組件缺少大數(shù)據(jù)采集、分析和本地機器學習的能力,需要業(yè)務運維和AIOps平臺予以完善。

AIOps智能運維平臺能夠接入不同業(yè)務系統(tǒng)、監(jiān)控系統(tǒng)、管理系統(tǒng)的海量IT數(shù)據(jù),并運用各種算法進行高速分析、學習甚至預測。

立足于AIOps,IT部門可以獲得強大的自動化IT決策和運營管理能力,并能對業(yè)務質量和用戶體驗進行準確檢測和持續(xù)優(yōu)化。

AIOps的推動因素有哪些?

AIOps是足夠新的IT平臺,甚至還沒有自己的維基百科頁面。AIOps是Gartner IT運營分析 (ITOA) 的下一步演進。它的產(chǎn)生基于影響IT運營的多個趨勢和需求,包括:

IT運營部門手動管理基礎架構的難度。此處使用“基礎架構”一詞有些不當,因為現(xiàn)代化IT環(huán)境包括受管理的云、不受管理的云、第三方服務、SaaS集成、移動等。管理復雜性的傳統(tǒng)方法在動態(tài)、彈性環(huán)境中行不通。如果通過手動方式跟蹤并管理這種復雜性,人類的監(jiān)督能力已經(jīng)不再可能。當前的IT Ops技術已經(jīng)超出手動管理的范圍,而且這種情況以后會越來越差。

IT運營部門需要保留的數(shù)據(jù)量呈指數(shù)增長。性能監(jiān)控產(chǎn)生的事件和告警數(shù)量呈指數(shù)級增長。服務單數(shù)量隨著IOT設備、API、移動應用和數(shù)字或機器用戶的引入而獲得了跳躍式的增長。同樣,手動報告和分析變得異常復雜。

基礎架構問題必須更快地解決。隨著企業(yè)的業(yè)務逐步數(shù)字化,IT也變成了業(yè)務。技術的“消費化”改變了所有行業(yè)中的用戶期望。對IT事件的響應–無論是切實發(fā)生還是認為會發(fā)生的事件–需要立即進行,尤其是在問題影響用戶體驗的情況下。

更多計算能力轉移到網(wǎng)絡邊緣。云基礎架構和第三方服務的輕松采用使業(yè)務線 (LOB) 職能人員能夠構建自己的IT解決方案和應用。控制權和預算從IT核心轉到邊緣。更多計算能力(可充分利用)來自核心IT外部。

開發(fā)人員擁有更多權力和影響力,但責任仍由核心IT人員承擔DevOps和敏捷迫使編程人員在應用層面承擔更多監(jiān)控職責,但IT系統(tǒng)的整體健康狀態(tài)以及應用、服務和基礎架構間的交互仍由核心IT部門負責。隨著網(wǎng)絡日益復雜,IT運營部門要承擔更多職責。

AIOps的要素

對于AIOps理念,舊有的IT運營方式不適合以上需求所定義的新世界。同樣,Gartner將IT運營管理 (ITOM) 和應用性能管理 (APM) 定義為魔力象限市場,而且Gartner可能也為AIOps市場創(chuàng)建一個魔力象限。

AIOps平臺由以下要素組成:

構成AIOps平臺的技術

  • 全面且不同的IT數(shù)據(jù)源 - 來自目前孤立的工具和IT領域,例如事件、指標、日志、作業(yè)數(shù)據(jù)、工單、監(jiān)控等。

  • 大數(shù)據(jù)平臺 – 匯總IT數(shù)據(jù),用于進行歷史分析、實時響應和洞察。

  • 計算(運算)和分析 – 使系統(tǒng)能夠從現(xiàn)有IT數(shù)據(jù)中生成新數(shù)據(jù)和元數(shù)據(jù)。運算和分析也消除了噪聲,可識別模式或趨勢,隔離可能的問題,發(fā)現(xiàn)底層問題,并且實現(xiàn)其他IT特定目標。

  • 算法 – 利用IT領域專業(yè)知識,根據(jù)企業(yè)數(shù)據(jù)及其預期成果的要求,以智能化方式適當且高效地運用計算和分析能力。

  • 無人監(jiān)督的機器學習 – 可根據(jù)算法分析輸出結果和引入系統(tǒng)的新數(shù)據(jù)而自動修改或創(chuàng)建新算法。

  • 可視化 – 以易于使用的方式向IT運營人員呈現(xiàn)洞察和建議,有助于加深理解并采取行動。

  • 自動化 – 采用分析和機器學習成果自動創(chuàng)建并運用響應措施,或者針對已發(fā)現(xiàn)的問題進行改進。

如上文所述,AIOps平臺應包含性能管理、服務管理、自動化和流程改進等IT學科, 以及監(jiān)控、服務臺、容量管理、云計算、SaaS、移動性、IoT等技術。

AIOps是IT走向運營的點金手

未來幾年,數(shù)字化系統(tǒng)的運行效能對企業(yè)核心競爭力的影響越來越大,CIO所領導的IT部門在運營中所扮演的角色也越來越重要。

然而,隨著系統(tǒng)規(guī)模和復雜度呈指數(shù)級增長,IT人員解決問題的能力不會有太大的變化。要讓IT擺脫傳統(tǒng)運維工作的束縛,就需要運用AIOps智能運維平臺來有效承擔基礎運維的種種責任。

在AIOps的幫助之下,IT人員可以從繁瑣的常規(guī)工作中得到徹底的釋放,專注于對企業(yè)發(fā)展更有價值的工作 – 業(yè)務和用戶體驗,讓IT真正走向運營。

 “AIOps正在廣泛應用于IT大數(shù)據(jù)和業(yè)務大數(shù)據(jù)分析領域,為企業(yè)提供極具價值的業(yè)務洞察能力”。

據(jù)Gartner分析師最新預測,到了2022年,部署AIOps平臺的大型企業(yè)數(shù)量將從如今的不足5%,迅速提升到40%左右,而這些企業(yè)會把AIOps用于業(yè)務運營和IT運維,以取代如今的運維監(jiān)控、管理工具和自動化運維產(chǎn)品。

當企業(yè)的數(shù)字化程度越來越高, IT系統(tǒng)的復雜度和規(guī)模越來越大,擺在CIO面前的這道雙選題:是不斷增加業(yè)務流程?還是采用AIOps平臺?似乎不難抉擇......