當前位置:首頁 >  IDC >  云計算 >  正文

云智慧AIOps智能運維應用實戰(zhàn)之告警抑制

 2018-10-24 11:20  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領(lǐng)券再下單

自2016年Gartner提出AIOps智能運維以來,諸多中國云計算、大數(shù)據(jù)和運維管理廠商都推出了AIOps解決方案,然而這些實踐多是針對特定IT環(huán)境和應用場景進行智能化處理,放到其他行業(yè)或企業(yè)中就很難適用,這也限制了企業(yè)用戶對AIOps的認知和嘗試。

云智慧作為國內(nèi)最早開始探索AIOps智能運維的獨立解決方案提供商,在過去兩年里陸續(xù)為數(shù)十家不同行業(yè)、不同應用場景的大型企業(yè)成功實施了智能運維,積累了豐富的智能運維應用場景和解決方案,并率先實現(xiàn)了AIOps智能運維的產(chǎn)品化、場景化和實用化。接下來這段時間,我們會為大家介紹云智慧AIOps智能運維平臺的智能告警、根因分析、智能預測等產(chǎn)品模塊,及其在不同用戶場景的應用價值,希望為大家正確理解和選擇AIOps提供參考。

企業(yè)IT系統(tǒng)運行過程中會產(chǎn)生海量日志數(shù)據(jù)、監(jiān)控數(shù)據(jù),這部分數(shù)據(jù)既滿足大數(shù)據(jù)的屬性,又隱藏著巨大的業(yè)務(wù)價值,因此企業(yè)進行AIOps實踐多是從智能告警入手。今天我們就來介紹智能告警的第一個環(huán)節(jié)——告警抑制。

告警抑制典型應用場景

中大型企業(yè)的IT應用系統(tǒng)龐大而復雜,設(shè)備數(shù)量動輒成千上萬,任何一個小小的IT問題都有可能引發(fā)“告警風暴”。所謂告警風暴是指在短時間內(nèi)系統(tǒng)產(chǎn)生大量告警消息,這些消息有的是由某種共同因素引發(fā),互相之間存在一定關(guān)聯(lián),有的則沒有任何關(guān)系。

以云智慧服務(wù)的某大型企業(yè)為例,某次告警風暴產(chǎn)生時,平均每分鐘800+條告警消息,運維人員每天接收各類告警消息多達2萬條,導致運維人員疲于應付大量的告警消息,需要耗費更多時間排查和處理問題,大大降低了運維效率,而且由于無法第一時間發(fā)現(xiàn)根源問題,延誤了故障處理時間,往往會給業(yè)務(wù)運行帶來潛在風險。

壓縮比高達90% 告警抑制功能特點

常規(guī)的運維監(jiān)控產(chǎn)品都是根據(jù)固定閾值觸發(fā)告警,這種監(jiān)控方式會頻繁遇到告警報錯、漏報、告警風暴等問題,嚴重干擾運維人員的工作效率。云智慧AIOps智能運維平臺的告警抑制產(chǎn)品針對海量的、持續(xù)的冗余告警消息,通過智能算法結(jié)合固定規(guī)則的方式對告警消息進行告警壓縮和告警合并,在保證核心告警內(nèi)容(即不壓縮核心告警內(nèi)容)的前提下抑制告警消息數(shù)量,為運維人員提供有效的告警信息。

云智慧智能運維平臺告警抑制流程

我們把相同告警源產(chǎn)生的重復消息進行壓縮的過程叫告警壓縮,告警壓縮是實現(xiàn)告警抑制的前提和基礎(chǔ),通過告警壓縮可以減少70~80%的重復告警,并在此環(huán)節(jié)把告警消息(Message)生成為警報(Alert)。接下來,將不同告警源產(chǎn)生的警報按照規(guī)則、算法進一步合并的過程叫告警合并或告警收斂。通過告警合并,告警消息的壓縮比可提升到80%~90%。

下面用幾個實例來解釋一下云智慧智能運維平臺的告警抑制流程。

例1:告警壓縮

用戶利用 Zabbix 對服務(wù)器BJ_Pay_ngix_1進行監(jiān)控,監(jiān)控了 CPU Load,監(jiān)控頻率為10s。在13點24分開始觸發(fā) CPU Load 告警,并且持續(xù)了8分鐘未恢復,整個期間產(chǎn)生了50條重復告警消息,通過云智慧智能運維平臺的告警抑制,將50條消息壓縮為1條警報(Alert),并可以通過時間線功能,查看整個生命周期內(nèi)的告警分布情況。

例2:告警合并(告警收斂)

主機BJ_Web服務(wù)1產(chǎn)生 CPU、內(nèi)存使用率的告警,同時同一個集群的 BJ_Web 服務(wù)2也產(chǎn)生了 CPU和內(nèi)存使用率的告警,通過告警壓縮生成4個警報(Alert),通過告警合并將集群內(nèi)所有警報合并為一個告警事件(Event)。當然,也可以基于業(yè)務(wù)線對業(yè)務(wù)告警、APM 告警等警報進行合并,然后通過時間線功能,查看多個警報之間的時間順序,來初步判斷告警的根因情況。

以上是云智慧AIOps智能運維平臺告警抑制功能的基本原理,此產(chǎn)品不但能接入云智慧自有的監(jiān)控寶、透視寶等告警源,還可以通過REST API 、Agent、URL 回調(diào)等方式對主流監(jiān)控Zabbix、Nagios的告警數(shù)據(jù)進行接?,或根據(jù)客戶需求對特定告警源進行定制化接入。此外,用戶可配置各類抑制規(guī)則,設(shè)置 事件通知的分派策略,獲得更高壓縮比、更快速的智能告警。

如今,云智慧AIOps智能運維平臺的告警抑制產(chǎn)品已經(jīng)在金融、航空、地產(chǎn)、制造、政企等多個行業(yè)通過線上環(huán)境的生產(chǎn)驗證。由于客戶類型和業(yè)務(wù)系統(tǒng)的差異,實際壓縮率可高達95%,并做到了核心內(nèi)容零損耗。

告警抑制典型案例

某大型企業(yè)集團擁有在線商城、辦公系統(tǒng)、財務(wù)系統(tǒng)等核心系統(tǒng),涉及到多地多個機房和幾十套應用子系統(tǒng),頻繁的告警消息對運維工作造成了極大干擾。為避免此類干擾,該集團的運維人員只能臨時關(guān)閉若干系統(tǒng)的監(jiān)控功能,但這種方式導致了業(yè)務(wù)系統(tǒng)與基礎(chǔ)環(huán)境的監(jiān)控缺失,無法有效實時掌控整個運維環(huán)境的運行。

云智慧工程師根據(jù)對歷史故障的分析,把該企業(yè)的故障分為幾類:

•閃斷類:故障發(fā)生后迅速自愈

•重復類:單個對象的一個或多個指標持續(xù)告警

•范圍性故障:某個區(qū)域或某個集群出現(xiàn)范圍性故障,范圍內(nèi)的多個對象短期內(nèi)同時出現(xiàn)告警

當以上幾類告警在發(fā)生時,運維人員需要第一時間區(qū)分故障類型,才能快速定位問題。通過部署云智慧智能運維平臺,利用REST API、Agnet 采集等方式對接各個監(jiān)控系統(tǒng),將告警消息進行統(tǒng)一匯聚和整合,然后進行有效的告警抑制處理,大幅降低告警事件的數(shù)量和告警發(fā)送的頻率,同時提高了告警通知的精度。

某次故障發(fā)生后,某地數(shù)據(jù)中心短期內(nèi)出現(xiàn)了上千條的告警消息,經(jīng)過壓縮合并后抑制成了幾十條警報和不到10個事件,壓縮率達到了95%以上。部署云智慧智能運維平臺三個月以來,該企業(yè)運維人員每天接收告警數(shù)量從人均182條降低到了25條,同時整個運維團隊的平均接手時間(MTTA)和平均解決時間(MTTR)都大幅縮短。

附注:Gartner于2018年7月13日發(fā)布的《Hype Cycle for ICT in China, 2018》中,云智慧成為AIOps領(lǐng)域的Sample Vendors。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
云計算

相關(guān)文章

  • 2025年華納云新年煥新季,香港云4H4G3M特惠696元/年,E5物理服務(wù)器688元/月起

    新年伊始,萬象更新,為回饋新老用戶,香港IDC華納云官網(wǎng)特別推出【新年煥新季】活動,爆款產(chǎn)品低至2折,包括云服務(wù)器、CN2服務(wù)器、站群服務(wù)器、大帶寬服務(wù)器、高防服務(wù)器等多種產(chǎn)品優(yōu)惠,全場續(xù)費不漲價!活動截止時間2025年2月12日;點擊直達【華納云官網(wǎng)】本次活動內(nèi)容如下:1.海外云服務(wù)器低至16元/

    標簽:
    云計算
  • 云計算,用價格讓利換創(chuàng)新空間?

    價格讓利的背后,是公共云的創(chuàng)新空間

    標簽:
    云計算
  • 11月27日,2023亞馬遜云科技re:Invent在美國拉斯維加斯盛大啟幕!

    云計算領(lǐng)域的風向標、科技界的年度重磅盛會2023亞馬遜云科技re:Invent將于11月27日在美國拉斯維加斯盛大啟幕!歷年來,亞馬遜云科技re:Invent不僅是全球云計算從業(yè)者的年度狂歡,更是全球云計算領(lǐng)域每年創(chuàng)新發(fā)布的關(guān)鍵節(jié)點?;乜慈ツ阹e:Invent高光瞬間,亞馬遜云科技創(chuàng)新不斷,“點亮”

    標簽:
    亞馬遜
    云計算
  • 云服務(wù)器的熱潮:為什么它如此受歡迎?

    在數(shù)字化時代,數(shù)據(jù)是企業(yè)的生命線。隨著云計算技術(shù)的不斷發(fā)展和普及,云服務(wù)器已經(jīng)成為了企業(yè)和個人用戶的首選。那么,為什么云服務(wù)器會如此熱門呢?本文將從以下幾個方面進行詳細解析。

  • 青云QingCloud成為北京市算力互聯(lián)互通試點參與企業(yè)

    經(jīng)過北京市通信管理局聯(lián)合中國信息通信研究院組織相關(guān)專家的評選,北京市算力互聯(lián)互通試點參與企業(yè)名單(第二批)已正式公布,青云科技(qingcloud.com)與其他11家企業(yè)共同入選。算力作為數(shù)字經(jīng)濟時代的新型生產(chǎn)力,正在加速融入經(jīng)濟社會的各個領(lǐng)域。北京市通信管理局以算力互聯(lián)互通體系化建設(shè)為總目標,持

    標簽:
    云計算

熱門排行

信息推薦