午夜片神马影院福利_欧美成人a猛片在线播放_1000部夫妻午夜免费_伪娘+无码番号_金瓶梅1-5在线电影版播放_嗯啊小sao货奶头好硬视频_浪荡人妻共32部黑人大凶器电影_91蜜桃视频在线观看_巜少妇的 惑意大利电影

彩神v中國
聯(lián)系電話: 010-8882344888
寧波銀行:金融智能預(yù)警與根因診斷解決方案
日期:2024-10-18 21:20:59 

  隨著我行業(yè)務(wù)快速發(fā)展,運(yùn)維人員面對的是日益復(fù)雜的系統(tǒng)架構(gòu)以及海量的IT運(yùn)維數(shù)據(jù)。數(shù)據(jù)中心運(yùn)維管理難度和重要性日漸凸顯,對業(yè)務(wù)連續(xù)性要求和運(yùn)維服務(wù)質(zhì)量的要求也不斷提高,迫切需要建設(shè)一套科學(xué)、高效的運(yùn)維支持體系,能夠幫助我行運(yùn)維管理部門在事前能夠迅速感知故障產(chǎn)生,提前發(fā)現(xiàn)風(fēng)險(xiǎn)隱患點(diǎn),事中能夠結(jié)合不斷學(xué)習(xí)結(jié)合專家經(jīng)驗(yàn)合理編排產(chǎn)生的大量告警數(shù)據(jù),推薦最可能的故障根因,讓運(yùn)維人員能在最短時(shí)間內(nèi)聚焦到真正需要關(guān)注的告警上,提高運(yùn)維能力,發(fā)掘運(yùn)維潛在風(fēng)險(xiǎn)。

  我行希望依托解決方案完成智能運(yùn)維的轉(zhuǎn)型升級,能夠?qū)崿F(xiàn)采集來自主機(jī)、數(shù)據(jù)庫、中間件、業(yè)務(wù)應(yīng)用等維度的海量指標(biāo)數(shù)據(jù)(100W監(jiān)控對象),以及實(shí)時(shí)采集金融機(jī)構(gòu)統(tǒng)一告警平臺的海量告警數(shù)據(jù)(日均10W+條告警)。一方面在主機(jī)、數(shù)據(jù)庫、中間件、業(yè)務(wù)應(yīng)用的指標(biāo)數(shù)據(jù)上,通過智能分析的算法引擎構(gòu)建基線預(yù)測模型來實(shí)現(xiàn)對各類指標(biāo)數(shù)據(jù)的異常檢測和容量預(yù)測,通過算法學(xué)習(xí)業(yè)務(wù)周期性規(guī)律,基線異常檢測提前感知業(yè)務(wù)異常,以及業(yè)務(wù)系統(tǒng)存在的性能隱患。另一方面接入行內(nèi)的統(tǒng)一告警數(shù)據(jù),使用算法能力結(jié)合專家經(jīng)驗(yàn)構(gòu)建智能診斷模型,對接入的告警數(shù)據(jù)識別疑似故障場景,在場景內(nèi)部對告警數(shù)據(jù)進(jìn)行分層分類,標(biāo)簽化處理,對故障發(fā)生時(shí)的海量告警進(jìn)行標(biāo)簽化展示,結(jié)合專家經(jīng)驗(yàn)推薦故障根因,降低故障發(fā)生時(shí)告警噪音,提高故障排查效率。

  動態(tài)基線標(biāo)簽分析流程,是整個(gè)解決方案實(shí)施驗(yàn)證的過程中,根據(jù)動態(tài)基線效果不斷總結(jié)優(yōu)化出來根據(jù)指標(biāo)基線分類的結(jié)果使用不同的檢測方式,應(yīng)用不同類的算法套餐,以及根據(jù)分類的結(jié)果調(diào)整對應(yīng)的告警策略。應(yīng)用該分析流程主要解決大量指標(biāo)數(shù)據(jù)不同的數(shù)據(jù)質(zhì)量,不同的形態(tài),以及指標(biāo)數(shù)據(jù)中包含不同的業(yè)務(wù)屬性帶來人工無法精細(xì)化維護(hù)的問題,通過不同角度的分類,如數(shù)據(jù)飽和度,數(shù)據(jù)的高低頻,指標(biāo)數(shù)據(jù)業(yè)務(wù)時(shí)間段,周期波動情況對大批量的指標(biāo)數(shù)據(jù)進(jìn)行分類聚合,人工再對動態(tài)基線分類后的結(jié)果分批治理,大大提高動態(tài)基線調(diào)優(yōu)分析的效率。

  多指標(biāo)異常檢測(Composite Alerting),智能預(yù)警與根因診斷平臺簡稱組合告警是指將多個(gè)單指標(biāo)告警信息進(jìn)行整合和關(guān)聯(lián),以便更準(zhǔn)確地識別和響應(yīng)復(fù)雜系統(tǒng)中的問題。在本方案中,這種方法的創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:

  綜合視角:組合告警不僅僅是將多個(gè)指標(biāo)簡單疊加,而是通過分析不同指標(biāo)之間的關(guān)系(如業(yè)務(wù)指標(biāo)與基礎(chǔ)架構(gòu)指標(biāo)),提供更全面的系統(tǒng)健康視圖。

  相關(guān)性分析:使用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)技術(shù)來識別不同指標(biāo)之間的相關(guān)性,從而提高告警的準(zhǔn)確性和相關(guān)性。

  因果推斷:通過分析告警之間的時(shí)間序列關(guān)系和依賴性,幫助確定導(dǎo)致多個(gè)指標(biāo)異常的根本原因。

  影響分析:評估一個(gè)告警事件對其他系統(tǒng)和指標(biāo)的可能影響,從而提供更深入的故障分析和決策支持。

  自適應(yīng)調(diào)整:根據(jù)系統(tǒng)的實(shí)時(shí)表現(xiàn)和歷史學(xué)習(xí),動態(tài)調(diào)整告警的閾值和基線,以適應(yīng)系統(tǒng)的變化和提高告警的適應(yīng)性。

  預(yù)測性告警:利用歷史數(shù)據(jù)和趨勢分析,預(yù)測未來的告警事件,實(shí)現(xiàn)主動式維護(hù)和風(fēng)險(xiǎn)管理。

  在故障發(fā)生時(shí)產(chǎn)生大量的告警時(shí),診斷工具可以在算法層面識別新奇告警,周期性告警,高發(fā)告警,以及對告警進(jìn)行標(biāo)簽化整理聚類,將大量繁雜的告警進(jìn)行標(biāo)簽化降維,同時(shí)結(jié)合持續(xù)學(xué)習(xí)的專家經(jīng)驗(yàn)庫推薦故障的根因告警。

  新奇告警捕捉:利用孤立森林算法或其他先進(jìn)的異常檢測技術(shù),模型能夠識別不符合已知行為模式的告警,即新奇告警,這些告警可能指示系統(tǒng)中的未知問題或潛在的故障點(diǎn)。

  周期性告警預(yù)測:通過時(shí)間序列分析,模型能夠識別告警的周期性模式,并預(yù)測其可能出現(xiàn)的頻率和時(shí)間點(diǎn),從而實(shí)現(xiàn)預(yù)測性維護(hù),減少系統(tǒng)故障對業(yè)務(wù)的影響。

  告警優(yōu)先級評估:基于告警的嚴(yán)重性、影響范圍和緊急程度,模型能夠?yàn)楦婢峙鋬?yōu)先級,確保關(guān)鍵告警能夠得到及時(shí)處理。

  多維特征提?。簭母婢瘮?shù)據(jù)中提取多維特征,如告警級別、發(fā)生時(shí)間、發(fā)生頻率等,用于告警的標(biāo)簽化。這有助于運(yùn)維人員更準(zhǔn)確地理解告警信息,提高故障處理的效率。

  聚類分析:使用聚類算法,如K-means或DBSCAN,對告警進(jìn)行聚類,將相似的告警歸為一類,簡化告警管理。這有助于運(yùn)維人員更高效地處理告警,降低故障對業(yè)務(wù)的影響。

  專家經(jīng)驗(yàn)融合:將專家的經(jīng)驗(yàn)和知識融入模型,提高故障診斷的準(zhǔn)確性和可靠性。專家經(jīng)驗(yàn)庫中存儲了專家對故障的判斷和解決方案,這些經(jīng)驗(yàn)可以幫助模型更準(zhǔn)確地推薦故障的根因。

  持續(xù)學(xué)習(xí):模型能夠不斷學(xué)習(xí)專家的經(jīng)驗(yàn)和反饋,持續(xù)優(yōu)化故障診斷的能力。通過學(xué)習(xí)專家的經(jīng)驗(yàn),模型可以不斷提高其診斷的準(zhǔn)確性和可靠性。

  本方案主要分兩大模塊進(jìn)行功能實(shí)現(xiàn),模塊一主要是針對我行各個(gè)業(yè)務(wù)系統(tǒng)的交易數(shù)據(jù)(交易量,響應(yīng)時(shí)間,成功率,響應(yīng)率,錯誤碼),以及基礎(chǔ)架構(gòu)運(yùn)行數(shù)據(jù)(中間件、數(shù)據(jù)庫、日志以及性能指標(biāo))進(jìn)行統(tǒng)計(jì)的采集分析,以算法學(xué)習(xí)歷史數(shù)據(jù)以及業(yè)務(wù)規(guī)律的基礎(chǔ)上訓(xùn)練預(yù)測模型,并輔助人工專家經(jīng)驗(yàn),實(shí)時(shí)監(jiān)控系統(tǒng)的健康狀況。充分利用不同維度數(shù)據(jù)之間關(guān)聯(lián)關(guān)系,有效做到事前的故障發(fā)現(xiàn),以及系統(tǒng)運(yùn)行期間的風(fēng)險(xiǎn)隱患排查。模塊二主要針對的是我行系統(tǒng)運(yùn)行期間產(chǎn)生的告警數(shù)據(jù)(業(yè)務(wù),服務(wù)器性能,數(shù)據(jù)庫,中間件以及硬件、環(huán)控告警數(shù)據(jù))輔以專家經(jīng)驗(yàn)對告警進(jìn)行分層分類,算法在告警產(chǎn)生時(shí)間段內(nèi),實(shí)時(shí)進(jìn)行場景預(yù)測,聚合疑似故障場景的告警數(shù)據(jù),并在相對應(yīng)的場景中推薦最可能的故障根因,達(dá)到事中故障根因的推斷,大幅降低排障時(shí)間,優(yōu)化運(yùn)維效率。

  方案的整體架構(gòu)共分為四層:數(shù)據(jù)處理層,智能分析層,功能引擎層,綜合展示層,統(tǒng)一查詢引擎層四個(gè)層級組成,各功能層級規(guī)劃如下:

  四大層級都可支持橫向擴(kuò)展,提升每個(gè)模塊的吞吐量以及處理能力,同時(shí)每個(gè)模塊內(nèi)部都是多點(diǎn)分布式部署,保證了系統(tǒng)高可用以及數(shù)據(jù)安全。

  平臺在物理部署時(shí)充分考慮了架構(gòu)的先進(jìn)性,避免了重復(fù)建設(shè)以保護(hù)客戶的已有投資,平臺中需要的Hadoop、Kafka以及ZK集群都支持用戶版本需求,其他節(jié)點(diǎn)均支持分布式部署,可以非常容易的調(diào)整節(jié)點(diǎn)數(shù)量,為后期平臺的自動智能擴(kuò)容提供了基礎(chǔ),整體物理架構(gòu)如下:

  1.動態(tài)基線標(biāo)簽分類:動態(tài)基線標(biāo)簽分類是使用統(tǒng)計(jì)方式結(jié)合算法能力對動態(tài)基線監(jiān)控對象進(jìn)行標(biāo)簽分類,從功能上它首要功能篩選出哪些適合做異常檢測的動態(tài)基線檢測的對象,其次在篩選出適合異常檢測的對象中我們進(jìn)一步從監(jiān)控對象的是否具有業(yè)務(wù)屬性,算法識別周期情況,波動情況等維度進(jìn)行細(xì)分,通過這些特征調(diào)整其對應(yīng)的算法套餐,以及告警策略。下圖是方案中具體的標(biāo)簽分類思路:

  2.組合告警:組合告警(Composite Alerting),它涉及將多個(gè)單獨(dú)的監(jiān)控指標(biāo)或告警條件結(jié)合起來,以形成一個(gè)綜合的告警。這種策略的目的是通過分析多個(gè)相關(guān)指標(biāo)之間的關(guān)系,來提高檢測問題的準(zhǔn)確性和效率。

  在復(fù)雜的系統(tǒng)環(huán)境中,單一指標(biāo)的異常可能不足以全面反映系統(tǒng)或服務(wù)的健康狀況。例如,一個(gè)服務(wù)的響應(yīng)時(shí)間增加可能是由多種因素共同作用的結(jié)果,如數(shù)據(jù)庫查詢緩慢、網(wǎng)絡(luò)延遲或服務(wù)器負(fù)載過重。通過組合告警,可以同時(shí)考慮這些不同的指標(biāo),當(dāng)它們共同表明存在問題時(shí),才觸發(fā)告警。

  ①減少誤報(bào):通過綜合考慮多個(gè)指標(biāo),可以減少由于單一指標(biāo)偶然波動而導(dǎo)致的誤報(bào)。

 ?、谔岣咴\斷效率:組合告警可以提供更全面的問題視圖,幫助運(yùn)維團(tuán)隊(duì)更快地定位問題的根本原因。

  ③優(yōu)化響應(yīng):通過關(guān)聯(lián)分析,運(yùn)維團(tuán)隊(duì)能夠更準(zhǔn)確地評估問題的嚴(yán)重性和緊迫性,從而做出更有效的響應(yīng)。

  3.實(shí)時(shí)診斷:方案中的實(shí)時(shí)診斷(Real-time Diagnostics)是指一套成熟的算法能力在結(jié)合專家經(jīng)驗(yàn),在故障發(fā)生時(shí)產(chǎn)生大量的告警時(shí),診斷工具可以在算法層面識別新奇告警,周期性告警,高發(fā)告警,以及對告警進(jìn)行標(biāo)簽化整理聚類,將大量繁雜的告警進(jìn)行標(biāo)簽化降維,同時(shí)結(jié)合持續(xù)學(xué)習(xí)的專家經(jīng)驗(yàn)庫推薦故障的根因告警,實(shí)現(xiàn)對IT系統(tǒng)、服務(wù)和應(yīng)用程序的實(shí)時(shí)監(jiān)控、故障檢測和根本原因分析。

  4.數(shù)據(jù)分析中心:針對方案運(yùn)營的海量數(shù)據(jù),例如指標(biāo)原始數(shù)據(jù),基線運(yùn)行數(shù)據(jù),告警數(shù)據(jù),診斷場景數(shù)據(jù),原始的人工分析數(shù)據(jù)必將滿足不了現(xiàn)有的海量數(shù)據(jù),方案提供數(shù)據(jù)分析中心,可定制化對數(shù)據(jù)展示進(jìn)行編排可視化分析,同時(shí)對于高階用戶提供簡單腳本,sql查詢能力對數(shù)據(jù)進(jìn)行標(biāo)簽化處理,用戶可對編排,標(biāo)簽化處理后的數(shù)據(jù)進(jìn)行綜合分析,針對分析數(shù)據(jù)優(yōu)化平臺算法能力,告警策略配置,以及專家經(jīng)驗(yàn)庫。

  通過動態(tài)基線檢測技術(shù),方案能夠?qū)崟r(shí)監(jiān)控和分析系統(tǒng)行為,自動學(xué)習(xí)和適應(yīng)系統(tǒng)的正常行為模式,從而在系統(tǒng)行為出現(xiàn)異常時(shí)迅速感知并觸發(fā)告警。結(jié)合多指標(biāo)異常檢測算法,方案能夠跨域關(guān)聯(lián)不同指標(biāo),通過智能聚合和根本原因分析,提高故障檢測的準(zhǔn)確性和響應(yīng)速度。

  實(shí)時(shí)診斷功能進(jìn)一步強(qiáng)化了故障感知能力,通過算法和專家經(jīng)驗(yàn)的結(jié)合,快速識別新奇告警和周期性告警,實(shí)現(xiàn)對IT系統(tǒng)、服務(wù)和應(yīng)用程序的實(shí)時(shí)監(jiān)控和故障檢測。

  動態(tài)基線告警:系統(tǒng)通過動態(tài)基線告警功能,能夠在系統(tǒng)性能指標(biāo)偏離正常范圍時(shí)發(fā)出警報(bào),即使這些異常并未達(dá)到系統(tǒng)崩潰的邊緣。這種早期的告警可以幫助客戶及時(shí)發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)隱患,如參數(shù)配置不合理或代碼邏輯需要優(yōu)化等問題。

  結(jié)合專家經(jīng)驗(yàn)庫,方案能夠推薦故障的根因告警,通過專家的經(jīng)驗(yàn)和知識,提高故障診斷的準(zhǔn)確性和可靠性。

  持續(xù)學(xué)習(xí)機(jī)制使得模型能夠不斷學(xué)習(xí)專家的經(jīng)驗(yàn)和反饋,優(yōu)化故障診斷能力,實(shí)現(xiàn)更準(zhǔn)確的故障根因推薦。通過統(tǒng)一查詢功能,運(yùn)維人員及相關(guān)使用人員可以方便地訪問和檢索相關(guān)的告警和診斷數(shù)據(jù),進(jìn)一步分析故障場景,加速故障排查過程。

  實(shí)施解決方案的過程中,我們遇到了一些關(guān)鍵挑戰(zhàn),特別是在動態(tài)基線數(shù)據(jù)接入檢測方面。這些挑戰(zhàn)包括監(jiān)控對象繁雜、數(shù)據(jù)飽和度不足以及檢測效果未知等。針對這些問題,我們不斷探索和改進(jìn),最終形成了一套規(guī)范的動態(tài)基線數(shù)據(jù)接入流程。首先,監(jiān)控對象繁雜是我們在數(shù)據(jù)接入過程中面臨的主要難點(diǎn)之一。行內(nèi)系統(tǒng)涉及的業(yè)務(wù)模塊和技術(shù)組件繁多,每個(gè)組件都可能產(chǎn)生大量的監(jiān)控?cái)?shù)據(jù)。因此,我們需要在這些復(fù)雜的監(jiān)控對象中確定關(guān)鍵的指標(biāo)進(jìn)行異常檢測,以確保我們能夠及時(shí)發(fā)現(xiàn)系統(tǒng)異常。其次,數(shù)據(jù)飽和度不足也是我們在動態(tài)基線數(shù)據(jù)接入過程中遇到的挑戰(zhàn)之一。由于數(shù)據(jù)的稀疏性或者不完整性,我們無法準(zhǔn)確地建立起系統(tǒng)的基準(zhǔn)行為模式,從而導(dǎo)致動態(tài)基線檢測的效果不佳。為了應(yīng)對這些挑戰(zhàn),我們制定了一套動態(tài)基線數(shù)據(jù)解析接入的規(guī)范流程。我們對監(jiān)控對象進(jìn)行了標(biāo)簽化處理,將復(fù)雜的監(jiān)控對象進(jìn)行分類和整理,以便更好地管理和分析。然后,我們對基線進(jìn)行了初步運(yùn)行,通過模擬數(shù)據(jù)來驗(yàn)證基線的有效性和準(zhǔn)確性。接著,我們對模擬數(shù)據(jù)進(jìn)行了告警分析,驗(yàn)證了動態(tài)基線檢測的效果。最后,我們才將動態(tài)基線檢測正式應(yīng)用于實(shí)際生產(chǎn)環(huán)境中,確保系統(tǒng)的穩(wěn)定性和可靠性。

  動態(tài)基線檢測技術(shù)使系統(tǒng)能夠?qū)崟r(shí)適應(yīng)環(huán)境的變化,自動學(xué)習(xí)正常行為模式,及時(shí)感知異常。而多指標(biāo)異常檢測通過跨域指標(biāo)關(guān)聯(lián)和智能聚合,提升了告警的準(zhǔn)確性,減少了誤報(bào)。這些技術(shù)的結(jié)合,不僅提高了故障感知能力,還優(yōu)化了運(yùn)維人員的工作效率。

  在故障診斷過程中,專家經(jīng)驗(yàn)與智能算法的結(jié)合是關(guān)鍵。通過持續(xù)學(xué)習(xí)專家的經(jīng)驗(yàn),診斷模型能夠不斷優(yōu)化,準(zhǔn)確識別新奇和周期性告警,推薦最可能的故障根因。這種專家經(jīng)驗(yàn)庫的應(yīng)用,提高了故障診斷的可靠性,幫助運(yùn)維人員迅速聚焦于關(guān)鍵告警,減少了故障排查時(shí)間。

  通過上述經(jīng)驗(yàn)的總結(jié),我們認(rèn)識到,智能預(yù)警與根因診斷解決方案的成功實(shí)施,依賴于數(shù)據(jù)的全面整合、智能算法的創(chuàng)新應(yīng)用、專家經(jīng)驗(yàn)的持續(xù)融合以及系統(tǒng)架構(gòu)的高效設(shè)計(jì)。未來,我們將繼續(xù)優(yōu)化和完善這些技術(shù)和方法,為金融機(jī)構(gòu)提供更智能、更可靠的運(yùn)維支持體系。

  更多金融科技案例和金融數(shù)據(jù)智能優(yōu)秀解決方案,請?jiān)跀?shù)字金融創(chuàng)新知識服務(wù)平臺-金科創(chuàng)新社案例庫、選型庫查看。彩神v