云原生基礎(chǔ)設(shè)施監(jiān)控要有效,得走好這七步
數(shù)字企業(yè)繼續(xù)改造和發(fā)展其IT基礎(chǔ)設(shè)施,以增強與業(yè)務(wù)目標(biāo)的一致性。數(shù)字服務(wù)中斷可能會損害銷售、收入和公司聲譽,因此團隊面臨著最大限度提高整個堆棧的彈性和正常運行時間的壓力。組織比以往任何時候都更需要全面的基礎(chǔ)設(shè)施監(jiān)控,以保持可見性,并在最終用戶受到影響之前幫助工程師識別和解決問題。
基礎(chǔ)設(shè)施監(jiān)控的演變
基礎(chǔ)設(shè)施監(jiān)控是一個整理和分析來自IT環(huán)境所有組件的度量、跟蹤、日志和其他遙測數(shù)據(jù)的過程,以提供對可用性和性能的可操作洞察。然而,隨著云環(huán)境的復(fù)雜性和動態(tài)性的增加,實現(xiàn)有效的監(jiān)控變得更具挑戰(zhàn)性。
例如,在多云環(huán)境中,每個平臺都附帶一個來自公共云提供商的原生監(jiān)控解決方案,該解決方案只提供對其自身基礎(chǔ)設(shè)施組件的可見性。因此,組織必須拼湊各種工具,這會造成復(fù)雜性并妨礙整個堆棧中的端到端可見性。
有了正確的技術(shù)和配置,基礎(chǔ)設(shè)施監(jiān)控將改變游戲規(guī)則。它幫助團隊發(fā)現(xiàn)和分析趨勢,并在潛在問題破壞用戶體驗或違反服務(wù)級別協(xié)議(SLA)之前標(biāo)記它們。它還可以支持A/B測試,這有助于團隊確定性能和用戶體驗的最佳基礎(chǔ)設(shè)施設(shè)置。高度自動化的監(jiān)控解決方案有助于團隊減少手動流程,隨著基礎(chǔ)設(shè)施的發(fā)展可以輕松擴展,最重要的是,專注于創(chuàng)新,而不是修復(fù)bug。
以下是七個優(yōu)秀實踐,可幫助基礎(chǔ)設(shè)施團隊設(shè)置和優(yōu)化云原生監(jiān)控功能。
1. 盡可能實現(xiàn)自動化
對于大型動態(tài)環(huán)境,使用高度自動化的基礎(chǔ)設(shè)施監(jiān)控解決方案是關(guān)鍵。監(jiān)控功能的手動配置和儀表化是令人望而卻步的勞動密集型任務(wù)。團隊發(fā)現(xiàn)無法對其基礎(chǔ)設(shè)施的一些部分進行檢測,并且難以保持對代理的監(jiān)控處于最新狀態(tài)。
另一方面,自動部署、自動配置和自動基線使組織能夠擴大可以捕獲的度量范圍,消除盲點,并在云原生基礎(chǔ)設(shè)施堆棧中實現(xiàn)端到端的可觀察性。這將帶來更高質(zhì)量的監(jiān)控,并生成更精確的上下文洞察。通過增強數(shù)據(jù),團隊可以更快地解決問題,從而獲得更好的客戶體驗。減少人為干預(yù)可以騰出時間讓團隊專注于更高效的任務(wù),從而加快轉(zhuǎn)型和現(xiàn)代化計劃。
2. 花時間配置警報
概述需要哪種警報是值得的,這樣就可以盡快發(fā)現(xiàn)問題。如果沒有可靠的警報配置,團隊將無法確定問題并確定多個警報是否與同一問題相關(guān)。警報特指性可提高準(zhǔn)確性并減少誤報。周密的警報機制可以縮短響應(yīng)時間,幫助團隊更快地解決根本原因,提高正常運行時間。
為了獲得最大的效率,自動基線功能可以顯著減少警報配置的需要,能夠自動消除誤報,執(zhí)行自動根本原因分析,并根據(jù)業(yè)務(wù)影響確定警報優(yōu)先級。
3. 創(chuàng)建優(yōu)先級
根據(jù)業(yè)務(wù)影響對警報進行分組有助于團隊首先將精力集中在最嚴(yán)重的問題上。這種方法消除了在對通知重要性的猜測,從而節(jié)省了團隊的時間和壓力。還可以將警報定向到不同的頻道。
例如,一家公司可以將其IT服務(wù)管理(ITSM)系統(tǒng)配置為通過SMS向待命工程師的智能手機發(fā)送高優(yōu)先級警報,并通過電子郵件發(fā)送低優(yōu)先級問題。對于擁有24小時待命工程師的企業(yè),優(yōu)先順序可以減少非工作時間的警報疲勞和團隊中斷。
4. 設(shè)置自定義儀表板
通過創(chuàng)建特定于角色的儀表板,確保合適的人員能夠訪問所需的監(jiān)控數(shù)據(jù)。組織內(nèi)的不同團隊可能需要出于不同的目的查看基礎(chǔ)設(shè)施監(jiān)控報告。例如,ITOps工程師可能與IT安全團隊、營銷部門和業(yè)務(wù)主管擁有不同的關(guān)鍵績效指標(biāo)(KPI)。
確定利益相關(guān)者認為哪些見解最有價值,哪些見解不必要。為僅顯示相關(guān)數(shù)據(jù)的每個組設(shè)置自定義儀表板。(但是,關(guān)鍵是所有儀表盤的基礎(chǔ)數(shù)據(jù)都是一致的,并且基于相同的數(shù)據(jù)模型。)
5. 測試系統(tǒng)
如果不徹底測試系統(tǒng),大多數(shù)企業(yè)永遠不會啟動系統(tǒng)或部署重大更改?;A(chǔ)設(shè)施監(jiān)控也不例外。確定最可能的場景并設(shè)計測試框架,以確?;A(chǔ)設(shè)施監(jiān)控解決方案按預(yù)期執(zhí)行。最安全的方法是在指定的測試環(huán)境中進行測試,以防止生產(chǎn)和客戶受到影響。然后,團隊可以微調(diào)設(shè)置和警報配置,以確保一切正常。
6. 定期檢查度量和KPI
目標(biāo)不斷演變,因此定期審查指標(biāo)以確保基礎(chǔ)設(shè)施監(jiān)控解決方案生成每個利益相關(guān)者所需的數(shù)據(jù)和洞察至關(guān)重要。評估KPI并與團隊合作以確定未來要建立的新基準(zhǔn)也是有益的。隨著一個組織在數(shù)字化轉(zhuǎn)型過程中的進一步發(fā)展,新的基礎(chǔ)設(shè)施盲點將出現(xiàn)。定期的度量審查可以避免無意的疏忽,并確保在整個基礎(chǔ)設(shè)施堆棧中保持完全的可見性。
7. 利用供應(yīng)商專有技術(shù)和資源
難以完善其監(jiān)控設(shè)置或缺乏內(nèi)部專有技術(shù)或經(jīng)驗的組織可以選擇供應(yīng)商提供支持。供應(yīng)商專家將具備行業(yè)最佳實踐方面的專業(yè)知識,并熟悉團隊正在解決的問題。利用供應(yīng)商的專業(yè)知識可以幫助團隊更快地實現(xiàn)其監(jiān)控目標(biāo),同時提高內(nèi)部技能。
一種可擴展的基礎(chǔ)設(shè)施監(jiān)控方法
隨著企業(yè)繼續(xù)向現(xiàn)代多云環(huán)境過渡,最大限度地延長正常運行時間和彈性對于確保業(yè)務(wù)連續(xù)性和客戶滿意度比以往任何時候都更為重要。將正確的監(jiān)控解決方案落實到位,以實現(xiàn)基礎(chǔ)設(shè)施性能的明確戰(zhàn)略目標(biāo),可以讓團隊獲得最大的成功。
對許多人來說,最有效的方法是實現(xiàn)一個統(tǒng)一的平臺,該平臺可以在一個地方為所有云環(huán)境提供可觀察性。這有助于團隊更有效地協(xié)作并充分利用時間。通過將AIOps驅(qū)動的自動化與這些功能結(jié)合起來,組織可以設(shè)計一個可擴展的基礎(chǔ)設(shè)施監(jiān)控框架——該框架將隨著業(yè)務(wù)的發(fā)展而發(fā)展,為創(chuàng)新和進一步轉(zhuǎn)型創(chuàng)造更多空間。
版權(quán)聲明:
本站所有文章和圖片均來自用戶分享和網(wǎng)絡(luò)收集,文章和圖片版權(quán)歸原作者及原出處所有,僅供學(xué)習(xí)與參考,請勿用于商業(yè)用途,如果損害了您的權(quán)利,請聯(lián)系網(wǎng)站客服處理。