探索運營的輔助智能(AIOps)


在今天的數位時代,運營的複雜性和規模已經顯著提高,這讓組織在有效管理和解決問題上面臨著挑戰。運營的輔助智能(AIOps)作為一種有前途的解決方案出現,結合大數據分析、機器學習和自動化,以幫助運營團隊理解大量數據,提高運營效率。GAN託在2016年首次提出AIOps,它具有改變企業處理運營的方式的潛力,提供洞察力、自動化任務,以及預測和防止問題。

理解AIOps

在其核心,AIOps利用先進的算法和技術來釋放大數據和機器學習的力量。它有助於處理和分析大量的運營數據,如日誌、事件、指標和跟蹤,以識別模式,檢測異常並提供可行的見解。AIOps的主要目標是通過自動化既定的任務,促進根本原因分析,以及預測和防止問題,使企業能夠實現有效和主動的運營管理。

AIOps的主要挑戰

雖然AIOps提供了巨大的潛力,但是組織需要處理幾個問題才能完全實現其效益:

1.數據科學知識有限:導入 AIOps 需要數據科學、機器學習和統計分析的專門技術。公司可能會在招聘和提升具有必要技能的人員方面遇到挑戰,以有效地利用 AIOps 技術。

2.服務複雜性和依賴性:現代 IT 基礎設施複雜且相互關聯,這使得準確確定服務依賴性變得困難。AIOps 解決方案需要處理這種複雜性並提供整個系統的全面視圖,以準確識別問題的根本原因。

3.對信任和有效性的問題:組織往往會因對生成的洞察和建議的準確性和有效性的擔憂而對 AIOps 系統的信任度變低。確保透明和可靠是建立對 AIOps 技術信任的關鍵。

土法煉鋼:首選 AIOps 落地場景

雖然存在挑戰,但 AIOps 也提供了改善運營管理的許多機會。以下是 AIOps 可以提供重大效益的一些領域:

  • 异常检测:AIOps 可以帮助识别并通知运维团队系统行为中的不寻常模式或异常值,从而实现迅速回应和故障排除。

  • 配置更改检测:AIOps 可以自动检测和跟踪配置更改,提供对这些变更对系统影响的可见性,促进问题快速解决。

  • 基于指标的遥测和基础设施服务:AIOps 可以分析指标和遥测数据,提供有关基础设施服务性能和健康状况的见解,实现积极维护和优化。

  • 建议已知故障:AIOps 可以利用历史数据和模式,建议可能发生的失败或以前发生过的问题,帮助团队积极应对它们。

  • 預測糾正:通過分析模式和歷史數據,AIOps可以預測可能的問題或故障,並推薦糾正行動,這樣團隊就可以在問題發生之前採取預防措施。

AWS 中 AIOps 的示例

亞馬遜網絡服務(AWS)提供了數種結合AIOps能力的服務和特性:

  • CloudWatch异常检测:AWS CloudWatch 提供异常检测功能,允许用户自动识别其监控数据(例如,CPU 使用量、网络流量或应用日志)中的不寻常模式或行为。

  • DevOps Guru 建议:AWS DevOps Guru 使用机器学习分析运营数据、检测异常,并提供解决问题和改善系统性能的行动建议。

  • EC2 的预测性扩展:AWS 为 EC2 实例提供预测性扩展功能,这个功能利用历史数据和机器学习算法自动调整 EC2 实例的容量,以便根据预测的需求进行调整,确保最佳性能和成本效益。

短版:改进领域

雖然 AIOps 表現出了潛力,但仍有一些領域需要改進以充分實現其潛力:

  • 服務和關係依賴性複雜:AIOps 解決方案需要更好地處理複雜的服務架構,並準確識別不同服務之間的依賴關係,以提供更準確的見解和根本原因分析。

  • 豐富的元數據和標記實踐:AIOps 在很大程度上依賴元數據和標記實踐來使數據具有語境。組織必須保持全面的元數據並堅持良好的標記實踐,以確保準確的分析和有效的故障排除。

  • 長期數據用於重複模式:AIOps 系統可以從長期的歷史數據中獲益,有效地識別重複的模式和異常。組織需要確保數據的保存並建立數據庫,以利用這種能力。

  • 您不知道,無法控制或儀器的服務:當處理第三方服務或組件時,AIOps 可能遇到限制,這些服務或組件在組織的控制之外或缺乏適當的儀器。將這種服務整合到 AIOps 工作流程中可能會面臨挑戰。

  • 成本對效益:實施和維護 AIOps 解決方案可能需要大量資源。組織需要仔細評估成本效益比,以確保 AIOps 提供的見解和自動化值得投資。

AWS 中 AIOps 的示例

為了解決這些挑戰,AWS 提供了像:

  • AWS X-Ray 的分散追蹤:AWS X-Ray 提供了分散追蹤的能力,用戶可以追蹤微服務的請求,了解其依賴性和性能,從而對不同的組件進行故障排除和性能優化。

  • AWS Lookout for Metrics:AWS Lookout for Metrics 將機器學習算法應用於時間序列數據,使用戶可以檢測他們的指標中的異常和不尋常的模式,從而促進更快的故障排除和積極的維護。

實施 AIOps 時應記住的建議:

  • 最好的標記地點:在創建服務或資源時應添加標籤,以確保分析的一致性和容易度。

  • 使用易讀的鍵和值:較短的標籤,具有有意義且易於理解的鍵和值,可以簡化解析和分析,從而提高 AIOps 的效果。

  • 命名和格式的一致性:在服務和資源中建立一致的命名慣例和標籤格式,以確保準確的數據分析和故障排除。

  • 考慮基礎設施作為代碼:擁抱基礎設施作為代碼的實踐,以維持一致性和可重複性,使得 AIOps 的能力更容易整合到開發和部署流程中。

必不可少:針對工程師的設計思維

為了有效運用 AIOps,工程師應該採用包含以下內容的設計思維方法:

  • 已知知識:利用類比、橫向思維和經驗來有效解決已知問題。

  • 已知未知:使用 AIOps 工具建立假設,衡量和迭代,探索並解決以前未識別的問題。

  • 未知已知:參與頭腦風暴和群體速寫會議,利用不斷發展的AI功能,從現有數據中發掘見解。

  • 未知的未知:接受研究和探索,以識別和解決新興的挑戰,這些挑戰目前的 AIOps 能力可能尚未完全解決。

非常尷尬:自動根本原因分析

儘管 AIOps 已經取得了進展,但完全自動化的根本原因分析仍然是一個挑戰。AIOps 可以幫助縮小潛在的原因範圍,但在複雜系統中,仍需要人類的專業知識和調查來確定確定的根本原因。

總結

通過利用大數據分析、機器學習和自動化的能力,AIOps提供了一種管理和優化運營的強大方法。雖然存在挑戰,但AIOps可以提供重大好處,包括異常檢測、配置變更檢測、預測糾正以及提供基礎設施服務的見解。組織在實施 AIOps 時應仔細評估,考慮到如服務複雜性、元數據管理以及成本效益分析等因素。通過結合人類的專業知識和 AIOps 的能力,組織可以實現更大的運營效率,並趨助於在問題影響他們的業務之前,主動處理問題。