售前電話
135-3656-7657
售前電話 : 135-3656-7657
近幾年,各行各業(yè)紛紛擁抱互聯(lián)網(wǎng)+,借助云計(jì)算、大數(shù)據(jù)等技術(shù)來實(shí)現(xiàn)生產(chǎn)效率的提升,與之相關(guān)的就是企業(yè)IT系統(tǒng)越來越復(fù)雜。IT系統(tǒng)規(guī)模愈大、運(yùn)維管理精細(xì)化要求更高、運(yùn)維采集指標(biāo)更多、響應(yīng)時(shí)間需求更短等挑戰(zhàn)接踵而來。面對(duì)大量運(yùn)維數(shù)據(jù),以及對(duì)數(shù)據(jù)的實(shí)時(shí)秒級(jí)分析處理要求,傳統(tǒng)IT系統(tǒng)和模式越來越難以滿足當(dāng)前運(yùn)維需求。
在過去,IT資源都是通過人工進(jìn)行管理,需要經(jīng)過手動(dòng)定義系統(tǒng)網(wǎng)絡(luò)架構(gòu)、配置并克隆虛擬機(jī)、配置OS、安裝數(shù)據(jù)庫等漫長的流程,才能夠使用,并且在部署過程中,人工操作易出錯(cuò)。傳統(tǒng)運(yùn)維壓力很大,疲于奔命和救火,必須要尋求改變,走向自動(dòng)化、平臺(tái)化、智能化。
在IT服務(wù)管理方面,借助ITSM以及自動(dòng)化技術(shù)可以有效提升管理效率。ITSM中的自動(dòng)化工具幫助企業(yè)更高效地提高管理任務(wù),大大縮短應(yīng)用發(fā)布流程,提高IT效率,提升對(duì)IT需求的響應(yīng)速度,有效節(jié)省運(yùn)維、開發(fā)人員的工作時(shí)間。
在IT運(yùn)維方面,Docker、OpenStack、Puppet等技術(shù)的流行,以及微服務(wù)、CI/CD、DevOps等理念的落地生根,自動(dòng)化運(yùn)維的發(fā)展迎來了小高潮。整體來看,自動(dòng)化運(yùn)維平臺(tái)幫助提升了運(yùn)維的效率,并減少了因人工疏忽和流程操作失誤而引起的運(yùn)維故障。
重新定義IT運(yùn)維
隨著企業(yè)加速自身業(yè)務(wù)互聯(lián)網(wǎng)化的進(jìn)程,新業(yè)務(wù)和新場(chǎng)景不斷涌現(xiàn),這就要求企業(yè)在IT架構(gòu)方面進(jìn)行與之適應(yīng)的調(diào)整,對(duì)于開發(fā)的訴求也更多放到需求實(shí)現(xiàn)上面。企業(yè)的數(shù)字化程度越高,運(yùn)維的管理難度也越大。
技術(shù)界逐漸催生出了服務(wù)化的軟件架構(gòu),以及持續(xù)交付過程,同時(shí)隨著業(yè)務(wù)體量快速膨脹,因服務(wù)化帶來的大量的應(yīng)用管理、持續(xù)交付、監(jiān)控、穩(wěn)定性、成本控制等非功能性體系的建設(shè)和保障就需要有專門的團(tuán)隊(duì)來做,這時(shí)對(duì)于運(yùn)維的訴求也在悄然發(fā)生著變化。
在這個(gè)過程中,云計(jì)算的發(fā)展改變了IT資源供給模式的同時(shí)也對(duì)運(yùn)維管理提出了新的變革要求,傳統(tǒng)的網(wǎng)絡(luò)、硬件和系統(tǒng)維護(hù)的職責(zé)在逐漸被弱化,也在逼迫著運(yùn)維的關(guān)注點(diǎn)從底層轉(zhuǎn)向應(yīng)用和業(yè)務(wù)層面,現(xiàn)有運(yùn)行制度和人員角色需要進(jìn)行重新定位。
AI使能IT運(yùn)維
隨著AI時(shí)代的到來,我們工作和生活中的一切都在被重新定義。企業(yè)在嘗試通過AI技術(shù)提高運(yùn)維服務(wù)的有效性乃至預(yù)測(cè)性,同時(shí)降低成本,實(shí)現(xiàn)業(yè)務(wù)轉(zhuǎn)型。
在2016年,Gartner提出了AIOps的概念,并預(yù)測(cè)到2020年,AIOps的采用率將會(huì)達(dá)到50%。簡單來說,AIOps就是希望基于已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等)并通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決在IT運(yùn)維中通過自動(dòng)化沒辦法解決的問題。
作為一種將算法集成到工具里的新型運(yùn)維方式,AIOps可以幫助企業(yè)最大程度的簡化運(yùn)維工作,把IT從耗時(shí)又容易出錯(cuò)的流程中解放出來。傳統(tǒng)IT運(yùn)維管理工具更為關(guān)注突發(fā)事件(即告警)、配置和性能,而AIOps則更加關(guān)注問題、分析和預(yù)測(cè),二者可謂互相補(bǔ)充相得益彰。
有了AIOps,當(dāng)IT出現(xiàn)故障隱患,運(yùn)維人員不需要再等待系統(tǒng)發(fā)出故障告警,通過內(nèi)置的機(jī)器學(xué)習(xí)算法以及大數(shù)據(jù)技術(shù),就能自動(dòng)發(fā)現(xiàn)系統(tǒng)的各類異常,從而實(shí)現(xiàn)從異常入手判斷故障發(fā)生的可能性、嚴(yán)重性和影響,依賴機(jī)器對(duì)數(shù)據(jù)的分析結(jié)果,判斷最佳的應(yīng)對(duì)方案。
數(shù)據(jù)只有全面才能進(jìn)行科學(xué)的決策,很多時(shí)候如果看到的日志不全,或者拿到的監(jiān)控?cái)?shù)據(jù)不準(zhǔn),在做決策的時(shí)候肯定就會(huì)比較貿(mào)然。比如數(shù)據(jù)中心某業(yè)務(wù)鏈路出現(xiàn)問題,是不是要切換?數(shù)據(jù)是不是還能保持一致?這個(gè)時(shí)候在沒有確定的數(shù)據(jù)來支撐你決策之前,你做決策時(shí)都會(huì)感到比較忐忑,猶豫不前。
就目前來看,國內(nèi)的百度、搜狗、阿里巴巴等互聯(lián)網(wǎng)廠商已經(jīng)在探索嘗試AIOps,并且取得了不錯(cuò)的效果。通過支持AIOps能力,平臺(tái)能夠提供更大的分析調(diào)整自修復(fù)能力,更進(jìn)一步提高IT效率。
如何從錯(cuò)綜復(fù)雜的運(yùn)維監(jiān)控?cái)?shù)據(jù)中得出我們所需要的信息和結(jié)果,一句話就是分辨和精煉。同時(shí),確保業(yè)務(wù)和SLA服務(wù)級(jí)別,出現(xiàn)問題要及時(shí)響應(yīng)、自動(dòng)分析和優(yōu)化,把處理的流程精簡和高效組合起來,讓問題匹配正確的場(chǎng)景,找到正確的人,在第一時(shí)間正確處理。
機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)來訓(xùn)練,故障出現(xiàn)的形態(tài)是千奇百怪,對(duì)故障的歷史數(shù)據(jù)進(jìn)行場(chǎng)景分類和標(biāo)注,不斷用模式識(shí)別和數(shù)據(jù)來訓(xùn)練機(jī)器識(shí)別和分析,然后讓機(jī)器自動(dòng)準(zhǔn)確判斷。
基于數(shù)據(jù)和模型來提高事件的處理能力。很多事件有的工程師處理的特別快,反之如果對(duì)這個(gè)故障不熟悉的人可能花費(fèi)的時(shí)間就很長。這就需要構(gòu)建一個(gè)策略知識(shí)庫,讓其他人來參考和學(xué)習(xí),提高同類場(chǎng)景事件處理的能力。
我們以數(shù)據(jù)中心的管理與運(yùn)維為例,數(shù)據(jù)中心的運(yùn)維工作主要包括配置管理和監(jiān)控,運(yùn)維人員每天都要進(jìn)行大量的模塊維護(hù)操作,這個(gè)過程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及時(shí)發(fā)現(xiàn)所有的故障,另一方面,這一過程中人為失誤的可能性不可避免。將人工智能應(yīng)用于數(shù)據(jù)中心的管理和控制,通過機(jī)器學(xué)習(xí)模型進(jìn)行精細(xì)化管理,可以實(shí)現(xiàn)智能化運(yùn)維的目標(biāo)。
谷歌可以說是最早在數(shù)據(jù)中心的管理方面運(yùn)用人工智能技術(shù)的代表了,它使用人工神經(jīng)網(wǎng)絡(luò)對(duì)大型數(shù)據(jù)中心的運(yùn)行進(jìn)行分析,對(duì)數(shù)據(jù)進(jìn)行了收集和匯總(像數(shù)據(jù)中心基礎(chǔ)設(shè)施的耗電量、為達(dá)到一定制冷效果所用的水的量),通過人工智能計(jì)算模型對(duì)數(shù)據(jù)中心的運(yùn)行效率進(jìn)行分析和評(píng)估,提出相應(yīng)的改進(jìn)數(shù)據(jù)中心運(yùn)行效率的解決方案。
AI使能下的IT運(yùn)維目標(biāo)就是減少對(duì)人的依賴,逐步信任機(jī)器,實(shí)現(xiàn)機(jī)器的自判、自斷和自決。技術(shù)在不斷進(jìn)步,AI技術(shù)可以解決一些需要花費(fèi)大量人力和時(shí)間才能解決的事情,但是AI不是一個(gè)很純粹的技術(shù),它也需要結(jié)合具體的企業(yè)場(chǎng)景和業(yè)務(wù),通過計(jì)算驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng),才能產(chǎn)生一個(gè)真正可用的產(chǎn)品。