集中監(jiān)控概述
隨著信息化步伐的不斷推進(jìn),IT服務(wù)業(yè)的分工越來(lái)越精細(xì)和明確。作為一切IT服務(wù)的基礎(chǔ),數(shù)據(jù)中心及相關(guān)基礎(chǔ)設(shè)施直接關(guān)系到IT服務(wù)系統(tǒng)能否正常、持續(xù)、穩(wěn)定運(yùn)行。任何一部分的效率降低或者故障,都將導(dǎo)致IT服務(wù)的可用性降低,輕則造成信息訪問(wèn)不暢,重則帶來(lái)各種不可預(yù)估的重大損失。
集中監(jiān)控提升
如何提升數(shù)據(jù)中心的可用性,已成為“高可用性IT服務(wù)”中的重要議題之一。作為保障數(shù)據(jù)中心可用性的*道防線——“集中監(jiān)控”可以快速幫助企業(yè)達(dá)成“高可用性”的目標(biāo)。
集中監(jiān)控的意義
根據(jù)ITIL的定義,所謂的“可用性”指的是:“一個(gè)配置項(xiàng)或IT服務(wù)根據(jù)需要履行協(xié)定職能的能力??捎眯匀Q于可靠性、可維護(hù)性、可服務(wù)用性、性能和安全??捎眯酝ǔR园俜直扔?jì)算。這種計(jì)算通常基于協(xié)定服務(wù)時(shí)間和宕機(jī)時(shí)間”。高可用性IT管理是指:是指通過(guò)對(duì)IT架構(gòu)及運(yùn)維管理、基礎(chǔ)設(shè)施及管理、災(zāi)備建設(shè)及運(yùn)維、安全及管理等高可用性關(guān)鍵要素的改進(jìn)與優(yōu)化,提升IT系統(tǒng)的可用性,從而更好地保障業(yè)務(wù)持續(xù)運(yùn)營(yíng)和創(chuàng)新的過(guò)程。
在衡量可用性方面,具體又分為MTTR/MTBF/MTBSI等三個(gè)不同的指標(biāo)。無(wú)論是MTBSI還是MTTR,均有一個(gè)重要的組成部分——“Detecttime(偵測(cè)時(shí)間)”??梢?jiàn)“能否通過(guò)有效的監(jiān)控管理,及時(shí)、有效地發(fā)現(xiàn)數(shù)據(jù)中心中各管理對(duì)象的故障”,已構(gòu)成數(shù)據(jù)中心高可用性一個(gè)充分條件。
集中監(jiān)控的作用
數(shù)據(jù)中心的管理對(duì)象主要包括基礎(chǔ)設(shè)施與IT基礎(chǔ)架構(gòu)兩大部分。其中基礎(chǔ)設(shè)施包括供配電、UPS、空調(diào)、消防、安保、環(huán)境監(jiān)測(cè)等機(jī)房系統(tǒng);基礎(chǔ)架構(gòu)包括網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備、存儲(chǔ)設(shè)備等IT設(shè)備。
集中監(jiān)控的目標(biāo)就是要能夠通過(guò)管理與技術(shù)的應(yīng)用,對(duì)基礎(chǔ)設(shè)施與IT基礎(chǔ)架構(gòu)的運(yùn)行情況進(jìn)行監(jiān)視,實(shí)現(xiàn)故障與異常的實(shí)時(shí)發(fā)現(xiàn)與通知;此外還可以通過(guò)對(duì)監(jiān)控?cái)?shù)據(jù)搜集與整理,為容量管理、事件管理、問(wèn)題管理、符合性管理提供分析的基礎(chǔ),zui終實(shí)現(xiàn)數(shù)據(jù)中心高可用性的目標(biāo)。
集中監(jiān)控的管理
隨著技術(shù)的發(fā)展,有許多第三方監(jiān)控工具開(kāi)始出現(xiàn),這些工具可以實(shí)現(xiàn)跨設(shè)備、跨平臺(tái)、跨系統(tǒng)的集中數(shù)據(jù)采集,同時(shí)也能針對(duì)不同的監(jiān)控對(duì)象設(shè)置相應(yīng)的閥值,zui終還可以實(shí)現(xiàn)統(tǒng)一的展現(xiàn)與告警。這些工具的出現(xiàn),使得IT管理人員可以以一種更快速、更準(zhǔn)確的方式發(fā)現(xiàn)被管理的組件所出現(xiàn)的故障。從而為故障的修復(fù),以及服務(wù)的恢復(fù)爭(zhēng)取了寶貴的時(shí)間,提升了整個(gè)基礎(chǔ)架構(gòu)的可用性。
容量管理
監(jiān)控管理還會(huì)利用監(jiān)控工具的性能采集功能,對(duì)一些關(guān)鍵應(yīng)用的關(guān)鍵性能點(diǎn)進(jìn)行監(jiān)控,取得這些關(guān)鍵點(diǎn)的性能數(shù)據(jù),用來(lái)評(píng)估IT系統(tǒng)的容量。當(dāng)發(fā)現(xiàn)IT組件的性能的容量計(jì)劃存在偏差后,可以及時(shí)對(duì)這些組織的性能進(jìn)行擴(kuò)容,減少因性能不足而導(dǎo)致業(yè)務(wù)中斷的可能性。
安全管理 監(jiān)控管理可以利用一些安全監(jiān)控工具,去檢查組件的安全情況與運(yùn)行中對(duì)合規(guī)要求的符合情況。如GDS的一些合作伙伴,其利用一些安全軟件,對(duì)防火墻、防病毒與入侵檢查設(shè)備進(jìn)行實(shí)時(shí)日志采集與安全分析,同時(shí)比對(duì)公司的安全策略或一些安全標(biāo)準(zhǔn),幫助數(shù)據(jù)中心管理人員對(duì)數(shù)據(jù)中心運(yùn)營(yíng)中安全問(wèn)題進(jìn)行快速定位與問(wèn)題分析。
監(jiān)控工具
監(jiān)控管理的目的并不是監(jiān)控工具本身,而是通過(guò)人工或技術(shù)的手段可以及時(shí)發(fā)現(xiàn)基礎(chǔ)設(shè)施與基礎(chǔ)架構(gòu)上的問(wèn)題,并按照既定的要求,將發(fā)現(xiàn)的問(wèn)題按照既定管理流程與工具,調(diào)動(dòng)相應(yīng)的技術(shù)、管理人員介入,zui終有效地解決數(shù)據(jù)中心中可能出現(xiàn)的事件、容量與可用性等問(wèn)題。因此,如何讓數(shù)據(jù)中心工作人員清楚在監(jiān)控工具中報(bào)出問(wèn)題后,應(yīng)如何執(zhí)行后續(xù)管理流程,避免錯(cuò)報(bào)、漏報(bào),成為監(jiān)控管理的一項(xiàng)重要挑戰(zhàn)。
業(yè)務(wù)監(jiān)控
數(shù)據(jù)中心提供的是信息服務(wù),也可以說(shuō)是業(yè)務(wù)服務(wù),獨(dú)立的對(duì)一臺(tái)設(shè)備進(jìn)行監(jiān)控已經(jīng)不能滿足未來(lái)的需求。對(duì)于管理人員來(lái)說(shuō),更關(guān)心的是數(shù)據(jù)中心提供的一個(gè)業(yè)務(wù)、一個(gè)服務(wù)是否能夠正常的運(yùn)行,因此,未來(lái)的監(jiān)控解決方案,需要更多的從業(yè)務(wù)及服務(wù)的層面出發(fā),將獨(dú)立的物理設(shè)備,與業(yè)務(wù)緊密關(guān)聯(lián),形成業(yè)務(wù)設(shè)備視圖,每個(gè)設(shè)備的可用性,都能夠反映到業(yè)務(wù)的可用性上。
虛擬化云監(jiān)控
虛擬化是未來(lái)數(shù)據(jù)中心的趨勢(shì),但監(jiān)控工具很難區(qū)分其監(jiān)控的服務(wù)器是一臺(tái)物理機(jī),還是一臺(tái)虛擬機(jī),也不可能知道硬件系統(tǒng)會(huì)對(duì)服務(wù)器可用性存在潛在影響,而虛擬化平臺(tái)的可用性直接影響到運(yùn)行在其之上的虛擬服務(wù)器的可用性。監(jiān)控軟件處理的應(yīng)該是主服務(wù)器硬件出現(xiàn)的問(wèn)題,但是如果主服務(wù)器處于危險(xiǎn)之中,那么任何在主機(jī)上運(yùn)行的虛擬機(jī)也面臨同樣的問(wèn)題,因此,虛擬化云環(huán)境的高可用性方案也會(huì)是未來(lái)的趨勢(shì)之一。
影響分析模型 業(yè)務(wù)監(jiān)控及虛擬化環(huán)境的基礎(chǔ)在于不同的設(shè)備間能夠建立清晰的管理,形成設(shè)備與設(shè)備的關(guān)系網(wǎng),這就需要建立CMDB(配置管理數(shù)據(jù)庫(kù)),它清晰的描述了每一臺(tái)設(shè)備的信息屬性,以及設(shè)備之間的關(guān)系。通過(guò)建立CMDB信息庫(kù),形成業(yè)務(wù)的影響模型,例如,以下是對(duì)一個(gè)在線交易系統(tǒng)進(jìn)行影響建模:
在這個(gè)交易系統(tǒng)的影響模型中,例如“存儲(chǔ)”發(fā)生故障,直接反應(yīng)出的是服務(wù)不可用,同時(shí)“在線交易系統(tǒng)”、“數(shù)據(jù)庫(kù)服務(wù)器”、“在線交易系統(tǒng)”皆為不可用狀態(tài),根據(jù)被依賴關(guān)系進(jìn)行分析,可以很直接的定位到故障原因,從而避免了逐個(gè)系統(tǒng)的進(jìn)行故障分析。