機房運維方案及巡檢
1.1 定期巡檢
每年巡檢4次/年,1次/季度
1.2、巡檢地點
計算機機房、精密空調、UPS
1.3、巡檢目的
進行機房檢查,對機房設備及供電系統(tǒng)、UPS系統(tǒng)、精密空調系統(tǒng)、錄像系統(tǒng)等設備進行檢查,及時發(fā)現(xiàn)設備隱患,排除故障。
1.4、巡檢要求
1.4. 1.巡檢期間,進行狀態(tài)檢查,若發(fā)現(xiàn)問題,如計算機機房物理環(huán)境異常、精密空調異常、UPS及配電系統(tǒng)異常等,應按照應急預案及操作流程進行處理。
(1)電源、UPS:檢查機房供電狀況,UPS工作情況、指示狀態(tài)。檢查UPS蓄電池使用狀態(tài),確保蓄電池無松動。并使用溫度槍進行檢測物理溫度。確保配電柜及UPS、蓄電池無溫度過高現(xiàn)象。
(2)機房環(huán)境:檢查機房衛(wèi)生狀況及物理環(huán)境。
(3)機房溫度:檢查溫濕度,將溫濕度控制在一定范圍內。溫度:22℃±5℃,濕度 ≤60%.
(4)機房空調:空調運行狀態(tài)、空調內部有無漏水現(xiàn)象、空調噪音、空調風量等。
(5)機房照明:機房照明系統(tǒng)是否正常,有無異常狀況。
(6)機房PDU:PDU市電或UPS是否正常,使用溫度槍進行檢測外部物理溫度。
(7)機房整體:檢查機房其余設備運行狀態(tài),有無報警及指示燈異常狀態(tài)。
1.4. 2.如果故障按恢復規(guī)程無法有效恢復,特別是當發(fā)生機房環(huán)境(動力、空調)故障、關鍵的設備、網絡、系統(tǒng)、服務如無法及時恢復時,應立即通知甲方相關,由相關協(xié)調資源進行故障處理。
1.4.3.故障處理過程必須在機房日常巡檢表的備注欄中詳細記錄,以備查閱。
1.5、計算機機房現(xiàn)場管理要求
1.除工作人員外,其他工作人員進出機房,需簽字后方可進入,同時計算機機房人員要在現(xiàn)場,檢查監(jiān)督其人員工作,避免其他人員未經擅自接觸機房物理設備。
2.機房的機柜、線纜、設備等的標簽管理;
3.機房環(huán)境清理。
1.6每次檢查內容列表
2、現(xiàn)場故障維修
每次巡檢過程中,如有發(fā)現(xiàn)設備及環(huán)境系統(tǒng)有故障狀態(tài),需進行記錄并恢復故障狀態(tài)。如不能立即恢復故障狀態(tài),則需進行應急預案處理。具體如下:
2.1 環(huán)境故障:衛(wèi)生、溫濕度、照明。(四級故障)
2.2 交換機故障:交換機蜂鳴,交換機啟動不正常,指示燈異常。(三級故障)
2.3 空調故障:空調壓縮機故障、空調冷凝水故障、空調漏水故障、空調制冷故障、空調加濕器故障等。(二級故障
2.4 UPS故障:UPS逆變故障、UPS旁路、UPS蓄電池溫度、UPS蓄電池外觀鼓包現(xiàn)象、UPS蜂鳴報警等(一級故障)
2.5 配電柜故障:配電柜內溫度過高、配電柜打火現(xiàn)象等。(一級故障)
在解決故障時,更大限度做好故障恢復的文檔,力爭恢復到故障點前的業(yè)務狀態(tài)。對于“系統(tǒng)癱瘓,業(yè)務系統(tǒng)不能運轉”的故障級別,如果不能于30分鐘內解決故障,應立即提出應急方案,確保業(yè)務系統(tǒng)的運行。故障解決后24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。故障類型、級別及相應標準列表:
3、后臺故障維修
后臺故障狀態(tài)維修,需要在甲方允許的情況下,對設備進行維護及維修。
3.1 質保期內的設備由我方查找故障原因并填寫故障申請單,交由甲方進行協(xié)調處理,并協(xié)助甲方進行故障排除及維修。如需聯(lián)系廠商,則由我方負責。
3.2 三級及四級故障狀態(tài),我方可自行進行維護和維修的設備,報由甲方同意后,我方自行進行設備維修,更換零配件部件等,并將維修記錄保存文檔交由甲方及我方雙方管理。
3.3 質保期外的設備出現(xiàn)故障,則由我方統(tǒng)一進行維修,費用由我方負責。并將維修記錄報由甲方確認并存檔。
3.4設備更換
對于無法修復的設備,在合同有效期內,經甲方審核,由乙方負責整體更換同型號或類似型號的產品,無法維修的設備交由甲方。更換單個備品備件費用大于等于500元時,報甲方審核同意,備品備件費用由甲方承擔; 更換單個備品備件小于500元時,備品備件費用由乙方承擔,質保期內由供貨商(廠商)進行更換的除外。
4、資產管理
4.1對硬件設備型號、數量、版本等信息統(tǒng)計記錄
4.2對軟件產品型號、版本和補丁等信息統(tǒng)計記錄
4.3 對機房設施設備連接統(tǒng)計記錄
4.4 對綜合布線系統(tǒng)結構圖的繪制
4.5 對機房更換設備連接統(tǒng)計記錄
4.6每月向甲方上報低值易耗品記錄,包括倉庫存儲情況、耗材使用情況。
4.7 機房更新及更換設備的統(tǒng)計
4.8 機房維護設備及備品備件的管理及記錄
5、應急處理
隨著網絡信息化建設的不斷深入,加強機房各類設備、系統(tǒng)以及信息與網絡安全等方面應對突發(fā)事件的處理能力將是我們目前面臨的一項重要任務。為確保系統(tǒng)及機房安全與穩(wěn)定,以保證正常運行為宗旨,按照“預防為主,積極處置”的原則,本著建立一個有效處置突發(fā)事件,建立統(tǒng)一指揮、職責明確運轉有序、反應迅速處置有力的機房安全體系的目標,將正在發(fā)生或已發(fā)生事故的損害程度減輕到更低,確保員工安全,特制定本應急處置預案。
本預案共分為應用系統(tǒng)故障應急流程和機房突發(fā)事件應急流程
系統(tǒng)故障應急流程
一、系統(tǒng)故障應急流程說明
1、故障發(fā)生
系統(tǒng)運維服務小組可從以下途徑得知故障的發(fā)生:
1.1、運維服務中心通過網管告警發(fā)現(xiàn)故障
1.2、維護站點通過維護巡檢發(fā)現(xiàn)故障
1.3、用戶發(fā)現(xiàn)故障,報給呼叫中心
1.4、駐場工程師發(fā)現(xiàn)故障
2、報障受理
監(jiān)控系統(tǒng)運維服務小組得知系統(tǒng)故障發(fā)生后,立即響應,并向報障人或單位詳細了解系統(tǒng)故障情況。
3、信息研判
運維服務小組根據了解到的系統(tǒng)故障情況進行分析判斷,以確定采用一般故障處理流程還是立即啟動系統(tǒng)突發(fā)故障應急處理預案。
4、預案啟動
如需啟動應急預案,則立刻通知系統(tǒng)突發(fā)故障應急小組,由小組啟動應急預案,對系統(tǒng)突發(fā)故障應急事件進行充分管控處理。
5、資源確認
系統(tǒng)突發(fā)故障應急預案啟動后,首先是根據現(xiàn)場突發(fā)故障實際狀況、緊急程度、技術難度、備品備件等情況對相關資源(主要是參與人員)依據經驗進行調度和確認,主要有以下資源:
我公司技術支持人員;
相關廠家技術支持人員;
我公司聘請的技術專家
6、預案執(zhí)行
按照既定的預案進行突發(fā)故障搶修,如遇到問題及時向系統(tǒng)突發(fā)故障應急小組匯報。
7、預案終止
預案的終止時間由故障現(xiàn)場技術人員根據現(xiàn)場的實際進展情況,在與用戶單位有關部門協(xié)調后報系統(tǒng)突發(fā)故障應急小組決定。
8、結果上報
預案中止后,相關預案參與人員將整個事件過程中的經驗和教訓,修改、完善事件應急預案。然后集中上報至系統(tǒng)突發(fā)故障應急小組。
二、 系統(tǒng)故障應急處理流程圖