【摘要】
對應Exchange而言,DAG僅僅是使用了故障轉移群集的部分功能,如群集數據庫、群集心跳、仲裁等,但如共享資源等則不在依賴(lài)故障轉移群集。從整體上看,DAG對故障轉移群集依賴(lài)較小,其管理更是可通過(guò)Exchange工具完全實(shí)現。本文將分享Window故障轉移群集名稱(chēng)資源脫機時(shí)對Exchange影響及其處理過(guò)程。
【正文】
用戶(hù)在某個(gè)工作日發(fā)現EV存檔失敗,將該問(wèn)題提交至EV工程師分析,得到回復是群集IPping不通。經(jīng)過(guò)溝通確認,EV存檔是需要同群集IP通信后獲取節點(diǎn)進(jìn)而對節點(diǎn)下的數據庫進(jìn)行存檔備份。
檢查郵箱服務(wù)器,發(fā)現數據庫狀態(tài)、用戶(hù)郵箱使用均正常。打開(kāi)故障轉移群集管理器,查看群集狀態(tài),發(fā)現節點(diǎn)、網(wǎng)絡(luò )均正常,群集核心資源中顯示群集名稱(chēng)脫機、文件共享見(jiàn)證失敗。
綜合來(lái)看,應該是由于群集名稱(chēng)脫機導致EV存檔問(wèn)題,該問(wèn)題不影響用戶(hù)郵箱正常使用。

圖1-1

圖1-2
a.檢查數據庫狀態(tài);
b.檢查用戶(hù)郵箱、郵件流等;
c.檢查群集日志;
d.檢查郵箱服務(wù)器應用程序日志;
e.檢查文件共享見(jiàn)證設置的共享文件夾狀態(tài)。
通過(guò)以上幾步檢查,可以確認:
? 數據庫、用戶(hù)郵箱收發(fā)等均正常;
? 檢查群集日志可以發(fā)現在群集日志中有ID為1135的報錯,提示“群集節點(diǎn)已停止群集服務(wù)”(見(jiàn)圖2-1);
? 在各節點(diǎn)的應用程序日志中在相近時(shí)間節點(diǎn)均有ID1135 的報錯,報錯時(shí)間有先后之分,且時(shí)間與最近網(wǎng)絡(luò )變更事件吻合(見(jiàn)圖2-2);
? 群集文件共享見(jiàn)證文件夾存在服務(wù)器上,但顯示未共享;

圖2-1

圖2-2
根據查到的日志報錯及故障前的網(wǎng)絡(luò )變更,可以確認是由于網(wǎng)絡(luò )變更導致DAG各節點(diǎn)群集服務(wù)器停止,進(jìn)而引起群集資源異常脫機。
根據報錯ID 1135和故障現象,可以查詢(xún)到有以下幾種可能原因:
1)群集節點(diǎn)網(wǎng)絡(luò )禁用“Allow This Network to AccessBy Clients”設置;
2)群集節點(diǎn)網(wǎng)絡(luò )跨多網(wǎng)段,虛擬群集IP未配置多IP;
3)群集資源名稱(chēng)在AD中被刪除;
4)仲裁失敗導致。
按照以上查詢(xún)結果,分別進(jìn)行確認,1~3均可排除,4從理論上可能在網(wǎng)絡(luò )故障時(shí)引起群集節點(diǎn)切換異常導致群集運行異常。按照這種分析,可以嘗試先恢復仲裁設置,再恢復群集名稱(chēng)資源的聯(lián)機。
1)直接點(diǎn)擊將文件共享見(jiàn)證資源聯(lián)機,提示“操作時(shí)間超過(guò)預期時(shí)間”;
2)新建共享文件夾,然后添加新的文件共享見(jiàn)證,提示“操作時(shí)間超過(guò)預期時(shí)間”
1)選擇群集名稱(chēng),點(diǎn)擊聯(lián)機,提示“操作時(shí)間超過(guò)預期時(shí)間”
通過(guò)3.1、3.2嘗試,可以初步判斷群集目前無(wú)法正常運轉,常規操作無(wú)法進(jìn)行處理。在這種情況下,重啟下“群集”嘗試恢復群集,即重啟群集當前主服務(wù)器,強制群集進(jìn)行切換。
在對數據庫進(jìn)行手動(dòng)切換后,保證當前主服務(wù)器未掛載活動(dòng)數據庫,重啟服務(wù)器。重啟后,群集自動(dòng)切換至另一臺節點(diǎn),群集名稱(chēng)資源及文件共享見(jiàn)證自動(dòng)恢復聯(lián)機,檢查服務(wù)器其他服務(wù)均正常。
從故障現象、影響及最終解決方法來(lái)看,本次故障直接原因是網(wǎng)絡(luò )變更調整,間接原因是文件共享見(jiàn)證失效,根本原因是群集運行不正常,通過(guò)切換,恢復了群集的正常運行,進(jìn)而正常連接回群集名稱(chēng)資源和文件共享見(jiàn)證。
從本次故障處理,總結有以下幾點(diǎn)注意事項:
? 生產(chǎn)環(huán)境變更操作在非生產(chǎn)時(shí)間進(jìn)行;
? 涉及郵箱服務(wù)器重啟,需提前切換數據庫,確保重啟期間用戶(hù)使用;
? 在問(wèn)題無(wú)明顯思路時(shí),重啟不失為一個(gè)好的嘗試方法,當然前提是不會(huì )造成其他影響。
聯(lián)系客服