服務(wù)器常見(jiàn)故障的診斷與解決
A:網(wǎng)絡(luò )管理員90%的工作往往是診斷和解決各種各樣的故障。雖然說(shuō)沒(méi)有人喜歡麻煩,但麻煩總是自己找上門(mén)來(lái)。只有擁有高超的診斷技能,你才能在緊急情況下迅速響應,保障網(wǎng)絡(luò )流暢地運行。當你面臨網(wǎng)絡(luò )故障的挑戰時(shí),首先向自己?jiǎn)?wèn)幾個(gè)簡(jiǎn)單的問(wèn)題:有哪些地方被改變了?這個(gè)問(wèn)題以前遇到過(guò)嗎?如果是,是什么時(shí)候?是否有可能讓問(wèn)題再次出現?用戶(hù)做了什么特別的*作嗎?其他用戶(hù)有沒(méi)有遇到過(guò)同樣的問(wèn)題?
接下來(lái)嘗試隔離問(wèn)題,每次排除一部 分可能引起該問(wèn)題的因素,逐步找出問(wèn)題的真正根源。例如,如果一個(gè)工作站不能連接到服務(wù)器,那就先確定是網(wǎng)絡(luò )問(wèn)題還是工作站本身的問(wèn)題。如果能夠迅速地肯定問(wèn)題出在工作站本身,你就排除了一大半可能導致問(wèn)題的因素,向真正的故障根源接近一大步了。即使你最終拿不出解決辦法,不得不尋找外援,隔離問(wèn)題也會(huì )節省你大量的時(shí)間。
為了說(shuō)明診斷網(wǎng)絡(luò )故障的一般過(guò)程,本文例舉了幾種故障情形,有的是常見(jiàn)的小問(wèn)題,有的是比較艱巨的挑戰。當你遇到類(lèi)似的問(wèn)題時(shí),就可以按照本文例子的介紹,先問(wèn)自己幾個(gè)簡(jiǎn)單的問(wèn)題,逐步隔離問(wèn)題所在,最后找到真正的問(wèn)題根源。
一、找不到驗證密碼的域服務(wù)器
毫無(wú)疑問(wèn),你也一定遇到過(guò)這樣的情形:當你坐在一臺工作站之前準備登錄網(wǎng)絡(luò ),Windows卻報告說(shuō)找不到用來(lái)驗證密碼的域服務(wù)器。要解決這個(gè)故障,首先要確定問(wèn)題到底出在網(wǎng)絡(luò )、工作站還是服務(wù)器上。從下面幾個(gè)問(wèn)題開(kāi)始:
-哪些地方改變了?最近是否改動(dòng)過(guò)網(wǎng)絡(luò ),而這些改動(dòng)可能導致當前的問(wèn)題?有沒(méi)有添加新的服務(wù)器、拆除原有的服務(wù)器、改動(dòng)過(guò)交換機或HUB?有沒(méi)有添加或減少域控制器、將成員服務(wù)器提升為DC(域控制器)或者相反?
-其他工作站也存在類(lèi)似的問(wèn)題嗎?
-服務(wù)器正在運行嗎?
經(jīng)過(guò)檢查,你發(fā)現此前工作站一直順利地運行,其他工作站沒(méi)有遇到類(lèi)似的問(wèn)題,服務(wù)器也正常。根據故障現象,基本上可以確定故障出在工作站本身。接下來(lái)要確定工作站的那個(gè)地方出了故障,試試下面幾個(gè)問(wèn)題:
-工作站能夠Ping到服務(wù)器嗎?
-工作站獲得了一個(gè)IP地址嗎?
檢測表明,工作站能夠Ping到服務(wù)器,但Ping*作有時(shí)超時(shí),這表明工作站和服務(wù)器之間只有斷斷續續的通信。在命令行上執行ipconfig /renew命令,多執行幾次,工作站有時(shí)會(huì )更新IP地址,有時(shí)不會(huì )。這是工作站和服務(wù)器之間斷續通信的癥狀。
現在將問(wèn)題工作站的網(wǎng)絡(luò )連接和另一臺工作站的對換一下,新工作站在問(wèn)題工作站的位置上也不能連接網(wǎng)絡(luò ),而問(wèn)題工作站卻能從另一個(gè)網(wǎng)絡(luò )位置順利地連接網(wǎng)絡(luò )?,F在已經(jīng)很清楚:?jiǎn)?wèn)題工作站所在位置的電纜或Hub出了問(wèn)題。
拆下故障位置上網(wǎng)絡(luò )電纜連接Hub的那一端,將它接到另一個(gè)Hub上,故障依舊?,F在可以肯定電纜就是引起故障的罪魁禍首了。
二、Windows服務(wù)不能啟動(dòng)
在一臺Windows 2000服務(wù)器上,部分服務(wù)設置成不用本地的系統帳戶(hù)啟動(dòng)。一次重新啟動(dòng)Windows 2000服務(wù)器之后,發(fā)現這些服務(wù)沒(méi)有啟動(dòng),必須手工打開(kāi)服務(wù),重新輸入密碼,然后啟動(dòng)服務(wù)。每次重新輸入密碼,都收到消息說(shuō):〈用戶(hù)名字〉已被授予作為服務(wù)登錄的權限。
要解決該故障,首先回答下面幾個(gè)問(wèn)題:
-哪些地方改變了?是否有人修改了服務(wù)器?
-這個(gè)服務(wù)以前能夠啟動(dòng)嗎?
-用戶(hù)名稱(chēng)和密碼正確嗎?
查詢(xún)修改記錄發(fā)現,該服務(wù)器是一個(gè)DC,不久之前還是域控制器組織單元(OU,Organizational Unit)的成員。在移出該OU之前,這些服務(wù)一直能夠順利啟動(dòng)。另外,用來(lái)啟動(dòng)這些服務(wù)的用戶(hù)名稱(chēng)和密碼都是合法的。進(jìn)一步研究發(fā)現,域控制器OU的成員有一些特殊的權限,其中包括作為服務(wù)登錄的權限。當出現問(wèn)題的服務(wù)器移出該OU時(shí),服務(wù)器失去了那些權限?,F在要做的是恢復服務(wù)器的權限。
要將權限授予服務(wù)器,請按照如下步驟*作:
-在管理控制臺(MMC)中打開(kāi)活動(dòng)目錄用戶(hù)和計算機管理單元,再打開(kāi)域控制器OU的“屬性”對話(huà)框。
-在組策略頁(yè)中,點(diǎn)擊“默認域控制器策略”,然后點(diǎn)擊“編輯”,打開(kāi)組策略管理器。
-依次擴展計算機配置/Windows設置/安全設置,再擴展“本地策略”,然后點(diǎn)擊“用戶(hù)權利指派”。
-在右邊的窗格中,右擊“作為服務(wù)登錄”,選擇菜單“安全”。
-把用來(lái)啟動(dòng)服務(wù)的用戶(hù)帳戶(hù)加入到策略,完成后點(diǎn)擊“確定”。
有關(guān)該問(wèn)題的更多資料,請參見(jiàn)微軟的文章“如何解決服務(wù)啟動(dòng)權限問(wèn)題”(http://support.microsoft.com/?kbid=259733)。
三、無(wú)法收到外面發(fā)來(lái)的郵件
單位用Exchange 2000 Server作為內部和外部的郵件服務(wù)器。有一天原來(lái)的ISP不能再提供服務(wù)了,所以你迅速換了一個(gè)新的ISP。用戶(hù)仍舊能夠照常訪(fǎng)問(wèn)Internet,卻收不到外面來(lái)的郵件。不過(guò),發(fā)出去的郵件看來(lái)沒(méi)有問(wèn)題。
要排解這一故障,第一個(gè)要問(wèn)的問(wèn)題是:
-在改變ISP之前,郵件系統工作正常嗎?
要確定Exchange Server是否正常工作,防火墻配置是否正確,可以從Internet連接到Exchange Server 25端口(具體*作辦法,請參見(jiàn)微軟文章:Telnet 到 IMC 的端口 25 以測試 IMC 通信, http://support.microsoft.com/?kbid=153119),發(fā)送一個(gè)測試消息,確認服務(wù)器和防火墻都在正常運行。故障的原因很可能是因為改變ISP。
再回答下面這個(gè)問(wèn)題:
-域名信息正確轉移到了新的ISP嗎?
用Nslookup工具,測試一下是否能夠找到域的郵件交換(MX)記錄,結果卻什么也沒(méi)有找到。根據這一現象,可以推斷在更換ISP時(shí),域名注冊公司沒(méi)有正確轉移域名信息?,F在你可以聯(lián)系域名注冊公司,要求登記MX記錄,以及將域名信息正確轉到新的ISP。只要MX記錄在Internet上一傳播開(kāi),Exchange Server又可以收到外面來(lái)的郵件了。
四、網(wǎng)絡(luò )上看不到服務(wù)器
Win2K Pro工作站遇到了奇怪的問(wèn)題:偶爾能夠看到Win 2K Server,但大部分時(shí)間里服務(wù)器就象從網(wǎng)絡(luò )上消失了一樣。在排解這一網(wǎng)絡(luò )故障的過(guò)程中,首先要回答的問(wèn)題是:
-過(guò)去出現過(guò)該故障嗎?
-是否所有的工作站都出現相同的情況?
經(jīng)調查后發(fā)現,這一故障現象自服務(wù)器從 Windows NT 4.0升級到Win2K就開(kāi)始存在了,網(wǎng)絡(luò )上的所有工作站都出現同樣的現象?,F在要確定的是:故障的根源是服務(wù)器呢,還是網(wǎng)絡(luò )。
登錄一個(gè)工作站,打開(kāi)命令控制臺,執行ping/pathping命令來(lái)連接服務(wù)器。結果發(fā)現,Ping服務(wù)器的IP地址沒(méi)有問(wèn)題,但卻Ping不到服務(wù)器的名字??梢钥隙?,故障的原因是名稱(chēng)解析或DNS錯誤。
接下來(lái)執行ipconfig/all,注意到工作站上DNS服務(wù)器指向了ISP的DNS服務(wù)器。Win2K將DNS作為其基本的名稱(chēng)解析機制,但現在工作站卻用ISP的DNS服務(wù)器來(lái)解析本地網(wǎng)絡(luò )的Win2K服務(wù)器名稱(chēng)。當工作站向ISP的DNS服務(wù)器查詢(xún)Win2K服務(wù)器名稱(chēng)時(shí),只能得到超時(shí)錯誤,導致Win2K服務(wù)器從網(wǎng)絡(luò )上隱身了。要解決該故障,必須把主DNS服務(wù)器指向內部的Win2K DNS服務(wù)器,讓內網(wǎng)的工作站向Win2K DNS服務(wù)器查詢(xún)本地服務(wù)器名稱(chēng)。
首先證實(shí)Win2K服務(wù)器上確實(shí)已經(jīng)安裝了DNS服務(wù),且DNS服務(wù)在正常運行,然后修改Win2K DNS服務(wù)器IP地址指向它自己。接下來(lái)利用DNS管理器,驗證DNS服務(wù)器位于根位置,且已經(jīng)啟用轉發(fā)。啟用轉發(fā)之后,就可以解析非本地的任何IP地址了。不要忘記將ISP的DNS服務(wù)器輸入轉發(fā)欄。最后配置一下服務(wù)器上的DHCP,將DNS服務(wù)器從ISP的改成Win2K服務(wù)器,刷新工作站上的IP地址?,F在網(wǎng)絡(luò )已經(jīng)能夠穩定地運行了。有關(guān)在這類(lèi)環(huán)境下配置DNS的信息,請參見(jiàn)微軟的文章“HOW TO:配置 DNS 以訪(fǎng)問(wèn) Internet”(http://support.microsoft.com/?kbid=300202)。
五、LAN連接到多個(gè)WAN
不久前在A市安裝了一個(gè)LAN,它有兩個(gè)WAN連接,其中一個(gè)連接通向私有的幀中繼網(wǎng)絡(luò ),另一個(gè)連接通向Internet,這是為了防止出現故障和提高性能(圖二顯示了網(wǎng)絡(luò )結構)?,F在出現的故障是:A市的用戶(hù)有時(shí)不能順利訪(fǎng)問(wèn)B市的服務(wù)器。
要解決該故障,首先要搞清楚下面兩個(gè)問(wèn)題:
-故障何時(shí)出現?
-默認網(wǎng)關(guān)是什么?
故障出現是間歇性的。在A市的DHCP配置中,默認網(wǎng)關(guān)是192.168.1.11(即防火墻)。由于A市LAN里面的所有機器都會(huì )出現同樣的故障現象,所以問(wèn)題很可能出在A市網(wǎng)絡(luò )上的全局性路由配置上。
在防火墻上有一條靜態(tài)路由,從192.168.2.0(掩碼255.255.255.0)到192.168.1.10,用Route Print可以驗證這一規則。A市服務(wù)器有時(shí)可以Ping到B市的服務(wù)器,但有時(shí)不能。運行Tracert,結果如圖三所示,它顯示出了數據包應當通過(guò)的路徑。但有的時(shí)候,運行Tracert卻顯示出數據包在第一個(gè)躍點(diǎn)(192.168.1.11)之后遇到超時(shí)錯誤。根據這一現象,可以推測防火墻沒(méi)有可靠地將數據包轉發(fā)到控制192.168.2.0通信的Cisco路由器。
查閱防火墻的日志,可以看到數據包有時(shí)被禁止轉發(fā)到192.168.1.10,雖然存在這樣一條轉發(fā)規則也無(wú)濟于事。防火墻的種類(lèi)很多,但大多數防火墻廠(chǎng)商都反對將防火墻當作路由器,如果防火墻被攻擊者劫持,有關(guān)WAN連接的大量信息就會(huì )泄露。
因此現在要重新配置網(wǎng)絡(luò ),使用默認的網(wǎng)關(guān)192.168.1.10(即路由器),執行命令Ip route 0.0.0.0 0.0.0.0 192.168.1.11在路由器上建立一個(gè)默認的路由。用戶(hù)訪(fǎng)問(wèn)Internet時(shí)先通過(guò)路由器,再穿越防火墻。
如果A市的路由器(192.168.1.10)出現故障,會(huì )對Internet訪(fǎng)問(wèn)產(chǎn)生哪些影響?如果幀中繼網(wǎng)絡(luò )失效,但Internet連接仍正常,情況又如何?一旦A市的路由器故障,Internet連接也會(huì )丟失,這是因為默認的網(wǎng)關(guān)指向了該路由器,該路由器故障導致數據包不能轉發(fā)到防火墻。在A市,將DHCP默認網(wǎng)關(guān)配置成防火墻可以恢復Internet連接,當然,在恢復A市路由器之前,其他地區的私有WAN和Internet訪(fǎng)問(wèn)仍舊無(wú)效。
六、工作站不能連接網(wǎng)絡(luò )
辦公大樓五樓的工作站看不到服務(wù)器,也不能訪(fǎng)問(wèn)Internet。故障間歇性出現。首先要搞清楚的問(wèn)題是:
-故障出現多長(cháng)時(shí)間了?
-有哪些地方被改變了?
經(jīng)Pathping工具測試,檢測到一些數據包丟失錯誤。問(wèn)題看來(lái)可以歸結到五樓之內。
利用信號發(fā)生器或線(xiàn)纜掃描器追蹤故障,跟蹤網(wǎng)絡(luò )連接一直到了六樓的Ethernet交換機,五樓和六樓共用該交換機??紤]到可能是交換機端口故障,所以將端口和六樓的一臺機器對換了一下,但故障仍舊存在,而且仍只出現在五樓的工作站上,由此推斷,交換機應該沒(méi)有問(wèn)題。
返回五樓,注意到一個(gè)辦公室里有個(gè)五口的小Hub。進(jìn)一步查看,注意到還有四個(gè)小Hub菊形相連?,F在故障的根源找到了。在100 Base-T Ethernet中,每個(gè)網(wǎng)絡(luò )只能有一個(gè)Class I轉發(fā)躍距(0.7毫秒延遲),或者兩個(gè)Class II轉發(fā)躍距(0.4毫秒延遲)(由于這個(gè)原因,所以不推薦在重要場(chǎng)合使用大量小Hub)?,F在拆除所有小Hub,將線(xiàn)頭直接接到六樓的交換機,故障消失。
總地來(lái)說(shuō),不能認為靠死記硬背就能夠解決所有常見(jiàn)的網(wǎng)絡(luò )問(wèn)題,相反地,應當以開(kāi)放的心態(tài)審視每一種故障現象,從幾個(gè)簡(jiǎn)單的問(wèn)題開(kāi)始,逐步排除可能的故障原因。記住,隔離問(wèn)題是迅速排解故障的關(guān)鍵所在。
七、附錄:常用網(wǎng)絡(luò )診斷工具
Windows XP和Windows 2000提供了許多基本的網(wǎng)絡(luò )檢測工具:
■ Pathping
Pathping用來(lái)檢驗是否能夠聯(lián)系到指定的主機。命令行語(yǔ)法是:pathping 。pathping將顯示出數據包丟失情況的基本信息。
■ Ipconfig
Ipconfig命令用來(lái)顯示出工作站的IP配置。命令行語(yǔ)法是:ipconfig /all。通過(guò)ipconfig命令的運行結果,至少可以:
-驗證工作站具有正確的IP地址和子網(wǎng)掩碼。錯誤的IP地址和子網(wǎng)掩碼會(huì )導致連接出錯。 -如果啟用了DHCP,則可以驗證工作站已經(jīng)租到了一個(gè)IP地址。如果不能獲得IP地址,則表明與DHCP服務(wù)器聯(lián)系方面出了問(wèn)題。
-驗證默認的網(wǎng)關(guān)。如果網(wǎng)關(guān)錯誤,連接遠程網(wǎng)絡(luò )或Internet時(shí)就會(huì )出現問(wèn)題。
-驗證DNS服務(wù)器。XP和Win 2K依靠DNS進(jìn)行名稱(chēng)解析。一般地,工作站應當指向一臺Win 2K服務(wù)器以獲得DNS解析。
■ Nslookup
Nslookup即名稱(chēng)服務(wù)器查找(Name Server Lookup),用來(lái)查找DNS服務(wù)器上的DNS記錄。命令語(yǔ)法:nslookup。在前文的例子中,我們用NSLookup來(lái)驗證郵件交換(MX)記錄,排解Internet郵件傳送問(wèn)題。
■ Route Print
Route Print命令顯示出本地機器上的路由規則。這個(gè)工具和Ping、Tracert以及Pathping命令結合很有用,能夠幫助確定數據包通過(guò)的路由器。命令語(yǔ)法是:route print。另外,利用Route Add可以將靜態(tài)路由規則加入到服務(wù)器或工作站。
聯(lián)系客服