| 初步了解&問(wèn)題描述: 前幾天接到一位朋友求助,一個(gè)150多臺機器的有盤(pán)換無(wú)盤(pán)的網(wǎng)吧,用了2臺系統虛擬盤(pán)服務(wù)器,1臺游戲虛擬盤(pán)服務(wù)器,說(shuō)是裝了網(wǎng)維大師系統虛擬盤(pán)1個(gè)月之后,大概每天晚上8~10點(diǎn)左右開(kāi)始頻繁出現客戶(hù)機集體卡死,然后藍屏,藍屏代碼77或者7e居多,重啟后,卡在dhcp分配ip結束之后的界面上不動(dòng),重啟網(wǎng)維大師系統虛擬盤(pán)服務(wù)之后就好,偶爾在凌晨2點(diǎn)左右也會(huì )出現這種問(wèn)題。 后來(lái)?yè)Q了個(gè)交換機好了一個(gè)星期,之后又開(kāi)始出現類(lèi)似問(wèn)題,部分客戶(hù)機卡死,藍屏重啟,重啟后到dhcp分配完ip界面就卡死的問(wèn)題,必須重啟系統虛擬盤(pán)服務(wù)才會(huì )恢復正常。 折騰了一個(gè)多星期了都無(wú)果,老板已經(jīng)要抓狂了,因為每天都會(huì )出問(wèn)題,顧客已經(jīng)是怨聲載道,生意逐步開(kāi)始滑落…… 初步判斷: 根據初次了解的情況來(lái)看,有點(diǎn)糾結,首先第一個(gè)非??梢傻牡胤?,最初是正常的,用了大概一個(gè)月之后開(kāi)始出現問(wèn)題,期間未更換過(guò)軟件版本,都是最新的1010,所以初步定位是硬件故障所致,用了一段時(shí)間之后可能因為硬件質(zhì)量或者壽命的關(guān)系,出現了問(wèn)題。因為這位兄臺說(shuō),換了交換機之后好了一段時(shí)間,根據個(gè)人的經(jīng)驗來(lái)說(shuō),一個(gè)普通的傻瓜交換機,背板也有48Gbps的帶寬,在150臺機器的網(wǎng)吧做核心交換機肯定是夠的,于是建議他把下面接入交換機D-LINK2204拿去做核心交換機觀(guān)察。 但是這個(gè)問(wèn)題另外一個(gè)奇怪的地方,每天晚上8~10點(diǎn)左右最?lèi)?ài)出問(wèn)題,根據絕大部分網(wǎng)吧的上座率來(lái)分析,這個(gè)時(shí)間段應該是人比較多,問(wèn)了一下這個(gè)時(shí)間段人是比較多,但是白天人也挺多,而且有時(shí)候人少時(shí)也會(huì )出現問(wèn)題,所以判斷這個(gè)時(shí)間段愛(ài)出問(wèn)題有可能是巧合,或者是人為破壞,也可能是和凈網(wǎng)先鋒等某些部門(mén)的監管軟件有關(guān)系,所以就建議他把網(wǎng)吧的這類(lèi)服務(wù)器關(guān)掉測試。 最后一個(gè)疑點(diǎn),重啟服務(wù)就好,所以除了硬件故障也可能是軟件自身bug,雖然俺在順網(wǎng)上班,但是處理問(wèn)題還是蠻公正的,畢竟是新產(chǎn)品,難免出現bug,于是根據自己對軟件的一些了解,來(lái)排查軟件上可能遇到的問(wèn)題,于是就遠程連接服務(wù)器,查看軟件日志,發(fā)現在我朋友說(shuō)重啟的時(shí)間范圍內,確實(shí)發(fā)現軟件重啟的記錄,但是后來(lái)才得知,我所看到的軟件重啟記錄無(wú)論是程序自己掛掉,還是手工重啟服務(wù)(后面分享如何判斷服務(wù)是掛掉了,還是因為手工重啟了服務(wù)),都會(huì )看到這條記錄,所以當時(shí)詢(xún)問(wèn)朋友的現象只是,當客戶(hù)機卡死時(shí),服務(wù)器進(jìn)程還在不在,比如ControlServer.exe和DiskLessServer.exe,或者當時(shí)服務(wù)器cpu使用率和網(wǎng)絡(luò )使用率是否很高,但是當時(shí)只觀(guān)察了一次,發(fā)現進(jìn)程是在的,cpu使用率不高,網(wǎng)絡(luò )利用率沒(méi)注意,那么按照這個(gè)說(shuō)法來(lái)看,說(shuō)明服務(wù)并沒(méi)自動(dòng)崩潰,軟件的重啟日志是因為客戶(hù)機卡死之后,手工重啟服務(wù)導致的,此時(shí)陷入冥想,只好先把日志發(fā)給同事分析,結果說(shuō)是有很多客戶(hù)機的網(wǎng)絡(luò )連接被關(guān)閉掉了,問(wèn)題可能處在網(wǎng)絡(luò )上,于是這點(diǎn)也驗證了換交換機后好了一周的說(shuō)法,那么重啟服務(wù)就好的疑團還是無(wú)法揭開(kāi),于是建議朋友用memtest測試服務(wù)器內存是否有問(wèn)題,用硬盤(pán)哨兵測試硬盤(pán)是否有問(wèn)題,但是因為測試內存需要停止服務(wù),為了不影響客戶(hù)機使用,之后次日觀(guān)察。 深度糾結: 時(shí)間很快,一日過(guò)去了,測試也初步有了結果: 1、交換機換了,仍然有掛的。 2、測試內存,無(wú)壞塊,測試硬盤(pán)無(wú)錯誤記錄,包括系統日志也全無(wú)磁盤(pán)錯誤記錄,完全正常。 3、再看軟件日志,還是和之前的日志無(wú)兩樣。 說(shuō)實(shí)話(huà),這個(gè)反饋結果完全是出乎意料的,因為按照經(jīng)驗來(lái)說(shuō),軟件雖然是新出的,但是穩定性還真沒(méi)這么差的,既然之前分析日志是說(shuō)網(wǎng)絡(luò )斷開(kāi),那么再從網(wǎng)絡(luò )上入手吧,結果發(fā)現網(wǎng)卡做了匯聚,而實(shí)際上當前測試的交換機是不支持匯聚的,同時(shí)這塊主板上集成的2塊網(wǎng)卡也不是同一型號,一個(gè)pci-e的,一個(gè)pci的,于是建議朋友把網(wǎng)卡匯聚拆掉再觀(guān)察。 時(shí)間還是很快,又一日過(guò)去了,測試也有了再次反饋: 1、網(wǎng)卡匯聚取消了,仍然會(huì )掛…… 到這里我一定要暈一下 ,完全沒(méi)有道理嘛,想想前因后果,問(wèn)題51%以上是處在硬件上,后來(lái)在測試過(guò)程中發(fā)現服務(wù)進(jìn)程都在的,而且軟件的服務(wù)重啟日志都是手動(dòng)的,并沒(méi)自動(dòng)崩潰的記錄,那么硬件故障幾率可以提升到90%以上了,于是建議朋友拿一臺客戶(hù)機做測試,弄3塊全新的回寫(xiě)盤(pán)來(lái)做測試,來(lái)排除服務(wù)器主板自身問(wèn)題,或者集成網(wǎng)卡問(wèn)題,或者是硬盤(pán)檢測不到的錯誤來(lái)排除問(wèn)題,……另外把2個(gè)服務(wù)器分開(kāi)帶機,一個(gè)服務(wù)器帶一部分,看看客戶(hù)機掛掉時(shí),到底是哪個(gè)服務(wù)器上掛的。 就在百般糾結無(wú)語(yǔ)之時(shí),問(wèn)題另一頭的哥們發(fā)現服務(wù)器中毒了,遠程一看,OMG,確實(shí)是中毒了,而且服務(wù)端的程序都感染了病毒,中的還是很令人抓狂的Win32.Almanahe.D病毒,這個(gè)病毒就類(lèi)似威金一樣,會(huì )破壞執行程序…… ![]() ![]() 連游戲虛擬盤(pán)也一起都中毒了…… ![]() ![]() 此時(shí)終于豁然開(kāi)朗,nnd,估計是病毒搞出來(lái)的亂子,因為問(wèn)題搞了很久,發(fā)現一線(xiàn)希望,當然啥問(wèn)題都往病毒上想了,于是認為此次問(wèn)題是由于病毒引起的,不覺(jué)間,大家心情都好了一下,于是開(kāi)始處理病毒,由于工程太過(guò)浩蕩,服務(wù)器,客戶(hù)機,游戲處理病毒,一天過(guò)去了……(這里的感染型病毒處理方法后面分享) 一日之后,病毒終于搞定,服務(wù)器,客戶(hù)機,拿軟件掃描橫直都沒(méi)病毒了,那就觀(guān)察吧,一面看電影,一面等崩潰,時(shí)間一點(diǎn)一點(diǎn)的過(guò)去,來(lái)到了北京時(shí)間8點(diǎn)整,等啊等,噩耗一直沒(méi)有傳來(lái),一直加班等到晚上12點(diǎn),依然沒(méi)事,真是滿(mǎn)心歡喜,跟朋友聯(lián)系說(shuō),先觀(guān)察下吧,估計就是病毒問(wèn)題,先回家洗洗誰(shuí)了,到家1點(diǎn)左右,再上網(wǎng)詢(xún)問(wèn)出問(wèn)題沒(méi)?得到的答案是,沒(méi)出問(wèn)題,于是安心睡了…… 結果第二天上班,一上QQ,nnd,又報告崩潰,我也差點(diǎn)跟著(zhù)崩潰了,見(jiàn)過(guò)糾結的,沒(méi)見(jiàn)過(guò)這么糾結的,無(wú)語(yǔ),遠程看來(lái)是搞不定了,腦袋呈現糊狀,到現場(chǎng)搞吧,于是一路上不管任何疑云,一點(diǎn)一點(diǎn)理思路,到了現場(chǎng),期間朋友對我的訴苦,煙酒過(guò)程略1000字 ,接著(zhù)處理問(wèn)題吧。 逐步觀(guān)察以下問(wèn)題: 1、服務(wù)器分開(kāi)帶,看看到底是哪些機器掛的。 2、客戶(hù)機掛的時(shí)候到底是什么狀態(tài)。 3、客戶(hù)機掛的時(shí)候,服務(wù)器什么狀態(tài),能否ping通,進(jìn)程是否在,cpu使用率是否高,網(wǎng)絡(luò )利用率是否高。 4、用性能監視器看當時(shí)的服務(wù)器壓力是否非常高。 5、某些部門(mén)的服務(wù)器是否都關(guān)掉了,是否有系統錯誤日志。 6、用windbg監控服務(wù)進(jìn)程,做服務(wù)進(jìn)程崩潰的dump提取,以便分析問(wèn)題。 一頓理論與思路分享完畢,開(kāi)始等待出問(wèn)題,到晚上8點(diǎn)還早,于是先把所有機器開(kāi)一遍,看看是否是因為某個(gè)機器的網(wǎng)線(xiàn)被老鼠咬了,導致內網(wǎng)問(wèn)題,結果所有機器開(kāi)啟來(lái),依然沒(méi)問(wèn)題,至此確定客戶(hù)機是正常的,再看看交換機,燈閃的也正常,沒(méi)啥異常,于是百無(wú)聊賴(lài)的等待現象出現。時(shí)間滴答滴答的過(guò)去了,來(lái)到了出問(wèn)題的時(shí)間,各種遠程桌面打開(kāi),性能監視器打開(kāi),windbg打開(kāi),任務(wù)管理器打開(kāi),ping監控打開(kāi),開(kāi)始監控,說(shuō)到這里要好好bs下自己,出問(wèn)題的時(shí)候所有客戶(hù)機都會(huì )掛掉,結果當時(shí)就在無(wú)盤(pán)客戶(hù)機上監控,結果過(guò)了一會(huì ),果然掛掉了,一操作自己機器,發(fā)現也卡住不動(dòng)了 nnd,結果就是啥都沒(méi)監控到,一次機會(huì )錯過(guò)去了……只好等待下個(gè)機會(huì ),然后就是觀(guān)察,發(fā)現當時(shí)機器不是所有都掛了,只是部分掛了,但是看交換機分布,2臺服務(wù)器上都有客戶(hù)機掛掉,于是認為服務(wù)器可能性不太大,否則怎么可能2臺服務(wù)器上負載的客戶(hù)機都有掛的呢?疑惑歸疑惑,還要繼續排查問(wèn)題。。。 終于次日的崩潰時(shí)間又到了,客戶(hù)機大部分機器掛掉的現象也出現了,但是當時(shí)看服務(wù)器沒(méi)任何異常,進(jìn)程在,cpu低,服務(wù)器壓力沒(méi)掛之前算是正常,不是特別高,等客戶(hù)機掛了壓力也就一下都沒(méi)了,ping測試正常,windbg啥也沒(méi)抓找。 不過(guò)是俗話(huà)說(shuō)的好,天無(wú)絕人之路啊 ,因為之前同事說(shuō)過(guò),根據日志判斷是網(wǎng)絡(luò )上的問(wèn)題,于是朋友靈光一現,既然服務(wù)端沒(méi)掛,重啟下交換機吧,結果重啟交換機之后,當時(shí)卡主沒(méi)重啟的機器緩過(guò)來(lái)了,竟然沒(méi)死,重啟起不來(lái)的機器也可以啟動(dòng)了 ,既然現象如此明了,不容多想,繼續換交換機,這里要說(shuō)下當時(shí)交換機的情況: 1、當時(shí)最初出現問(wèn)題時(shí),是客戶(hù)機個(gè)別藍屏死機,當時(shí)用的交換機是D-LINK的一款網(wǎng)管交換機。 2、后來(lái)朋友公司給網(wǎng)吧換了一款他們代理的交換機,結果就出現換了一周之前沒(méi)問(wèn)題,一周之后集體掛掉的問(wèn)題。 3、再后來(lái)就用了下面的普通傻瓜接入型交換機測試,但是依然有問(wèn)題,只是大部分機器會(huì )掛。不過(guò)實(shí)際上從開(kāi)始到現在,機器掛都不是集體,而是絕大部分而已。 于是到這里沒(méi)辦法,就再次拿朋友公司代理的交換機換上,繼續觀(guān)察,結果就是驗證了機器掛確實(shí)不是集體掛,而是絕大部分掛而已,只是當時(shí)用的負載模式是自動(dòng)分配,客戶(hù)機不定連到哪臺服務(wù)器上去,而且機器掛掉時(shí),顧客都是一片混亂也沒(méi)分清楚到底是啥情況,所以誤報了是所有機器都掛……,因為朋友公司代理的交換機也是網(wǎng)管型的,于是想進(jìn)交換機看看是否開(kāi)了網(wǎng)卡匯聚,結果很不巧,密碼不知道被誰(shuí)改過(guò)了,咋弄也進(jìn)不去,于是只好把交換機復位,結果又是觀(guān)察……觀(guān)察到凌晨2點(diǎn)多沒(méi)掛,暫時(shí)認為是交換機問(wèn)題,應該沒(méi)啥事了,但是還不太放心,于是帶著(zhù)忐忑的心情去睡覺(jué)了。 次日醒來(lái),到網(wǎng)吧直接就問(wèn),昨天晚上出問(wèn)題了,結果吧臺說(shuō),晚上沒(méi)出問(wèn)題,結果上午10點(diǎn)多出問(wèn)題了,重啟了服務(wù)器好了…… OMG,簡(jiǎn)直想死的心都有了,太沒(méi)道理了,心里真是有點(diǎn)像是霜打的茄子了,不過(guò)現在看來(lái),問(wèn)題99%是出現在網(wǎng)絡(luò )上了,那好,把所有的交換機都換掉,然后繼續觀(guān)測。于是就讓朋友聯(lián)系公司找交換機,但是因為當時(shí)沒(méi)貨,又拿不到交換機,只好等待,但是在等待的時(shí)候也不能閑著(zhù)啊,于是繼續觀(guān)測,總算還是有一線(xiàn)生機,nnd還真就不信搞不定這個(gè)問(wèn)題了,咋說(shuō)也背負著(zhù)朋友的重托,公司形象呢橫直也得把問(wèn)題解決了才行吧,所以,繼續振奮精神,拿出臟兮兮的本本,開(kāi)始觀(guān)測! 到目前為止,晚上8~10點(diǎn)掛,或凌晨2點(diǎn)掛的迷信說(shuō)法已經(jīng)排除,現在已經(jīng)是隨時(shí)都可能掛了,于是為了讓他早點(diǎn)掛,也看看是不是因為壓力太大導致的問(wèn)題,于是開(kāi)了20多臺機器一起看pplive,pps,優(yōu)酷等電影,結果看啊看,看了1個(gè)小時(shí)也沒(méi)掛,由此看來(lái),不太可能是壓力導致的掛了,那到底是啥原因導致的掛呢? 說(shuō)到這里還是要贊同一下我以前boss說(shuō)我有解決不了的問(wèn)題就賴(lài)東賴(lài)西的想法,他說(shuō)過(guò)沒(méi)病死不了人,于是對于這句話(huà)我也是深信不疑,那好,就繼續診斷病因吧,說(shuō)實(shí)話(huà),it這個(gè)醫生還真不好當……不扯了,繼續吧。 到現在基本就是等交換機來(lái)了,但是也不能閑著(zhù),繼續觀(guān)察服務(wù)器,開(kāi)著(zhù)任務(wù)管理器,性能監視器……一系列的東西開(kāi)始觀(guān)察,這個(gè)問(wèn)題實(shí)在很糾結,無(wú)法復現出問(wèn)題現象,每次只能等,解決一個(gè)問(wèn)題,搞的婚姻保衛戰電影的都要看完了,真是頭大,不過(guò)即便是守株待兔是被動(dòng)的,還是要干嘛,繼續觀(guān)察吧! 或許一切問(wèn)題都會(huì )有解決的那一天,此次也不例外,正在看著(zhù)電影,朋友正在用的無(wú)盤(pán)客戶(hù)機卡住不動(dòng)了,而且部分客戶(hù)機也開(kāi)始卡住不動(dòng),不過(guò)與前幾次不同的是,這次是非常有收貨的,因為觀(guān)測到如下幾張圖: ![]() ![]() 第一張:當時(shí)抓這張圖時(shí),性能監視器的圖是動(dòng)的,但是遠程操作服務(wù)器無(wú)任何相應,點(diǎn)任何地方都點(diǎn)不了,就好像網(wǎng)絡(luò )斷開(kāi)一樣,于是跑到服務(wù)器上登陸administrator去看,發(fā)現密碼無(wú)法輸入,但是Numlock燈也是正常的,按Ctrl+Alt+Del鍵也無(wú)任何反映,但是服務(wù)器并未死機。這個(gè)現象機器像是硬盤(pán)偷停,或者硬盤(pán)故障導致的無(wú)響應,卡死狀態(tài)。那么再看這張圖,可以看出以下問(wèn)題: 1、當時(shí)服務(wù)器沒(méi)死機,因為性能監視器當時(shí)的監控圖是動(dòng)態(tài)的,有變化的,只是無(wú)法用鼠標點(diǎn)擊任何窗體。 2、服務(wù)器的cpu使用率為0,因此并不是服務(wù)器cpu過(guò)高導致的操作無(wú)響應。 3、從任務(wù)管理器上可以看出服務(wù)器的內存占用還有3G多,因此服務(wù)并沒(méi)掛掉,否則內存會(huì )釋放掉。 4、磁盤(pán)壓力異常,表現出規律的鋸齒型狀態(tài),這個(gè)磁盤(pán)正是存放img鏡像分區的盤(pán)符。 5、回寫(xiě)盤(pán)幾乎無(wú)壓力,途中的白色線(xiàn)就是E盤(pán)回寫(xiě)盤(pán)的監視圖,當時(shí)回寫(xiě)盤(pán)屬于沒(méi)活干的狀態(tài)。 綜合上圖的結論,就是服務(wù)器的存放img鏡像的磁盤(pán)有問(wèn)題了,類(lèi)似于硬盤(pán)偷停的故障,而事實(shí)也正式如此,客戶(hù)機卡死狀態(tài)維持了近20~30秒左右時(shí)間,此時(shí)正和朋友分析問(wèn)題,結果朋友用的客戶(hù)機緩過(guò)來(lái)了,而且服務(wù)器遠程也可以動(dòng)了,性能監視器的壓力顯示也恢復正常。 于是為了驗證這個(gè)問(wèn)題,又趕緊開(kāi)起來(lái)hdtune來(lái)監視回寫(xiě)盤(pán)的情況,真是天宮作美,恢復正常不到半個(gè)小時(shí),再次出現卡機狀態(tài),服務(wù)器一樣是無(wú)法移動(dòng)任何窗體,點(diǎn)什么都正常。狀態(tài)與之前的情況完全相同,點(diǎn)開(kāi)hdtune一看,果然在卡死那一時(shí)間內,回寫(xiě)盤(pán)是沒(méi)壓力的,下圖中只有愛(ài)生活 愛(ài)順網(wǎng)線(xiàn)條的部分,只有100KB/S不到的寫(xiě)入壓力,完全是沒(méi)壓力的狀態(tài),因此更加證明是由于存放img文件的磁盤(pán)出了問(wèn)題。 ![]() ![]() 雖然種種跡象表明,是服務(wù)器上存放img鏡像的磁盤(pán)有問(wèn)題,但是用各種工具檢測均無(wú)異常,當時(shí)用了磁盤(pán)哨兵,hdtune,hddscan,檢查系統日志,檢查硬盤(pán)型號,全部參數都是正常的,沒(méi)有一個(gè)報告異常的,但是證據如此,我們就直接把存放img鏡像的硬盤(pán)換掉了,于是繼續監測,當時(shí)卡死時(shí)在線(xiàn)人數大概是100多人,2臺服務(wù)器帶,只有主服務(wù)器出問(wèn)題,副服務(wù)器沒(méi)問(wèn)題,于是把所有客戶(hù)機轉移到副服務(wù)器上,等待主服務(wù)器沒(méi)人用了才開(kāi)始換硬盤(pán),到此位置,問(wèn)題算是水落石出了,但是為了保險起見(jiàn),我們一起把交換機都換掉了,然后再觀(guān)測。 用副服務(wù)器帶所有客戶(hù)機,已經(jīng)帶了7天左右了,一直沒(méi)再出問(wèn)題,至此基本已經(jīng)可以判定是由于主服務(wù)器存放img鏡像的磁盤(pán)故障,導致的這一問(wèn)題,當然交換機也是有問(wèn)題的,但是只限于主交換機。由于這次故障完全是復合型故障,而兩個(gè)故障原因的都會(huì )導致同一故障現象,所以查起來(lái)確實(shí)比較麻煩,而導致這種麻煩的主要原因一共是以下幾點(diǎn): 1、因為交換機已經(jīng)換過(guò)3個(gè),新的舊的,傻瓜的,網(wǎng)管的都換過(guò),但很不巧,這3個(gè)交換機初期都有問(wèn)題。其中朋友代理的交換機是因為之前設置不合理,導致問(wèn)題出現,復位后恢復正常,但是當時(shí)的想法是,設備是新的,應該沒(méi)問(wèn)題的,同時(shí)也是因為d-link個(gè)垃圾交換機太爛了,雖然是千兆交換機,但是背板帶寬肯定不夠48Gbps的,因為當時(shí)換上這個(gè)交換機,掛的尤其厲害。同時(shí)也是因為一時(shí)沒(méi)有其他設備可更換,所以在排查網(wǎng)絡(luò )這塊花費了很長(cháng)時(shí)間。 2、替換法解決問(wèn)題的思路執行的打折嚴重,起初換交換機,因為沒(méi)有貨,無(wú)法找個(gè)正常的交換機來(lái)替換,同時(shí)在排除服務(wù)器問(wèn)題時(shí),又因為客戶(hù)機電源功率太低,拿臨時(shí)服務(wù)器測試時(shí),服務(wù)器直接死機了,然后報了一堆atapi磁盤(pán)錯誤。所以換服務(wù)器測試問(wèn)題的方式又沒(méi)能執行下去。 3、問(wèn)題現象沒(méi)弄清楚,由于問(wèn)題現象盤(pán)根錯節,實(shí)際上最初的問(wèn)題是交換機導致的,因為問(wèn)題現象被交換機掩蓋了,所以當時(shí)有點(diǎn)搞不清楚到底是誰(shuí)的問(wèn)題。 其實(shí)總結下來(lái)問(wèn)題搞這么就的主要原因就是,受現象和資源影響嚴重,沒(méi)有能按照思路很好的執行排除過(guò)程,所以下次解決問(wèn)題時(shí),懷疑哪部分有問(wèn)題,換設備時(shí)一定要換不同型號,而且要全新設備,至少是別的網(wǎng)吧都用著(zhù)正常的同樣規格的硬件來(lái)替換。當問(wèn)題排除后,再逐一發(fā)現其中的差異,例如之前的固件門(mén)問(wèn)題,例如之前的64m緩存硬盤(pán)問(wèn)題,例如之前的主板bios導致客戶(hù)機隨機藍屏死機問(wèn)題,例如之前的低價(jià)劣質(zhì)的內存問(wèn)題,例如此次的交換機問(wèn)題等,硬件是換了,但要么換的是同型號的設備,即便是全新的,要么是相信這個(gè)設備是新的就不會(huì )有問(wèn)題等等。 教訓是慘痛的,但經(jīng)驗是寶貴的,希望這些經(jīng)驗可以分享給大家,有助于大家早日解決問(wèn)題,如果得到方法就一定要嚴格執行,即便現象再古怪,還是要有個(gè)自己的主心骨!不過(guò)好在是問(wèn)題解決了,否則在部分不熟悉軟件的人來(lái)下結論時(shí)很可能得到這樣的結論:要么是這個(gè)人不靠譜,要么是這個(gè)軟件不靠譜。 最后再羅索一句,任何問(wèn)題都會(huì )有被解決的那一天,排除法是解決問(wèn)題最強大的一個(gè)辦法,對網(wǎng)吧尤其適用!最后希望大家再遇到問(wèn)題時(shí),不要直接說(shuō),之前用別人系統好的,用俺的系統就有問(wèn)題,之前用別的軟件沒(méi)事,用你這軟件就有事,因為,任何對比只在完全相同的環(huán)境下才有可比性!包括系統里的軟件,包括優(yōu)化設置,包括硬件型號,批次,固件版本,驅動(dòng)…… ———————————————————————————————————————————————————————— 這個(gè)問(wèn)題磕磕絆絆到最后,已經(jīng)過(guò)去一個(gè)多月了,上次發(fā)完帖子,到后來(lái)那家網(wǎng)吧又出問(wèn)題了,現象很確定,就是主服務(wù)器上的機器掛掉了,于是再看日志,發(fā)現日志里4塊回寫(xiě)盤(pán)都有錯誤,而且是同一時(shí)間,這個(gè)有點(diǎn)蒙了,怎么可能4塊回寫(xiě)盤(pán)一起有問(wèn)題呢,想想電源,數據線(xiàn)都換過(guò)了,也就差主板了,于是第二天將主板換上繼續測試,因為到現在位置,問(wèn)題出現周期已經(jīng)變成1周出現1次,所以再觀(guān)察已經(jīng)是一周以后了…… 當一周以后再來(lái)到這個(gè)網(wǎng)吧觀(guān)察時(shí),我朋友在網(wǎng)吧等到凌晨4點(diǎn)多沒(méi)掛,結果第二天早上起來(lái)聽(tīng)說(shuō)又掛了,到現在已經(jīng)想不出什么原因了,因為從大體上說(shuō)“主板、電源、硬盤(pán)、數據線(xiàn)”都換過(guò)了,內存也測試過(guò)了,總不可能是cpu針腳插彎了吧,此時(shí)已經(jīng)想不出其他原有,繼續看下日志吧,因為程序掛了日志里一般都能找到點(diǎn)蛛絲馬跡,這個(gè)一定要贊一個(gè)!結果最后查看日志時(shí),發(fā)現仍然有一個(gè)回寫(xiě)盤(pán)報錯,最后將這塊回寫(xiě)盤(pán)再換掉,根據我朋友的最終反饋,目前一切終于階段性恢復正常! 我想寫(xiě)到這里,這篇文章終于算是有個(gè)了解了 ![]() 那最終可能還是要再簡(jiǎn)單總結下此次問(wèn)題中的一些盲點(diǎn): 1、導致此次問(wèn)題比較糾結的主要原因之一是問(wèn)題發(fā)生周期太長(cháng),并且帶有一定的誘導性,開(kāi)始每天晚上8~10點(diǎn)或者凌晨2~4點(diǎn)出現問(wèn)題,而且較為有規律,就是這個(gè)時(shí)間出問(wèn)題,白天出問(wèn)題的幾率低的不能再低。但是按照上座率來(lái)看,并不是100%的晚上8~10點(diǎn)人比白天多,而凌晨2~4點(diǎn)人更加少。所以要觀(guān)察到現象基本要等20個(gè)小時(shí)左右。 2、問(wèn)題是屬于復合型問(wèn)題,并且比較隱蔽。 3、最初是交換機故障,因為最初沒(méi)有替換設備,只能拿之前就有問(wèn)題的設備來(lái)替換,而且問(wèn)題不只這一點(diǎn),所以也出現了替換也沒(méi)用的問(wèn)題,當然在這之前還沒(méi)懷疑到交換機,是懷疑到服務(wù)器,所以當時(shí)就采取了a服務(wù)器帶一半,b服務(wù)器帶一般的策略,結果都出問(wèn)題,所以當時(shí)就糾結萬(wàn)分。這也是有同學(xué)說(shuō)你早一個(gè)服務(wù)器帶一半早發(fā)現問(wèn)題了,而我沒(méi)發(fā)現問(wèn)題的一個(gè)主要原因。 4、后來(lái)出問(wèn)題后,沒(méi)重啟服務(wù),直接重啟了交換機,結果客戶(hù)機卡死的活過(guò)來(lái)了,這里開(kāi)始意識到是交換機問(wèn)題,并且最終強制更換了一批其他品牌的傻瓜交換機測試,但是后來(lái)還是出現掛了,結果當時(shí)又不知道誰(shuí)進(jìn)服務(wù)器把分服務(wù)器負載改為均衡負載,也不知道什么時(shí)間改的,于是又要等出問(wèn)題來(lái)判斷是否與服務(wù)器有關(guān)系。 5、再后來(lái)終于發(fā)現了主服務(wù)器鋸齒型的日志體現,這里就換了存放img的磁盤(pán)。 6、換了完了還是有問(wèn)題,結果檢查日志又發(fā)現所有回寫(xiě)盤(pán)幾乎在同一時(shí)間一起報錯,但是不太可能4塊盤(pán)一起出問(wèn)題,之前電源,數據線(xiàn)就已經(jīng)換過(guò)了,于是懷疑主板,并將主板更換了同型號的另外一塊新板子繼續觀(guān)察。 7、換了還還是出問(wèn)題了,再次查看日志,只有一塊回寫(xiě)盤(pán)報錯,最后把這塊盤(pán)又換掉,到目前未知大概有2周左右,沒(méi)再出問(wèn)題了。 其實(shí)我相信很多人看完了文章都覺(jué)得我搞的太羅嗦了,其實(shí)導致這么羅嗦的原因也很多了: 1、這些服務(wù)器配置用了n個(gè)網(wǎng)吧了,鳥(niǎo)事沒(méi)有,我朋友并太認為和硬件有關(guān)系,但是開(kāi)始1個(gè)月啥事沒(méi)有,后來(lái)突然出問(wèn)題,這種問(wèn)題一般都是硬件故障或者軟件升級導致。 2、因為常規檢測手段都無(wú)法看到硬件有任何異常,所以無(wú)法認定是硬件問(wèn)題導致,所以上去就叫人家換服務(wù)器并不是非??孔V,好歹也要找出個(gè)理由來(lái)才能讓人家換吧。 3、對于這種比較糾結的問(wèn)題,從個(gè)人的角度來(lái)講我是希望發(fā)現真正的問(wèn)題原因,這樣對日后排除問(wèn)題解決問(wèn)題的信心堅定方面是非常有必要,有價(jià)值的,我經(jīng)常出口就叫人家差硬件也是在這些問(wèn)題上來(lái)的。 4、主要是這段時(shí)間碰到的硬件問(wèn)題太多,但是基本都能看到現象,唯獨這個(gè)硬件故障是出在主板和交換機上,看不出來(lái)…… 5、我去幫朋友解決問(wèn)題,并不完全是為了解決問(wèn)題而解決問(wèn)題,而是希望把這種處理問(wèn)題的方式方法自我檢驗,并且和朋友分享。 所以說(shuō)到這里,我也希望大家能把自己解決問(wèn)題的經(jīng)歷,經(jīng)驗總結一番,這不僅可以幫助到別人,也可以記錄下自己的歷程。 ——(完)—— |
聯(lián)系客服
微信登錄中...
請勿關(guān)閉此頁(yè)面
