系統癱瘓考驗應急管理
■ 本報實(shí)習記者 丁常彥 閆婷

中國航空信息系統再度故障,全國范圍內航空旅客滯留一小時(shí),“部分文件損壞”成為事件發(fā)生的始作俑者。那么,非突發(fā)性因素成為突發(fā)性事件的根本原因何在?
10月10日13時(shí)28分,中國民航信息網(wǎng)絡(luò )股份有限公司(以下簡(jiǎn)稱(chēng)“中航信”)離港系統主機發(fā)生故障,包括北京、上海、廣州在內的眾多機場(chǎng)的離港系統整體性癱瘓,多個(gè)航班被迫延誤,在時(shí)隔50分鐘之后,14時(shí)18分中航信離港系統恢復正常,各機場(chǎng)航班也相繼恢復起降秩序。
如此大面積的系統癱瘓事件,無(wú)疑再一次給民航的應急管理敲響了警鐘,因為,這已經(jīng)不是中航信第一次發(fā)生類(lèi)似問(wèn)題。就在今年1月11日上午10時(shí)30分,中航信北京總部服務(wù)器出現故障,導致系統死機長(cháng)達20分鐘,成都雙流機場(chǎng)受害最大,40分鐘后系統才恢復正常 ,上千名旅客因此而延誤了行程。如果這是一次長(cháng)時(shí)間的系統癱瘓,損失將非常嚴重,在計算機系統應用越來(lái)越廣泛的今天,加強應急管理,建立相應的備份系統,也由此更顯得重要。
備份系統存有缺陷
據中航信運行部工作人員透露,在此次大面積機場(chǎng)癱瘓之前,中航信曾經(jīng)做過(guò)一個(gè)針對紙質(zhì)客票的備份系統,廣州、上海等地的機場(chǎng)都擁有這一系統,所以,在10月10日的故障發(fā)生后,白云機場(chǎng)啟用備份系統降低了損失,而沒(méi)有建立備份系統的機場(chǎng)則應急能力明顯偏低,事故中癱瘓了將近一個(gè)小時(shí)。
在事故發(fā)生后,各方面在總結原因時(shí),仍然沒(méi)有對危害的重要性有所深刻認識?!按舜坞x港系統癱瘓并沒(méi)有給我們造成太大的影響,在上海的浦東和虹橋兩大機場(chǎng),都擁有相應的備份系統?!睎|方航空公司總經(jīng)理助理夏毅在接受記者采訪(fǎng)時(shí)說(shuō),“系統癱瘓后,我們及時(shí)啟動(dòng)了備份系統,很快就恢復了正常工作?!钡珜τ谙到y為何癱瘓,他表示并不知情。
廣州白云機場(chǎng)的一位工作人員向記者證實(shí),白云機場(chǎng)的備份系統在這次事故中發(fā)揮了不小的作用。但他們同時(shí)也表示,雖然備份系統可以暫時(shí)替代原有系統,但它在工作效率上比起原來(lái)的系統還有不少差距,許多人工操作過(guò)于煩瑣。
雖然對于擁有相應備份系統的機場(chǎng),這樣一個(gè)事故并不會(huì )造成太大的影響,但對于那些沒(méi)有備份系統的機場(chǎng)來(lái)說(shuō),就沒(méi)那么樂(lè )觀(guān)了。中航信工作人員表示,對于那些沒(méi)有備份系統的機場(chǎng),只能改為人工執機,由執機人員手工打出旅客的訂票信息,并核對其身份證號。這樣一來(lái),工作效率將會(huì )大大降低,嚴重影響了乘客的登機時(shí)間,也會(huì )造成更長(cháng)時(shí)間的航班延誤。
中國民航離港系統建設于1988年,是引進(jìn)美國Unisys公司的USAS產(chǎn)品,屬于為航空公司和機場(chǎng)旅客服務(wù)的大型網(wǎng)絡(luò )系統。中航信通過(guò)其全球分銷(xiāo)系統(GDS)、離港控制系統和客位控制系統向國內各地區航空公司、旅行社和機場(chǎng)提供可靠、高效的旅行代理、機場(chǎng)登機手續辦理和航空公司定位服務(wù),系統規模列世界前5位,每天處理超過(guò)50萬(wàn)人次旅客的訂座和離港操作。有統計數據表明,中航信訂座系統和離港系統的每秒最高交易處理量近5年來(lái)呈持續大幅增長(cháng)態(tài)勢。
據中航信技術(shù)人員介紹,目前中航信的生產(chǎn)系統是dorado 280主機和Unisys的CS7802主機,正是Unisys的CS7802主機上面運行著(zhù)ICS(Inventory Control System,訂座系統)和DCS(Departure Control System,離港系統)。因此,全國各大機場(chǎng)的離港系統都依賴(lài)這臺CS7802主機,由于離港系統對實(shí)時(shí)性和安全性的較高要求,所以全國各大機場(chǎng)幾乎所有的離港系統都由中航信來(lái)集中提供。
鑒于這次事故,中航信運行部的這位工作人員透露,明年中航信將會(huì )籌備一個(gè)新的項目,主要就是針對電子客票的本地備份,以避免類(lèi)似的問(wèn)題再度發(fā)生。
信息系統非常重要
有專(zhuān)家表示,信息管理統一化能給行業(yè)和企業(yè)帶來(lái)便利,使得信息管理更加方便,更容易降低運營(yíng)成本; 但同時(shí),過(guò)度集中的信息管理模式也可能帶來(lái)過(guò)高風(fēng)險。一旦系統的某一節點(diǎn)或環(huán)節出現故障,很容易引發(fā)“多米諾骨牌”效應,導致大面積甚至全局系統癱瘓。
但即使如此,信息化集成已經(jīng)成為全球趨勢,專(zhuān)家也認為,不能因為風(fēng)險存在就“因噎廢食”,不必在信息管理統一化上過(guò)于躊躇。廈門(mén)航空的信息部總經(jīng)理王洪建也認為,系統的癱瘓大大降低了工作效率,這讓許多已經(jīng)習慣了使用計算機系統的員工非常不適應,利用信息系統的優(yōu)勢由此體現得非常明顯。
廣州新白云國際機場(chǎng)于2004年8月5日正式投入運營(yíng),新機場(chǎng)目前的年旅客吞吐量達到2500萬(wàn),停機坪空間可以停放66架飛機,每年的貨物吞吐量達到110萬(wàn)噸。目前的機場(chǎng)一般要運行400多套系統,機場(chǎng)內的業(yè)務(wù)流程甚至超過(guò)500個(gè),而且這些系統和業(yè)務(wù)流程之間不能進(jìn)行互操作。廣州新白云國際機場(chǎng)的情況卻非如此,借助中航信的信息系統集成了來(lái)自機場(chǎng)各個(gè)角落的信息流,然后把這些數據保存在機場(chǎng)中央數據庫內,并向機場(chǎng)各部門(mén)提供信息。該系統還將為未來(lái)的協(xié)調規劃、日常運營(yíng)控制、集中計費和報表功能提供便利。10月10的離港系統癱瘓也是新白云機場(chǎng)投入使用后,第一次出現大型的系統故障問(wèn)題。
據南航廣州白云機場(chǎng)的一位工作人員介紹,如今在白云機場(chǎng)登機的乘客已經(jīng)有70%以上的使用了電子機票。截至2005年,我國境內民用航空定期航班通航機場(chǎng)135個(gè)(不含香港和澳門(mén)),其中絕大部分都在使用中航信的離港系統。雖然也有航空公司自行研發(fā)的離港系統,但由于銷(xiāo)售系統由中航信提供,離港系統中很多旅客信息由銷(xiāo)售系統采集獲取,因此很難將銷(xiāo)售系統和自建的離港系統統一起來(lái)。
面對這種情況,再加上備份系統一時(shí)還無(wú)法建立起來(lái),東方航空公司總經(jīng)理助理夏毅表示,對技術(shù)的依賴(lài)已經(jīng)開(kāi)始造成手工操作的不熟練,而這將導致機場(chǎng)在應對緊急情況時(shí),缺乏足夠效率。為了應對這種突發(fā)情況,東方航空公司一直保持對相關(guān)人員進(jìn)行緊急事務(wù)應對培訓,以使工作人員能在系統癱瘓時(shí),快速有效地為乘客辦理離港業(yè)務(wù)。
盡快完善備份系統
據IDC研究報告預測,中國未來(lái)5年的IT外包服務(wù)市場(chǎng)復合年增長(cháng)率達到39.9%,而涉及災難備份領(lǐng)域的基礎設施服務(wù)、業(yè)務(wù)持續性服務(wù)和系統管理服務(wù)的復合年增長(cháng)率更是高達52.1%,是IT外包服務(wù)中增長(cháng)最快的。災難備份,特別是集中式關(guān)鍵業(yè)務(wù)的備份,已經(jīng)成為關(guān)鍵業(yè)務(wù)執行部門(mén)的統一認識。
IT業(yè)界在尋覓優(yōu)化“業(yè)務(wù)持續”方案的努力已經(jīng)曙光漸露。作為中航信的合作伙伴,Unisys通過(guò)在分立存儲陣列提供數據備份及自動(dòng)化故障切換支持,以便使得企業(yè)的“業(yè)務(wù)持續”方案在距離、速度及成本方面三全其美?!斑^(guò)往業(yè)務(wù)持續領(lǐng)域有一個(gè)眾所周知的瓶頸,就是企業(yè)必需在三個(gè)條件中做出取舍,一是數據中心與災難恢復站點(diǎn)之間的距離; 二是從災難時(shí)間中恢復過(guò)來(lái)的所需時(shí)間; 三是企業(yè)愿意支出多少成本。企業(yè)最多只能選擇做好其中兩個(gè)條件,例如原有系統與應變設備距離越遠,恢復速度就較慢。如果需要快速的恢復速度,企業(yè)便要做出更大的投入?!盪nisys大中華區系統與科技事業(yè)部銷(xiāo)售總監張和平解釋說(shuō)。
但張和平的解釋?zhuān)匀粺o(wú)法幫助中航信在系統癱瘓時(shí)脫離窘境,而全國范圍內的航班及乘客延誤,也已經(jīng)發(fā)生?!斑@不是成本投入的問(wèn)題,而是平時(shí)是否積極研究如何應對危機狀況了,有關(guān)部門(mén)這方面的工作,顯然沒(méi)有做好,否則就不會(huì )出現如此大面積的癱瘓了?!庇性u論稱(chēng)。
在日前記者向中航信詢(xún)問(wèn)事故原因時(shí),該人士解釋說(shuō),由于離港系統龐大,涉及的各方面因素也比較多,任何一方面出現問(wèn)題,都有可能導致整個(gè)系統的癱瘓。不但前后端產(chǎn)品出現問(wèn)題,如果整個(gè)系統日常維護做得不好,或者操作人員進(jìn)行了誤操作,都有可能出現系統癱瘓的情況。因為該系統處于24小時(shí)不停機狀態(tài),所以要在不停工的情況下查出問(wèn)題所在需要很長(cháng)一段時(shí)間。中航信表示,致使離港系統癱瘓的原因是主機文件損壞所致,而對于為何主機文件出現損壞,或者出現損壞后為何沒(méi)有立即查出,中航信則沒(méi)有做出說(shuō)明。
鑒于如今民航系統性強、信息化程度高的現狀,必須盡快加強應急管理,建立起快速處理故障的保障體系。而這,可能是避免中航信信息化危機再度出現最好的方法。
(計算機世界報 2006年10月16日 第40期 A19)
聯(lián)系客服