隨著(zhù)云計算、大數據、人工智能等技術(shù)的不斷發(fā)展和商用普及,企業(yè)的數字化轉型越來(lái)越深入,涵蓋辦公、生產(chǎn)、測試等豐富的業(yè)務(wù)形態(tài),傳統數據中心跟不上發(fā)展的步伐,開(kāi)啟云化轉型已成為大勢所趨。但目前業(yè)界的數據中心云化方案主要聚焦在“資源的虛擬化,提升資源利用率”和“部署的自動(dòng)化,策略隨云而動(dòng)”兩方面,數據中心規模和流量激增帶來(lái)網(wǎng)絡(luò )管理和業(yè)務(wù)運營(yíng)的困難和挑戰,往往被忽視了。傳統“人工運維”對復雜的應用遷移策略、時(shí)好時(shí)壞的業(yè)務(wù)體驗質(zhì)量、困難的故障定位和海量安全策略管理等,已經(jīng)逐漸力不從心。
云領(lǐng)未來(lái)帶來(lái)新挑戰
云已成為數字化轉型的關(guān)鍵引擎,這一點(diǎn)亦已成為行業(yè)共識。云在引領(lǐng)未來(lái)的同時(shí),我們也要深刻認知到云絕不是一蹴而就的。企業(yè)在數字化轉型之路上會(huì )和云打很多年的交道,這一過(guò)程必然也會(huì )不斷上演“傳統遇上挑戰”的戲碼,而運維無(wú)疑是戲比較足的領(lǐng)域。這點(diǎn)在企業(yè)云化轉型開(kāi)啟比較早的互聯(lián)網(wǎng)和金融行業(yè)表現尤為明顯。
網(wǎng)元規模增長(cháng)帶來(lái)故障定位時(shí)間長(cháng)
快速故障定位、恢復業(yè)務(wù)一直是運維工作的重中之重。
? 首先,這涉及商業(yè)利益。例如2012年亞馬遜數據中心的Elastic Load Balancing服務(wù)故障,導致Netflix部分用戶(hù)長(cháng)時(shí)間無(wú)法正常訪(fǎng)問(wèn),直接商業(yè)損失估計有上百萬(wàn)美元。
? 其次,這也有社會(huì )影響。故障30分鐘必須上報銀監會(huì )的安全紅線(xiàn)是懸在金融機構頭上的達摩克利斯之劍。但數據中心資源池化和大量業(yè)務(wù)的云化遷移導致云數據中心的規模增長(cháng),以L(fǎng)inkedIn的數據中心為例,其物理網(wǎng)元和邏輯網(wǎng)元(vSwitch/vRouter)數量增加了50倍,帶來(lái)故障數量的18倍增長(cháng),成為新挑戰。
應用交互復雜導致遷移優(yōu)化風(fēng)險高
應用遷移和提升業(yè)務(wù)體驗質(zhì)量是運維人員時(shí)常需要處理的變更,變更操作不能引發(fā)不良后果是基本要求。國內某大型商業(yè)銀行的網(wǎng)絡(luò )主管就曾說(shuō)過(guò),他的數據中心頭號難題是海量應用如何高效管理,制定合理的應用遷移策略,快速提升業(yè)務(wù)體驗和運營(yíng)質(zhì)量。網(wǎng)絡(luò )虛擬化后,業(yè)務(wù)之間的拓撲關(guān)系更加難以看清,變更自帶風(fēng)險屬性,更別提軟件定義網(wǎng)絡(luò )(SDN)隨應用動(dòng)態(tài)變化、實(shí)時(shí)響應的新特征了。數據中心網(wǎng)絡(luò )傳統運維并不能真正面向業(yè)務(wù)運營(yíng)開(kāi)展,無(wú)法先于業(yè)務(wù)發(fā)現問(wèn)題,往往在業(yè)務(wù)團隊面前既失“尊嚴”又很被動(dòng)。
新技術(shù)定義新運維
面對企業(yè)數據中心云化后帶來(lái)的諸多新挑戰,客戶(hù)需要新技術(shù)和運維平臺來(lái)應對這些挑戰,以實(shí)現更加順暢的數字化轉型。
常言道,師夷長(cháng)技以制夷,既然這些挑戰是云計算等新技術(shù)發(fā)展帶來(lái)的,那是不是也可以用新技術(shù)來(lái)解決呢?答案是肯定的,利用大數據分析和人工智能技術(shù)可以解決這些傳統人工運維無(wú)法解決的挑戰。通過(guò)遍布系統的軟硬件傳感器采集網(wǎng)絡(luò )中應用交互的數據流信息和丟包、網(wǎng)絡(luò )擁塞、TCP協(xié)議棧異常、應用響應慢等異常事件信息,新的網(wǎng)絡(luò )智能分析平臺可實(shí)現大數據系統綜合分析。
1
應用網(wǎng)絡(luò )互視,分鐘級故障定位
運用大數據分析技術(shù),實(shí)現全網(wǎng)100%真實(shí)流采集分析,實(shí)時(shí)呈現應用與網(wǎng)絡(luò )的健康度,先于業(yè)務(wù)投訴前將異常應用自動(dòng)關(guān)聯(lián)故障鏈路,實(shí)現分鐘級故障定位。
2
智能應用地圖,業(yè)務(wù)平滑遷移
通過(guò)機器學(xué)習生成整個(gè)數據中心內所有應用之間的關(guān)聯(lián)地圖,理清VM間互訪(fǎng)關(guān)系,應用交互關(guān)系更細化至端口級,為應用交互的策略?xún)?yōu)化、業(yè)務(wù)體驗質(zhì)量提升和數據中心擴容帶來(lái)的應用遷移提供智慧的決策建議。
3
億級數據分析,故障主動(dòng)預防
網(wǎng)絡(luò )智能分析平臺還加強了網(wǎng)絡(luò )狀態(tài)的數據分析能力,每秒約130億條歷史數據的分析可以從全網(wǎng)syslog日志、CPU占有率、接口計數等多維度KPI指標中提前發(fā)現網(wǎng)絡(luò )的亞健康狀態(tài),真正做到故障的主動(dòng)預防。
此外,新的網(wǎng)絡(luò )智能分析平臺還是開(kāi)放的平臺,對外提供豐富的應用程序編程接口(API),可以與聽(tīng)云等應用性能管理軟件開(kāi)放對接,提供從應用性能到網(wǎng)絡(luò )質(zhì)量端到端的監測、診斷和管理的融合解決方案,實(shí)現更高效、更全面的一站式服務(wù)。
未來(lái)以智能化為主要特征的新運維應如何構建?還能完成以前無(wú)法想象的什么任務(wù)?在即將召開(kāi)的華為全聯(lián)接大會(huì )(HUAWEI CONNECT 2017)上,華為將通過(guò)Fabric Insight網(wǎng)絡(luò )智能分析平臺,突破傳統運維的邊界,使用大數據技術(shù)分析業(yè)務(wù)數據流實(shí)現應用和網(wǎng)絡(luò )的關(guān)聯(lián),提供業(yè)務(wù)優(yōu)化、遷移的智慧建議和網(wǎng)絡(luò )故障分鐘級定位的能力,大幅提升業(yè)務(wù)運營(yíng)質(zhì)量和運維效率,重新定義新運維。
為了與業(yè)界共同探討如何通過(guò)數字化實(shí)現新增長(cháng),第二屆HUAWEI CONNECT(全聯(lián)接大會(huì ))將于2017年9月5-7日在上海召開(kāi)。本屆大會(huì )將以“Grow with the Cloud”為主題,旨在與來(lái)自全球的ICT產(chǎn)業(yè)商界領(lǐng)袖、合作伙伴、商業(yè)智囊一道,共同探索數字化轉型之路。

聯(lián)系客服