信息計算現已進(jìn)入以數據為中心的時(shí)代,存儲行業(yè)是目前最熱門(mén)的領(lǐng)域之一。面對不斷出現的存儲需求新挑戰,我們該如何把握存儲的未來(lái)發(fā)展方向呢?本人根據自己的經(jīng)驗和理解嘗試預測和分析一下存儲的未來(lái)技術(shù)趨勢,與存儲同行分享,不當之處還請大家批評指正。
1、存儲虛擬化
存儲虛擬化是目前以及未來(lái)的存儲技術(shù)熱點(diǎn),它其實(shí)并不算是什么全新的概念,RAID、LVM、SWAP、VM、文件系統等這些都歸屬于其范疇。存儲的虛擬化技術(shù)有很多優(yōu)點(diǎn),比如提高存儲利用效率和性能,簡(jiǎn)化存儲管理復雜性,綠色節省,降低運營(yíng)成本等?,F代數據應用在存儲容量、I/O性能、可用性、可靠性、利用效率、管理、業(yè)務(wù)連續性等方面對存儲系統不斷提出更高的需求,基于存儲虛擬化提供的解決方案可以幫助數據中心應對這些新的挑戰,有效整合各種異構存儲資源,消除信息孤島,保持高效數據流動(dòng)與共享,合理規劃數據中心擴容,簡(jiǎn)化存儲管理以及綠色節能等。目前最新的存儲虛擬化技術(shù)有自動(dòng)分級存儲(HSM)、自動(dòng)精減配置(Thin provision)、云存儲(Cloud storage)、分布式文件系統(Distributed file system),另外還有諸如動(dòng)態(tài)內存分區、SAN和NAS虛擬化。虛擬化可以柔性地解決不斷出現的新存儲需求問(wèn)題,因此我們可以斷言存儲虛擬化仍將是未來(lái)存儲的發(fā)展趨勢之一,當前的虛擬化技術(shù)會(huì )得到長(cháng)足發(fā)展,未來(lái)新虛擬化技術(shù)將層出不窮。
2、固態(tài)硬盤(pán)
固態(tài)硬盤(pán)(SSD, solid state disk)是目前倍受存儲界廣泛關(guān)注的存儲新技術(shù),它被看作是一種革命性的存儲技術(shù),可能會(huì )給存儲行業(yè)甚至計算機體系結構帶來(lái)深刻變革。在計算機系統內部,L1 cache、L2 cache、總線(xiàn)、內存、外存、網(wǎng)絡(luò )接口等存儲層次之間,目前來(lái)看內存與外存之間的存儲鴻溝最大,磁盤(pán)I/O通常成為系統性能瓶頸。SSD與傳統磁盤(pán)不同,它是一種電子器件而非物理機械裝置,它具有體積小、能耗小、搞干擾能力強、尋址時(shí)間極?。ㄉ踔量梢院雎圆挥嫞?、IOPS高、I/O性能高等特點(diǎn)。因此,SSD可以有效縮短內存與外存之間的存儲鴻溝,計算機系統中原本為解決I/O性能瓶頸的諸多組件和技術(shù)的作用將變得越來(lái)越微不足道,甚至最終將被淘汰出局。試想,如果SSD性能達到內存甚至L1/L2 cache,后者的存在還有什么意義,數據預讀和緩存技術(shù)也將不再需要,計算機體系結構也將會(huì )隨之發(fā)生重大變革。對于存儲系統來(lái)說(shuō),SSD最大突破是大幅提高了IOPS,摩爾定理的效力再次顯現,通過(guò)簡(jiǎn)單地用SSD替換傳統磁盤(pán),就可能可以達到和超越綜合運用緩存、預讀、高并發(fā)、數據局部性、磁盤(pán)調度策略等軟件技術(shù)的效用。SSD目前對IOPS要求高的存儲應用最為有效,主要是大量隨機讀寫(xiě)應用,這類(lèi)應用包括互聯(lián)網(wǎng)行業(yè)和CDN行業(yè)的海量小文件存儲與訪(fǎng)問(wèn)(圖片、網(wǎng)頁(yè))、數據分析與挖掘領(lǐng)域的OLTP等。SSD已經(jīng)開(kāi)始被廣泛接受并應用,當前主要的限制因素包括價(jià)格、使用壽命、寫(xiě)性能抖動(dòng)等。從最近兩年的發(fā)展情況來(lái)看,這些問(wèn)題都在不斷地改善和解決,SSD的發(fā)展和廣泛應用將勢不可擋。
3、重復數據刪除
重復數據刪除(Deduplication)是一種目前主流且非常熱門(mén)的存儲技術(shù),可對存儲容量進(jìn)行有效優(yōu)化。它通過(guò)刪除數據集中重復的數據,只保留其中一份,從而消除冗余數據。這種技術(shù)可以很大程度上減少對物理存儲空間的需求,從而滿(mǎn)足日益增長(cháng)的數據存儲需求。Dedupe技術(shù)可以幫助眾多應用降低數據存儲量,節省網(wǎng)絡(luò )帶寬,提高存儲效率、減小備份窗口,節省成本。Dedupe技術(shù)目前大量應用于數據備份與歸檔系統,因為對數據進(jìn)行多次備份后,存在大量重復數據,非常適合這種技術(shù)。事實(shí)上,dedupe技術(shù)可以用于很多場(chǎng)合,包括在線(xiàn)數據、近線(xiàn)數據、離線(xiàn)數據存儲系統,可以在文件系統、卷管理器、NAS、SAN中實(shí)施。Dedupe也可以用于數據容災、數據傳輸與同步,作為一種數據壓縮技術(shù)可用于數據打包。為什么dedupe技術(shù)目前主要應用于數據備份領(lǐng)域,而其他領(lǐng)域應用少呢?這主要由兩方面的原因決定的,一是數據備份應用數據重復率高,非常適合dedupe技術(shù)。二是dedupe技術(shù)的缺陷,主要是數據安全、性能。dedupe使用hash指紋來(lái)識別相同數據,存在產(chǎn)生數據碰撞并破壞數據的可能性。dedupe需要進(jìn)行數據塊切分、數據塊指紋計算和數據塊檢索,消耗可觀(guān)的系統資源,對存儲系統性能產(chǎn)生影響。信息呈現的指數級增長(cháng)方式給存儲容量帶來(lái)巨大的壓力,而dedupe是最為行之有效的解決方案,因此固然其有一定的不足,它大行其道的技術(shù)趨勢無(wú)法改變。更低碰撞概率的hash函數、多核、GPU、SSD等,這些技術(shù)推動(dòng)dedupe走向成熟,由作為一種產(chǎn)品而轉向作為一種功能,逐漸應用到近線(xiàn)和在線(xiàn)存儲系統。ZFS已經(jīng)原生地支持dedupe技術(shù),我們相信將會(huì )不斷有更多的文件系統、存儲系統支持這一功能。
4、云存儲
云計算無(wú)疑是現在最熱門(mén)的IT話(huà)題,不管是商業(yè)噱頭還是IT技術(shù)趨勢,它都已經(jīng)融入了我們每個(gè)人工作與生活當中。云存儲亦然。云存儲即DaaS(存儲即服務(wù)),專(zhuān)注于向用戶(hù)提供以互聯(lián)網(wǎng)為基礎的在線(xiàn)存儲服務(wù)。它的特點(diǎn)表現為彈性容量(理論上無(wú)限大)、按需付費、易于使用和管理。云存儲主要涉及分布式存儲(如分布式文件系統、IPSAN、數據同步、復制)、數據存儲(如重復數據刪除、數據壓縮、數據編碼)和數據保護(如RAID、CDP、快照、備份與容災)等技術(shù)領(lǐng)域。從專(zhuān)業(yè)機構的市場(chǎng)分析預測和實(shí)際的發(fā)展情況來(lái)看,云存儲的發(fā)展如火如荼,移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展也起到了推波助瀾的作用。目前典型的云存儲服務(wù)主要有Amazon S3, Google storage, Microsoft SkyDrive, EMC Atmos/mozy, Dropbox, SugurSync,SyncPlicity, 中國電信e云, 中國移動(dòng)139信箱, 世紀互聯(lián)有備, 聯(lián)想網(wǎng)盤(pán), 金山快盤(pán)、數據銀行、新浪微盤(pán)、QQ硬盤(pán)、360云盤(pán)。私有云存儲目前發(fā)展情況不錯,但是公有云存儲發(fā)展不順,用戶(hù)仍持懷疑和觀(guān)望態(tài)度。目前影響云存儲普及應用的主要因素有性能瓶頸、安全性、標準與互操作、訪(fǎng)問(wèn)與管理、存儲容量和價(jià)格。云存儲終將離我們越來(lái)越近,這個(gè)趨勢是不無(wú)可置疑的,但是終究到底還有多遠?這由這些問(wèn)題的解決程度決定。云存儲將從私有云逐漸走向公有云,滿(mǎn)足部分用戶(hù)的存儲、共享、同步、訪(fǎng)問(wèn)、備份需求,但是試圖解決所有的存儲問(wèn)題也是不現實(shí)的,我姑且推測一下,2012年底云存儲發(fā)展將進(jìn)入一個(gè)嶄新的發(fā)展階段。
5、SOHO存儲
SOHO(Small office, home office)存儲即家庭或個(gè)人存儲?,F代家庭中擁有多臺PC、筆記本電腦、上網(wǎng)本、平板電腦、智能手機,這種情況業(yè)已非常普遍,這些設備將組成家庭網(wǎng)絡(luò )。SOHO存儲的數據主要來(lái)自個(gè)人文檔、工作文檔、軟件與程序源碼、電影與音樂(lè )、自拍視頻與照片,部分數據需要在不同設備之間共享與同步,重要數據需要備份或者在不同設備之間復制多份,需要在多臺設備之間協(xié)同搜索文件,需要多設備共享的存儲空間等等。手機、數碼相機和攝像機的普及和數字化技術(shù)的發(fā)展,以多媒體存儲為主的SOHO存儲需求突現。單部高清電影容量可以達到數GB、單張高質(zhì)量照片體積可達數MB,這些內容的總容量往往能夠達到幾TB甚至數十TB,直連的硬盤(pán)無(wú)法滿(mǎn)足這種日益增長(cháng)的存儲需求,用戶(hù)面臨的困境是存儲空間似乎永遠不夠用。SOHO存儲目前大致有兩種思路,一是home NAS微型存儲裝置,提供文件級的集中共享存儲空間,并在NAS提供數據備份和復制、數據管理、高級文件檢索、多種數據訪(fǎng)問(wèn)協(xié)議和接口等功能。目前已經(jīng)有一些存儲廠(chǎng)商推出了此類(lèi)產(chǎn)品,由于存在硬件設備并且價(jià)格低廉,用戶(hù)的認可度比較高。二是p2p存儲系統,利用軟件系統將各個(gè)設備的存儲空間統一起來(lái),提供一個(gè)虛擬的集中共享存儲空間,同樣可以提供home NAS上的所有功能。p2p存儲系統的一個(gè)問(wèn)題是可用性,如果沒(méi)有足夠多的設備啟動(dòng),這個(gè)系統就不能正常工作,而往往家庭中的設備都不會(huì )同時(shí)啟動(dòng),因此可用性很難保證。此外,個(gè)人用戶(hù)通常不大愿意為軟件系統付費,所以這種思路目前來(lái)看是不可行的。SOHO存儲的需求已經(jīng)初步顯現,還沒(méi)有引起存儲廠(chǎng)商的足夠重視,但這塊市場(chǎng)是非常巨大的,未來(lái)會(huì )不會(huì )出現家庭云存儲呢?大家拭目以待吧。
6、ROBO存儲
ROBO(Remote office, branch office)存儲即企業(yè)遠程或分支機構存儲。大的公司或組織機構會(huì )有多個(gè)子公司或分支機構組成,物理分布在世界上不同的城市?;ヂ?lián)網(wǎng)使得世界變得非常平坦,分布式協(xié)作越來(lái)越為重要,我們甚至可以遐想未來(lái)很多企業(yè)甚至不需要集中的辦公場(chǎng)所,員工在家辦公即可。ROBO存儲正是為了應對這種基于互聯(lián)網(wǎng)的協(xié)作式工作模式而產(chǎn)生的。ROBO存儲的需求主要集中在數據同步、共享、分發(fā)、協(xié)作,傳統的上傳/下載模式文件服務(wù)難以滿(mǎn)足這種需求,天然地需要基于互聯(lián)網(wǎng)的廣域分布式文件系統。由于互聯(lián)網(wǎng)的低帶寬、高延遲、安全性等因素影響,ROBO存儲面臨巨大的挑戰,像NAS/CIFS/AFS這類(lèi)系統都無(wú)法在互聯(lián)網(wǎng)上很好工作。針對ROBO存儲,通常在公司總部部署集中式存儲系統保存所有的數據,在每個(gè)子公司部署較小的存儲節點(diǎn),然后通過(guò)高速網(wǎng)絡(luò )互聯(lián),并提供高效的數據同步、分發(fā)、數據緩存等機制,盡量減少數據通信量以提高性能和實(shí)時(shí)性。目前ROBO存儲似乎還沒(méi)有成熟的解決方案,廣域網(wǎng)分布式文件系統現在也很少被提及,挑戰性顯而易見(jiàn),然后,潛在需求是推動(dòng)技術(shù)發(fā)展的最好動(dòng)力,我們有理由相信ROBO存儲終會(huì )成為一種存儲趨勢。
7、語(yǔ)義化檢索
數據檢索目前主要分為兩類(lèi),一是基于文件名,二是基于文件內容。主流文件系統的數據檢索都是基于文件名進(jìn)行的,桌面搜索引擎則綜合文件名和文件內容進(jìn)行檢索,前者遍歷文件系統元數據,后者需要解析文件內容,它們都是通過(guò)關(guān)鍵字匹配來(lái)實(shí)現檢索。顯然,這兩類(lèi)檢索的語(yǔ)義是非常有限的,與人類(lèi)思維方式有著(zhù)很大的區別。人類(lèi)對事物的檢索往往通過(guò)事物的屬性以及與其他事物于其的聯(lián)系來(lái)實(shí)現,例如人肉搜索一個(gè)人,我們通過(guò)性別、交通工具、外貌等基本特征以及社會(huì )關(guān)系來(lái)定位,這些都可看作是基于語(yǔ)義的檢索。文件本身就具備許多的屬性,如文件名、大小、創(chuàng )建者、創(chuàng )建日期、文件類(lèi)型、訪(fǎng)問(wèn)權限,同時(shí)也具有與其他文件的聯(lián)系,如處于相同目錄、相同的所有者、同時(shí)被訪(fǎng)問(wèn)、文件集的組成部分等,此外還可以標注額外的屬性和關(guān)系。因此,存儲系統完全可以實(shí)現語(yǔ)義化的檢索,通過(guò)文件屬性和關(guān)系來(lái)檢索文件,并用關(guān)系網(wǎng)絡(luò )(類(lèi)似社會(huì )化網(wǎng)絡(luò ))來(lái)表示檢索結果。這種方式語(yǔ)義上更加豐富,檢索結果更加精確,也更加符合人類(lèi)的思維方式。目前存儲方面的語(yǔ)義化檢索產(chǎn)品基本是空白,業(yè)界當前主要研究還是集中在基于內容分析的數據檢索,但也有一些先行者在從事這方面的工作,而且語(yǔ)義網(wǎng)的研究成果可以為此提供許多基礎,比如語(yǔ)義的標識、知識表示以及推理等。面對海量的數據,精確、高效地檢索出自己需要的數據是第一步,語(yǔ)義化檢索符合存儲的技術(shù)發(fā)展趨勢。
8、存儲智能化
人工智能是計算機的發(fā)展方向,這是個(gè)理想而艱巨的目標。對于存儲系統來(lái)說(shuō),智能化代表著(zhù)自動(dòng)化、自適應、兼容性、自治管理、彈性應用,通過(guò)對系統的監控、分析和挖掘來(lái)發(fā)現數據應用的特點(diǎn)和使用者的行為模式并動(dòng)態(tài)調整配置,從而達到最佳的運行狀態(tài)。存儲智能化可以分別在存儲系統棧中的不同層次實(shí)現,包括磁盤(pán)、RAID、卷管理器、文件系統、NAS系統、應用系統,從而形成系統的存儲智能化。目前存儲智能化已經(jīng)有許多應用,例如,自動(dòng)分級存儲根據數據的訪(fǎng)問(wèn)頻度在不同存儲層級間流動(dòng),數據卷大小自動(dòng)調整,文件系統根據文件大小采用不同的數據塊大小,數據自動(dòng)遷移與復制,數據診斷與自動(dòng)糾錯。存儲智能化整體水平目前還很低,巨大容量、高性能、高可用性、高可靠性、高可擴性、高安全性的存儲系統實(shí)現和管理仍然非常艱巨和復雜。雖然我們已經(jīng)取得了一定的成果,但離真正的目標差距還很大,存儲學(xué)術(shù)界和業(yè)界都在這此而努力。智慧的存儲,讓數據在整個(gè)信息生命周期內有序、高效、自治,存儲效用最大化、簡(jiǎn)化管理、減少人工干預,這應該是存儲的大趨勢。