于敦德 2006-3-16
在上線(xiàn)后,LiveJournal實(shí)現了非??焖俚脑鲩L(cháng):

LiveJournal從1臺服務(wù)器發(fā)展到100臺服務(wù)器,這其中經(jīng)歷了無(wú)數的傷痛,但同時(shí)也摸索出了解決這些問(wèn)題的方法,通過(guò)對LiveJournal的學(xué)習,可以讓我們避免LJ曾經(jīng)犯過(guò)的錯誤,并且從一開(kāi)始就對系統進(jìn)行良好的設計,以避免后期的痛苦。
下面我們一步一步看LJ發(fā)展的腳步。
一臺別人捐助的服務(wù)器,LJ最初就跑在上面,就像Google開(kāi)始時(shí)候用的破服務(wù)器一樣,值得我們尊敬。這個(gè)階段,LJ的人以驚人的速度熟悉的Unix的操作管理,服務(wù)器性能出現過(guò)問(wèn)題,不過(guò)還好,可以通過(guò)一些小修小改應付過(guò)去。在這個(gè)階段里L(fēng)J把CGI升級到了FastCGI。
最終問(wèn)題出現了,網(wǎng)站越來(lái)越慢,已經(jīng)無(wú)法通過(guò)優(yōu)過(guò)化來(lái)解決的地步,需要更多的服務(wù)器,這時(shí)LJ開(kāi)始提供付費服務(wù),可能是想通過(guò)這些錢(qián)來(lái)購買(mǎi)新的服務(wù)器,以解決當時(shí)的困境。
毫無(wú)疑問(wèn),當時(shí)LJ存在巨大的單點(diǎn)問(wèn)題,所有的東西都在那臺服務(wù)器的鐵皮盒子里裝著(zhù)。

用付費服務(wù)賺來(lái)的錢(qián)LJ買(mǎi)了兩臺服務(wù)器:一臺叫做Kenny的Dell 6U機器用于提供Web服務(wù),一臺叫做Cartman的Dell 6U服務(wù)器用于提供數據庫服務(wù)。

LJ有了更大的磁盤(pán),更多的計算資源。但同時(shí)網(wǎng)絡(luò )結構還是非常簡(jiǎn)單,每臺機器兩塊網(wǎng)卡,Cartman通過(guò)內網(wǎng)為Kenny提供MySQL數據庫服務(wù)。
暫時(shí)解決了負載的問(wèn)題,新的問(wèn)題又出現了:
又買(mǎi)了兩臺,Kyle和Stan,這次都是1U的,都用于提供Web服務(wù)。目前LJ一共有3臺Web服務(wù)器和一臺數據庫服務(wù)器。這時(shí)需要在3臺Web服務(wù)器上進(jìn)行負載均橫。

LJ把Kenny用于外部的網(wǎng)關(guān),使用mod_backhand進(jìn)行負載均橫。
然后問(wèn)題又出現了:
又買(mǎi)了一臺數據庫服務(wù)器。在兩臺數據庫服務(wù)器上使用了數據庫同步(Mysql支持的Master-Slave模式),寫(xiě)操作全部針對主數據庫(通過(guò)Binlog,主服務(wù)器上的寫(xiě)操作可以迅速同步到從服務(wù)器上),讀操作在兩個(gè)數據庫上同時(shí)進(jìn)行(也算是負載均橫的一種吧)。

實(shí)現同步時(shí)要注意幾個(gè)事項:
有錢(qián)了,當然要多買(mǎi)些服務(wù)器。部署后快了沒(méi)多久,又開(kāi)始慢了。這次有更多的Web服務(wù)器,更多的數據庫服務(wù)器,存在 IO與CPU爭用。于是采用了BIG-IP作為負載均衡解決方案。


現在服務(wù)器基本上夠了,但性能還是有問(wèn)題,原因出在架構上。
數據庫的架構是最大的問(wèn)題。由于增加的數據庫都是以Slave模式添加到應用內,這樣唯一的好處就是將讀操作分布到了多臺機器,但這樣帶來(lái)的后果就是寫(xiě)操作被大量分發(fā),每臺機器都要執行,服務(wù)器越多,浪費就越大,隨著(zhù)寫(xiě)操作的增加,用于服務(wù)讀操作的資源越來(lái)越少。

由一臺分布到兩臺

最終效果
現在我們發(fā)現,我們并不需要把這些數據在如此多的服務(wù)器上都保留一份。服務(wù)器上已經(jīng)做了RAID,數據庫也進(jìn)行了備份,這么多的備份完全是對資源的浪費,屬于冗余極端過(guò)度。那為什么不把數據分布存儲呢?
問(wèn)題發(fā)現了,開(kāi)始考慮如何解決?,F在要做的就是把不同用戶(hù)的數據分布到不同的服務(wù)器上進(jìn)行存儲,以實(shí)現數據的分布式存儲,讓每臺機器只為相對固定的用戶(hù)服務(wù),以實(shí)現平行的架構和良好的可擴展性。
為了實(shí)現用戶(hù)分組,我們需要為每一個(gè)用戶(hù)分配一個(gè)組標記,用于標記此用戶(hù)的數據存放在哪一組數據庫服務(wù)器中。每組數據庫由一個(gè)master及幾個(gè)slave組成,并且slave的數量在2-3臺,以實(shí)現系統資源的最合理分配,既保證數據讀操作分布,又避免數據過(guò)度冗余以及同步操作對系統資源的過(guò)度消耗。

由一臺(一組)中心服務(wù)器提供用戶(hù)分組控制。所有用戶(hù)的分組信息都存儲在這臺機器上,所有針對用戶(hù)的操作需要先查詢(xún)這臺機器得到用戶(hù)的組號,然后再到相應的數據庫組中獲取數據。
這樣的用戶(hù)架構與目前LJ的架構已經(jīng)很相像了。
在具體的實(shí)現時(shí)需要注意幾個(gè)問(wèn)題:

問(wèn)題:
對于Master-Slave模式的單點(diǎn)問(wèn)題,LJ采取了Master-Master模式來(lái)解決。所謂Master-Master實(shí)際上是人工實(shí)現的,并不是由MySQL直接提供的,實(shí)際上也就是兩臺機器同時(shí)是Master,也同時(shí)是Slave,互相同步。
Master-Master實(shí)現時(shí)需要注意:
解決方案:
Master-Master模式還有一種用法,這種方法與前一種相比,仍然保持兩臺機器的同步,但只有一臺機器提供服務(wù)(讀和寫(xiě)),在每天晚上的時(shí)候進(jìn)行輪換,或者出現問(wèn)題的時(shí)候進(jìn)行切換。

現在插播一條廣告,MyISAM VS InnoDB。
使用InnoDB:
使用MyISAM:
去年我寫(xiě)過(guò)一篇文章介紹memcached,它就是由LJ的團隊開(kāi)發(fā)的一款緩存工具,以key-value的方式將數據存儲到分布的內存中。LJ緩存的數據:
如何建立緩存策略?
想緩存所有的東西?那是不可能的,我們只需要緩存已經(jīng)或者可能導致系統瓶頸的地方,最大程度的提交系統運行效率。通過(guò)對MySQL的日志的分析我們可以找到緩存的對象。
緩存的缺點(diǎn)?
在數據包級別使用BIG-IP,但BIG-IP并不知道我們內部的處理機制,無(wú)法判斷由哪臺服務(wù)器對這些請求進(jìn)行處理。反向代理并不能很好的起到作用,不是已經(jīng)夠快了,就是達不到我們想要的效果。
所以,LJ又開(kāi)發(fā)了Perlbal。特點(diǎn):
LJ使用開(kāi)源的MogileFS作為分布式文件存儲系統。MogileFS使用非常簡(jiǎn)單,它的主要設計思想是:
到目前為止就這么多了,更多文檔可以在http://www.danga.com/words/找到。Danga.com和LiveJournal.com的同學(xué)們拿這個(gè)文檔參加了兩次MySQL Con,兩次OS Con,以及眾多的其它會(huì )議,無(wú)私的把他們的經(jīng)驗分享出來(lái),值得我們學(xué)習。在web2.0時(shí)代快速開(kāi)發(fā)得到大家越來(lái)越多的重視,但良好的設計仍是每一個(gè)應用的基礎,希望web2.0們在成長(cháng)為T(mén)op500網(wǎng)站的路上,不要因為架構阻礙了網(wǎng)站的發(fā)展。
參考資料:http://www.danga.com/words/2005_oscon/oscon-2005.pdf
感謝向靜推薦了這篇文檔給我。
聯(lián)系客服