在進(jìn)入集群系統架構探討之前,先定義一些專(zhuān)門(mén)術(shù)語(yǔ):
1. 集群(Cluster):是一組獨立的計算機系統構成一個(gè)松耦合的多處理器系統,它們之間通過(guò)網(wǎng)絡(luò )實(shí)現進(jìn)程間的通信。應用程序可以通過(guò)網(wǎng)絡(luò )共享內存進(jìn)行消息傳送,實(shí)現分布式計算機。
2. 負載均衡(Load Balance):先得從集群講起,集群就是一組連在一起的計算機,從外部看它是一個(gè)系統,各節點(diǎn)可以是不同的操作系統或不同硬件構成的計算機。如一個(gè)提供Web服務(wù)的集群,對外界來(lái)看是一個(gè)大Web服務(wù)器。不過(guò)集群的節點(diǎn)也可以單獨提供服務(wù)。
3. 特點(diǎn):在現有網(wǎng)絡(luò )結構之上,負載均衡提供了一種廉價(jià)有效的方法擴展服務(wù)器帶寬和增加吞吐量,加強網(wǎng)絡(luò )數據處理能力,提高網(wǎng)絡(luò )的靈活性和可用性。集群系統(Cluster)主要解決下面幾個(gè)問(wèn)題:
高可靠性(HA):利用集群管理軟件,當主服務(wù)器故障時(shí),備份服務(wù)器能夠自動(dòng)接管主服務(wù)器的工作,并及時(shí)切換過(guò)去,以實(shí)現對用戶(hù)的不間斷服務(wù)。
高性能計算(HP):即充分利用集群中的每一臺計算機的資源,實(shí)現復雜運算的并行處理,通常用于科學(xué)計算領(lǐng)域,比如基因分析,化學(xué)分析等。
負載平衡:即把負載壓力根據某種算法合理分配到集群中的每一臺計算機上,以減輕主服務(wù)器的壓力,降低對主服務(wù)器的硬件和軟件要求。
目前比較常用的負載均衡技術(shù)主要有:
1. 基于DNS的負載均衡
通過(guò)DNS服務(wù)中的隨機名字解析來(lái)實(shí)現負載均衡,在DNS服務(wù)器中,可以為多個(gè)不同的地址配置同一個(gè)名字,而最終查詢(xún)這個(gè)名字的客戶(hù)機將在解析這個(gè)名字時(shí)得到其中一個(gè)地址。因此,對于同一個(gè)名字,不同的客戶(hù)機會(huì )得到不同的地址,他們也就訪(fǎng)問(wèn)不同地址上的Web服務(wù)器,從而達到負載均衡的目的。
2. 反向代理負載均衡 (如Apache+JK2+Tomcat這種組合)
使用代理服務(wù)器可以將請求轉發(fā)給內部的Web服務(wù)器,讓代理服務(wù)器將請求均勻地轉發(fā)給多臺內部Web服務(wù)器之一上,從而達到負載均衡的目的。這種代理方式與普通的代理方式有所不同,標準代理方式是客戶(hù)使用代理訪(fǎng)問(wèn)多個(gè)外部Web服務(wù)器,而這種代理方式是多個(gè)客戶(hù)使用它訪(fǎng)問(wèn)內部Web服務(wù)器,因此也被稱(chēng)為反向代理模式。
3. 基于NAT(Network Address Translation)的負載均衡技術(shù) (如Linux Virtual Server,簡(jiǎn)稱(chēng)LVS)
網(wǎng)絡(luò )地址轉換為在內部地址和外部地址之間進(jìn)行轉換,以便具備內部地址的計算機能訪(fǎng)問(wèn)外部網(wǎng)絡(luò ),而當外部網(wǎng)絡(luò )中的計算機訪(fǎng)問(wèn)地址轉換網(wǎng)關(guān)擁有的某一外部地址時(shí),地址轉換網(wǎng)關(guān)能將其轉發(fā)到一個(gè)映射的內部地址上。因此如果地址轉換網(wǎng)關(guān)能將每個(gè)連接均勻轉換為不同的內部服務(wù)器地址,此后外部網(wǎng)絡(luò )中的計算機就各自與自己轉換得到的地址上服務(wù)器進(jìn)行通信,從而達到負載分擔的目的。
介紹完上面的集群技術(shù)之后,下面就基于Tomcat的集群架構方案進(jìn)行說(shuō)明:
上面是采用了Apache httpd作為web服務(wù)器的,即作為Tomcat的前端處理器,根據具體情況而定,有些情況下是不需要Apache httpd作為 web 服務(wù)器的,如系統展現沒(méi)有靜態(tài)頁(yè)面那就不需要Apache httpd,那時(shí)可以直接使用Tomcat作為web 服務(wù)器來(lái)使用。使用Apache httpd主要是它在處理靜態(tài)頁(yè)面方面的能力比Tomcat強多了。
1、 用戶(hù)的網(wǎng)頁(yè)瀏覽器做完本地 DNS和企業(yè)授權的DNS之的請求/響應后,這時(shí)候企業(yè)授權的DNS(即21cn BOSS DNS)會(huì )給用戶(hù)本地的DNS服務(wù)器提供一個(gè)NAT請求分配器(即網(wǎng)關(guān))IP。
2、 NAT分配器,它會(huì )根據特定的分配算法,來(lái)決定要將連接交給哪一臺內部 Apache httpd來(lái)處理請求。大多數的NAT請求分配器提供了容錯能力:根據偵測各種WEB服務(wù)器的失效狀況,停止將請求分配給已經(jīng)宕掉的服務(wù)器。并且有些分配器還可以監測到WEB服務(wù)器機器的負載情況,并將請求分配給負載最輕的服務(wù)器等等。Linux Virtual Server是一個(gè)基于Linux操作系統上執行的VS-NAT開(kāi)源軟件套件,而且它有豐富的功能和良好的說(shuō)明文件。商業(yè)硬件解決方案 Foundry Networks的ServerIron是目前業(yè)界公認最佳的請求分配器之一。
3、 Apache httpd + Mod_JK2在這里是作為負載均衡器,那為什么要做集群呢?如果集群系統要具備容錯能力,以便在任何單一的硬件或軟件組件失效時(shí)還能100%可用,那么集群系統必須沒(méi)有單點(diǎn)故障之憂(yōu)。所以,不能只架設一臺有mod_jk2的Apache httpd,因為如果 httpd或mod_jk2失效了,將不會(huì )再有請求被會(huì )送交到任何一個(gè)Tomcat 實(shí)例。這種情況下,Apache httpd就是瓶勁,特別在訪(fǎng)問(wèn)量大的網(wǎng)站。
4、 Mod_JK2負載均衡與故障復原,決定把Apache httpd當成web服務(wù)器,而且使用mod_jk2將請求傳送給Tomcat,則可以使用mod_jk2的負載均衡與容錯功能。在集群系統中,帶有mod_jk2的Apache httpd可以做的事情包括:
A、 將請求分配至一或多個(gè)Tomcat實(shí)例上
你可以在mod_jk2的workers.properties文件中,設定許多Tomcat實(shí)例,并賦于每個(gè)實(shí)例一個(gè)lb_factor值,以作為請求分配的加權因子。
B、 偵測Tomcat實(shí)例是否失敗
當Tomcat實(shí)例的連接器服務(wù)不再響應時(shí),mod_jk2會(huì )及時(shí)偵測到,并停止將請求送給它。其他的Tomcat實(shí)例則會(huì )接受失效實(shí)例的負載。
C、 偵測Tomcat實(shí)例在失效后的何時(shí)恢復
因連接器服務(wù)失效,而停止將請求分配給Tomcat實(shí)例之后,mod_jk2會(huì )周期性地檢查是否已恢復使用性,并自動(dòng)將其加入現行的Tomcat實(shí)例池中。
5、 Tomcat中的集群原理是通過(guò)組播的方式進(jìn)行節點(diǎn)的查找并使用TCP連接進(jìn)行會(huì )話(huà)的復制。這里提示一下就是,對每個(gè)請求的處理,Tomcat都會(huì )進(jìn)行會(huì )話(huà)復制,復制后的會(huì )話(huà)將會(huì )慢慢變得龐大。
6、 Mod_jk2同時(shí)支持會(huì )話(huà)親和和會(huì )話(huà)復制。在tomcat 5中如何實(shí)現會(huì )話(huà)親和和會(huì )話(huà)復制?把server.xml中的標簽去掉就實(shí)現會(huì )話(huà)親和,把標簽加上就實(shí)現會(huì )話(huà)復制。
7、 會(huì )話(huà)親和:就是表示來(lái)自同會(huì )話(huà)的所有請求都由相同的Tomcat 實(shí)例來(lái)處理,這種情況下,如果Tomcat實(shí)例或所執行的服務(wù)器機器失效,也會(huì )喪失Servlet的會(huì )話(huà)數據。即使在集群系統中執行更多的Tomcat實(shí)例,也永遠不會(huì )復制會(huì )話(huà)數據。這樣是提高集群性能的一種方案,但不具備有容錯能力了。
8、 使用會(huì )話(huà)復制,則當一個(gè)Tomcat實(shí)例宕掉時(shí),由于至少還有另一個(gè)Tomcat實(shí)例保有一份會(huì )話(huà)狀態(tài)數據,因而數據不會(huì )喪失。但性能會(huì )有所降低。
聯(lián)系客服