概述
hadoop2中NameNode可以有多個(gè)(目前只支持2個(gè))。每一個(gè)都有相同的職能。一個(gè)是active狀態(tài)的,一個(gè)是standby狀態(tài)的。當集群運行時(shí),只有active狀態(tài)的NameNode是正常工作的,standby狀態(tài)的NameNode是處于待命狀態(tài)的,時(shí)刻同步active狀態(tài)NameNode的數據。一旦active狀態(tài)的NameNode不能工作,standby狀態(tài)的NameNode就可以轉變?yōu)閍ctive狀態(tài)的,就可以繼續工作了。
2個(gè)NameNode的數據其實(shí)是實(shí)時(shí)共享的。新HDFS采用了一種共享機制,Quorum Journal Node(JournalNode)集群或者Nnetwork File System(NFS)進(jìn)行共享。NFS是操作系統層面的,JournalNode是hadoop層面的,我們這里使用JournalNode集群進(jìn)行數據共享(這也是主流的做法)。JournalNode的架構圖如下:

兩個(gè)NameNode為了數據同步,會(huì )通過(guò)一組稱(chēng)作JournalNodes的獨立進(jìn)程進(jìn)行相互通信。當active狀態(tài)的NameNode的命名空間有任何修改時(shí),會(huì )告知大部分的JournalNodes進(jìn)程。standby狀態(tài)的NameNode有能力讀取JNs中的變更信息,并且一直監控edit log的變化,把變化應用于自己的命名空間。standby可以確保在集群出錯時(shí),命名空間狀態(tài)已經(jīng)完全同步了。
對于HA集群而言,確保同一時(shí)刻只有一個(gè)NameNode處于active狀態(tài)是至關(guān)重要的。否則,兩個(gè)NameNode的數據狀態(tài)就會(huì )產(chǎn)生分歧,可能丟失數據,或者產(chǎn)生錯誤的結果。為了保證這點(diǎn),這就需要利用使用ZooKeeper了。首先HDFS集群中的兩個(gè)NameNode都在ZooKeeper中注冊,當active狀態(tài)的NameNode出故障時(shí),ZooKeeper能檢測到這種情況,它就會(huì )自動(dòng)把standby狀態(tài)的NameNode切換為active狀態(tài)。
hadoop-ha包含HDFS的HA和YARN的HA,下面就2個(gè)部件的HA進(jìn)行搭建。
環(huán)境介紹:
os:centos7.0
hadoop:2.8.0
zookeeper:3.4.10
5臺虛擬機,各服務(wù)部署情況如下:
主機名 | IP | 安裝軟件 | 運行進(jìn)程 |
c7001 | 192.168.70.101 | Hadoop(HA) | NameNode、ResourceManager、DFSZKFailoverController |
c7002 | 192.168.70.102 | Hadoop(HA) | NameNode、ResourceManager、DFSZKFailoverController |
c7003 | 192.168.70.103 | Hadoop,Zookeeper | DataNode、NodeManager、QuorumPeerMain、JournalNode |
c7004 | 192.168.70.104 | Hadoop,Zookeeper | DataNode、NodeManager、QuorumPeerMain、JournalNode |
c7005 | 192.168.70.105 | Hadoop,Zookeeper | DataNode、NodeManager、QuorumPeerMain、JournalNode |
說(shuō)明:出于操作的便利性,本篇使用vagrant+virtualbox來(lái)搭建虛擬環(huán)境。
1、工具安裝
1)、下載并安裝VirtualBox,下載地址 https://www.virtualbox.org/wiki/Downloads 版本為5.1.18
2)、下載并安裝Vagrant,下載地址 https://www.vagrantup.com/downloads.html 版本為1.9.3
3)、從GitHub上Clone ambari的ambari-vagrant到/opt/目錄下,在終端執行:
git clone https://github.com/u39kun/ambari-vagrant.git
4)、增加虛擬機的hosts配置到宿主機的/etc/hosts中
sudo -s 'cat ambari-vagrant/append-to-etc-hosts.txt >> /etc/hosts'
5)、使用vagrant命令創(chuàng )建一個(gè)私鑰
vagrant
此命令會(huì )在宿主機的~/.vagrant.d/目錄下創(chuàng )建insecure_private_key文件,并顯示出vagrant的用法。
2、安裝虛擬機
1)、在/opt目錄下執行
cd ambari-vagrant
cd centos7.0
cp ~/.vagrant.d/insecure_private_key . #此操作為宿主機到虛擬機的無(wú)密碼登錄
2)、由于我們是純Hadoop安裝,所以不需要每個(gè)虛擬機默認3.7G內存,(如果你宿主機內存多的話(huà),可以不做修改),故修改centos7.0目錄下的Vagrantfile。
vb.customize ["modifyvm", :id, "--memory", 2048] # RAM allocated to each VM
3)、通過(guò)目錄下./up.sh命令來(lái)啟動(dòng)1或多個(gè)虛擬機。每個(gè)虛擬機將運行一個(gè)hadoop節點(diǎn)。
./up.sh <# of VMs to launch>
比如要啟動(dòng)5個(gè)虛擬機,則命令為:./up.sh 5
至此我們的工具和虛擬機都已經(jīng)安裝完成,并且宿主機ssh到各個(gè)虛擬機都是無(wú)密碼連接。
說(shuō)明:此種安裝工具和虛擬機的過(guò)程需要vpn.
3、無(wú)密碼登錄
1)在宿主機終端/opt/ambari-vagrant/centos7.0目錄執行
vagrant ssh c7001
登錄到c7001,然后執行
ssh-keygen -t rsa
在~/.ssh/目錄中生成兩個(gè)文件id_rsa和id_rsa.pub
如果想從c7001免密碼登錄到c7002、c7003、c7004、c7005中要在c7001中執行
ssh-copy-id -i ~/.ssh/id_rsa.pub vagrant@c7001
ssh-copy-id -i ~/.ssh/id_rsa.pub vagrant@c7002
ssh-copy-id -i ~/.ssh/id_rsa.pub vagrant@c7003
ssh-copy-id -i ~/.ssh/id_rsa.pub vagrant@c7004
ssh-copy-id -i ~/.ssh/id_rsa.pub vagrant@c7005
實(shí)現c7001、c7002、c7003、c7004、c7005任意之間的無(wú)密碼登錄,重復上述步驟。
4、安裝ZooKeeper集群
此處不再贅述,請參看http://www.cnblogs.com/netbloomy/p/6658041.html
5、在c7001、c7002、c7003、c7004、c7005機器的/opt目錄下安裝jdk,并設置環(huán)境變量
wget http://download.oracle.com/otn-pub/java/jdk/8u121-b13/e9e7ea248e2c4826b92b3f075a80e441/jdk-8u121-linux-x64.tar.gz?AuthParam=1491205869_4d911aca9d38a4b869d2a6ecaa9bbf47
tar zxvf jdk-8u121-linux-x64.tar.gz
vi ~/.bash_profile
export JAVA_HOME=/opt/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin
6、安裝Hadoop集群
1)、下載并解壓hadoop
在c7001、c7002、c7003、c7004、c7005的終端目錄/opt下執行如下命令:
wget http://219.238.4.196/files/705200000559DFDC/apache.communilink.net/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz
然后再把各個(gè)機器上的hadoop解壓
tar zxvf hadoop-2.8.0.tar.gz
2)、在c7001終端修改hadoop配置文件,這里需要修改的有core-site.xml、hdfs-site.xml、mapreduce-site.xml、yarn-site.xml、hadoop-env.sh、mapred-env.sh、yarn-env.sh這7個(gè)文件
core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://bdcluster</value>
</property>
<!-- 指定hadoop臨時(shí)目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.8.0/tmp</value>
</property>
<!-- 指定zookeeper地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>ha.zookeeper.session-timeout.ms</name>
<value>3000</value>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--指定hdfs的nameservice為bdcluster,需要和core-site.xml中的保持一致 -->
<property>
<name>dfs.nameservices</name>
<value>bdcluster</value>
</property>
<!-- bdcluster下面有兩個(gè)NameNode,分別是nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.bdcluster</name>
<value>nn1,nn2</value>
</property>
<!-- nn1的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bdcluster.nn1</name>
<value>c7001:9000</value>
</property>
<!-- nn2的RPC通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bdcluster.nn2</name>
<value>c7002:9000</value>
</property>
<!-- nn1的http通信地址 -->
<property>
<name>dfs.namenode.http-address.bdcluster.nn1</name>
<value>c7001:50070</value>
</property>
<!-- nn2的http通信地址 -->
<property>
<name>dfs.namenode.http-address.bdcluster.nn2</name>
<value>c7002:50070</value>
</property>
<!-- 指定NameNode的元數據在JournalNode上的存放位置 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://c7003:8485;c7004:8485;c7005:8485/bdcluster</value>
</property>
<!-- 指定JournalNode在本地磁盤(pán)存放數據的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/hadoop-2.8.0/tmp/journal</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失敗自動(dòng)切換實(shí)現方式 -->
<property>
<name>dfs.client.failover.proxy.provider.bdcluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
</value>
</property>
<!-- 配置隔離機制,多個(gè)機制用換行分割,即每個(gè)機制暫用一行 -->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<!-- 使用sshfence隔離機制時(shí)需要ssh免密碼登陸 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/vagrant/.ssh/id_rsa</value>
</property>
<!-- 配置sshfence隔離機制超時(shí)時(shí)間 -->
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
<!--指定namenode名稱(chēng)空間的存儲地址 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///opt/hadoop-2.8.0/hdfs/name</value>
</property>
<!--指定datanode數據存儲地址 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///opt/hadoop-2.8.0/hdfs/data</value>
</property>
<!--指定數據冗余份數 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 配置 MapReduce JobHistory Server 地址 ,默認端口10020 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>0.0.0.0:10020</value>
</property>
<!-- 配置 MapReduce JobHistory Server web ui 地址, 默認端口19888 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>0.0.0.0:19888</value>
</property>
</configuration>
yarn-site.xml
<?xml version="1.0"?>
<configuration>
<!--開(kāi)啟resourcemanagerHA,默認為false -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!--開(kāi)啟自動(dòng)恢復功能 -->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!-- 指定RM的cluster id -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yrc</value>
</property>
<!--配置resourcemanager -->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 分別指定RM的地址 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>c7001</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>c7002</value>
</property>
<!-- <property> <name>yarn.resourcemanager.ha.id</name> <value>rm1</value>
<description>If we want to launch more than one RM in single node,we need
this configuration</description> </property> -->
<!-- 指定zk集群地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
!--配置與zookeeper的連接地址-->
<property>
<name>yarn.resourcemanager.zk-state-store.address</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>c7003:2181,c7004:2181,c7005:2181</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.zk-base-path</name>
<value>/yarn-leader-election</value>
<description>Optionalsetting.Thedefaultvalueis/yarn-leader-election
</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
hadoop-env.sh & mapred-env.sh & yarn-env.sh
export JAVA_HOME=/opt/jdk1.8.0_121
export CLASS_PATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/opt/hadoop-2.8.0
export HADOOP_PID_DIR=/opt/hadoop-2.8.0/pids
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_PREFIX=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
slaves
c7001
c7002
c7003
c7004
c7005
然后通過(guò)執行如下命令將c7001修改好的配置文件同步到c7002、c7003、c7004、c7005:
scp -r /opt/hadoop-2.8.0/etc/hadoop vagrant@c7002:/opt/hadoop-2.8.0/etc/
scp -r /opt/hadoop-2.8.0/etc/hadoop vagrant@c7003:/opt/hadoop-2.8.0/etc/
scp -r /opt/hadoop-2.8.0/etc/hadoop vagrant@c7004:/opt/hadoop-2.8.0/etc/
scp -r /opt/hadoop-2.8.0/etc/hadoop vagrant@c7005:/opt/hadoop-2.8.0/etc/
至此,hadoop的配置文件已經(jīng)全部配置完畢
7、啟動(dòng)Hadoop集群
1)、啟動(dòng)zookeeper集群
分別在c7003、c7004、c7005上執行如下命令啟動(dòng)zookeeper集群;
[vagrant@c7003 bin]$ sh zkServer.sh start
驗證集群zookeeper集群是否啟動(dòng),分別在c7003、c7004、c7005上執行如下命令驗證zookeeper集群是否啟動(dòng),集群?jiǎn)?dòng)成功,有兩個(gè)follower節點(diǎn)跟一個(gè)leader節點(diǎn);
[vagrant@c7003 bin]$ sh zkServer.sh status
JMX enabled by default
Using config: /opt/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: follower
2)、 啟動(dòng)journalnode集群
在c7001上執行如下命令完成JournalNode集群的啟動(dòng)
[vagrant@c7001 hadoop-2.8.0]$ sbin/hadoop-daemons.sh start journalnode
執行jps命令,可以查看到JournalNode的java進(jìn)程pid
3)、格式化zkfc,讓在zookeeper中生成ha節點(diǎn)
在c7001上執行如下命令,完成格式化
hdfs zkfc -formatZK
格式成功后,查看zookeeper中可以看到
[zk: localhost:2181(CONNECTED) 1] ls /hadoop-ha
[bdcluster]
4)、 格式化hdfs
hadoop namenode -format
5)、 啟動(dòng)NameNode
首先在c7001上啟動(dòng)active節點(diǎn),在c7001上執行如下命令
[vagrant@c7001 hadoop-2.8.0]$ sbin/hadoop-daemon.sh start namenode
在c7002上同步namenode的數據,同時(shí)啟動(dòng)standby的namenod,命令如下
#把NameNode的數據同步到c7002上
[vagrant@c7002 hadoop-2.8.0]$ bin/hdfs namenode -bootstrapStandby
#啟動(dòng)c7002上的namenode作為standby
[vagrant@c7002 hadoop-2.8.0]$ sbin/hadoop-daemon.sh start namenode
6)、 啟動(dòng)啟動(dòng)datanode
在c7001上執行如下命令
[vagrant@c7001 hadoop-2.8.0]$ sbin/hadoop-daemons.sh start datanode
7)、 啟動(dòng)yarn
在作為資源管理器上的機器上啟動(dòng),我這里是c7001,執行如下命令完成year的啟動(dòng)
[vagrant@c7001 hadoop-2.8.0]$ sbin/start-yarn.sh
8)、 啟動(dòng)ZKFC
在c7001上執行如下命令,完成ZKFC的啟動(dòng)
[vagrant@c7001 hadoop-2.8.0]$ sbin/hadoop-daemons.sh start zkfc
全部啟動(dòng)完后分別在c7001、c7002、c7003、c7004、c7005上執行jps是可以看到下面這些進(jìn)程的
#c7001上的java PID進(jìn)程
[vagrant@c7001 hadoop-2.8.0]$ jps
7857 DataNode
7270 JournalNode
8118 NodeManager
8550 DFSZKFailoverController
8007 ResourceManager
8968 NameNode
9065 Jps
#c7002上的java PID進(jìn)程
[vagrant@c7002 hadoop-2.8.0]$ jps
6929 DFSZKFailoverController
6738 NodeManager
6441 NameNode
6603 DataNode
6221 JournalNode
7615 Jps
#c7003上的java PID進(jìn)程
[vagrant@c7003 hadoop-2.8.0]$ jps
6040 DataNode
6473 Jps
4764 QuorumPeerMain
5870 JournalNode
6175 NodeManager
#c7004上的java PID進(jìn)程
[vagrant@c7004 hadoop-2.8.0]$ jps
4739 QuorumPeerMain
5875 JournalNode
6180 NodeManager
6475 Jps
6046 DataNode
#c7005上的java PID進(jìn)程
6227 NodeManager
6518 Jps
6091 DataNode
5916 JournalNode
4813 QuorumPeerMain
8、測試NameNode HA的高可用性
啟動(dòng)后c7001的namenode和c7002的namenode如下所示:


此時(shí)在c7001上執行如下命令關(guān)閉c7001上的namenode
[vagrant@c7001 hadoop-2.8.0]$ sbin/hadoop-daemon.sh stop namenode
再次查看c7002上的namenode,發(fā)現自動(dòng)切換為active了!證據如下:

上述驗證也可以使用命令hdfs haadmin進(jìn)行查看NameNode的狀態(tài)
查看namenode工作狀態(tài)
hdfs haadmin -getServiceState nn1
將standby狀態(tài)namenode切換到active
hdfs haadmin –transitionToActive nn1
將active狀態(tài)namenode切換到standby
hdfs haadmin –transitionToStandby nn2
9、ResourceManager HA
NameNode HA操作完之后我們可以發(fā)現只有一個(gè)節點(diǎn)(這里是c7001)啟動(dòng),需要手動(dòng)啟動(dòng)另外一個(gè)節點(diǎn)(c7002)的resourcemanager。
sbin/yarn-daemon.sh start resourcemanager
然后用以下指令查看resourcemanager狀態(tài)
yarn rmadmin -getServiceState rm1
結果顯示Active
yarn rmadmin -getServiceState rm2
而rm2是standby。
驗證HA和NameNode HA同理,kill掉Active resourcemanager,則standby的resourcemanager則會(huì )轉換為Active。
還有一條指令可以強制轉換
yarn rmadmin –transitionToStandby rm1
注意:yarn-site.xml的
<property>
<name>yarn.resourcemanager.ha.id</name>
<value>rm1</value>
<description>If we want to launch more than one RM in single node,we need this configuration</description>
</property>
在c7001上配置是rm1,而在c7002上一定要配置rm2,如果不修改,c7002的resourcemanager啟動(dòng)不了。
聯(lián)系客服