hbase安裝配置(整合到hadoop)
1.快速單機安裝:
在單機安裝Hbase的方法。會(huì )引導你通過(guò)shell創(chuàng )建一個(gè)表,插入一行,然后刪除它,最后停止Hbase。只要10分鐘就可以完成以下的操作。
1.1下載解壓最新版本
選擇一個(gè)
Apache 下載鏡像:
http://www.apache.org/dyn/closer.cgi/hbase/,下載 HBase Releases. 點(diǎn)擊 stable目錄,然后下載后綴為 .tar.gz 的文件; 例如 hbase-0.90.4.tar.gz.
$ tar xfz hbase-0.90.4.tar.gz
$ cd hbase-0.90.4
現在你已經(jīng)可以啟動(dòng)Hbase了。但是你可能需要先編輯 conf/hbase-site.xml 去配置hbase.rootdir,來(lái)選擇Hbase將數據寫(xiě)到哪個(gè)目錄 .
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:///DIRECTORY/hbase</value>
</property>
</configuration>
將 DIRECTORY 替換成你期望寫(xiě)文件的目錄. 默認 hbase.rootdir 是指向 /tmp/hbase-${user.name} ,也就說(shuō)你會(huì )在重啟后丟失數據(重啟的時(shí)候操作系統會(huì )清理/tmp目錄)
1.2. 啟動(dòng) HBase
現在啟動(dòng)Hbase:
$ ./bin/start-hbase.shstarting Master, logging to logs/hbase-user-master-example.org.out
現在你運行的是單機模式的Hbaes。所以的服務(wù)都運行在一個(gè)JVM上,包括Hbase和Zookeeper。Hbase的日志放在logs目錄,當你啟動(dòng)出問(wèn)題的時(shí)候,可以檢查這個(gè)日志。
1.3. Hbase Shell 練習
用shell連接你的Hbase
$ ./bin/hbase shellHBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010 hbase(main):001:0>
輸入 help 然后 <RETURN> 可以看到一列shell命令。這里的幫助很詳細,要注意的是表名,行和列需要加引號。
創(chuàng )建一個(gè)名為 test 的表,這個(gè)表只有一個(gè)column family 為 cf??梢粤谐鏊械谋韥?lái)檢查創(chuàng )建情況,然后插入些值。
hbase(main):003:0> create 'test', 'cf'0 row(s) in 1.2200 secondshbase(main):003:0> list 'table'test1 row(s) in 0.0550 secondshbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'0 row(s) in 0.0560 secondshbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'0 row(s) in 0.0370 secondshbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'0 row(s) in 0.0450 seconds
以上我們分別插入了3行。第一個(gè)行key為row1, 列為 cf:a, 值是 value1。Hbase中的列是由 column family前綴和列的名字組成的,以冒號間隔。例如這一行的列名就是a.
檢查插入情況.
Scan這個(gè)表,操作如下
hbase(main):007:0> scan 'test'ROW COLUMN+CELLrow1 column=cf:a, timestamp=1288380727188, value=value1row2 column=cf:b, timestamp=1288380738440, value=value2row3 column=cf:c, timestamp=1288380747365, value=value33 row(s) in 0.0590 seconds
Get一行,操作如下
hbase(main):008:0> get 'test', 'row1'COLUMN CELLcf:a timestamp=1288380727188, value=value11 row(s) in 0.0400 seconds
disable 再 drop 這張表,可以清除你剛剛的操作
hbase(main):012:0> disable 'test'0 row(s) in 1.0930 secondshbase(main):013:0> drop 'test'0 row(s) in 0.0770 seconds
關(guān)閉shell
hbase(main):014:0> exit
1.4. 停止 HBase
運行停止腳本來(lái)停止HBase.
$ ./bin/stop-hbase.shstopping hbase...............
2 Hbase集群安裝前注意
1) Java:(hadoop已經(jīng)安裝了)
2)
Hadoop 0.20.x 已經(jīng)正確安裝,并且可以啟動(dòng) HDFS 系統, 可參考的Hadoop安裝文檔:Hadoop集群配置(最全面總結)
http://blog.csdn.net/hguisu/article/details/72373953) ssh 必須安裝ssh , sshd 也必須運行,這樣Hadoop的腳本才可以遠程操控其他的Hadoop和Hbase進(jìn)程。ssh之間必須都打通,不用密碼都可以登錄,詳細方法可以 Google一下 ("ssh passwordless login").
4) NTP:集群的時(shí)鐘要保證基本的一致。稍有不一致是可以容忍的,但是很大的不一致會(huì ) 造成奇怪的行為。 運行
NTP 或者其他什么東西來(lái)同步你的時(shí)間.
如果你查詢(xún)的時(shí)候或者是遇到奇怪的故障,可以檢查一下系統時(shí)間是否正確!
設置集群各個(gè)節點(diǎn)時(shí)鐘:date -s “2012-02-13 14:00:00”
5) ulimit 和 nproc:
Base是數據庫,會(huì )在同一時(shí)間使用很多的文件句柄。大多數linux系統使用的默認值1024是不能滿(mǎn)足的,會(huì )導致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs?異常。還可能會(huì )發(fā)生這樣的異常
2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: ExceptionincreateBlockOutputStream java.io.EOFException
2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient:Abandoning block blk_-6935524980745310745_1391901
所以你需要修改你的最大文件句柄限制??梢栽O置到10k. 你還需要修改 hbase 用戶(hù)的 nproc,如果過(guò)低會(huì )造成 OutOfMemoryError異常。 [2] [3].
需要澄清的,這兩個(gè)設置是針對操作系統的,不是Hbase本身的。有一個(gè)常見(jiàn)的錯誤是Hbase運行的用戶(hù),和設置最大值的用戶(hù)不是一個(gè)用戶(hù)。在Hbase啟動(dòng)的時(shí)候,第一行日志會(huì )現在ulimit信息,所以你最好檢查一下。
設置ulimit:
如果你使用的是Ubuntu,你可以這樣設置:
在文件 /etc/security/limits.conf 添加一行,如:
hadoop - nofile 32768
可以把 hadoop 替換成你運行Hbase和Hadoop的用戶(hù)。如果你用兩個(gè)用戶(hù),你就需要配兩個(gè)。還有配nproc hard 和 softlimits. 如:
hadoop soft/hard nproc 32000
在 /etc/pam.d/common-session 加上這一行:
session required pam_limits.so
否則在 /etc/security/limits.conf上的配置不會(huì )生效.
還有注銷(xiāo)再登錄,這些配置才能生效!
7 )修改Hadoop HDFS Datanode同時(shí)處理文件的上限:dfs.datanode.max.xcievers
一個(gè) Hadoop HDFS Datanode 有一個(gè)同時(shí)處理文件的上限. 這個(gè)參數叫 xcievers (Hadoop的作者把這個(gè)單詞拼錯了). 在你加載之前,先確認下你有沒(méi)有配置這個(gè)文件conf/hdfs-site.xml里面的xceivers參數,至少要有4096:
<property>
<name>dfs.datanode.max.xcievers</name>
<value>4096</value>
</property>
對于HDFS修改配置要記得重啟.
如果沒(méi)有這一項配置,你可能會(huì )遇到奇怪的失敗。你會(huì )在Datanode的日志中看到xcievers exceeded,但是運行起來(lái)會(huì )報 missing blocks錯誤。例如: 02/12/1220:10:31 INFO hdfs.DFSClient: Could not obtain blockblk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No livenodes contain current block. Will get new block locations from namenode andretry...
8)繼承hadoop安裝的說(shuō)明:
每個(gè)機子/etc/hosts
10.64.56.74 node2 (master)
10.64.56.76 node1 (slave)
10.64.56.77 node3 (slave)
9) 繼續使用hadoop用戶(hù)安裝
Chown –R hadoop /usr/local/hbase
3 分布式模式配置
3.1配置conf/hbase-env.sh
# exportJAVA_HOME=/usr/java/jdk1.6.0/
exportJAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.26
# Tell HBase whether it should manage it'sown instance of Zookeeper or not.
export HBASE_MANAGES_ZK=true
不管是什么模式,你都需要編輯 conf/hbase-env.sh來(lái)告知Hbase java的安裝路徑.在這個(gè)文件里你還可以設置Hbase的運行環(huán)境,諸如 heapsize和其他 JVM有關(guān)的選項, 還有Log文件地址,等等. 設置 JAVA_HOME指向 java安裝的路徑.
一個(gè)分布式運行的Hbase依賴(lài)一個(gè)zookeeper集群。所有的節點(diǎn)和客戶(hù)端都必須能夠訪(fǎng)問(wèn)zookeeper。默認的情況下Hbase會(huì )管理一個(gè)zookeep集群。這個(gè)集群會(huì )隨著(zhù)Hbase的啟動(dòng)而啟動(dòng)。當然,你也可以自己管理一個(gè)zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 來(lái)切換。這個(gè)值默認是true的,作用是讓Hbase啟動(dòng)的時(shí)候同時(shí)也啟動(dòng)zookeeper.
讓Hbase使用一個(gè)現有的不被Hbase托管的Zookeep集群,需要設置 conf/hbase-env.sh文件中的HBASE_MANAGES_ZK 屬性為 false
# Tell HBase whether it should manage it's own instanceof Zookeeper or not.
exportHBASE_MANAGES_ZK=false
3.2 配置conf/hbase-site.xml
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://node1:49002/hbase</value>
<description>The directory shared byRegionServers.
</description>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
<description>The mode the clusterwill be in. Possible values are
false: standalone and pseudo-distributedsetups with managed Zookeeper
true: fully-distributed with unmanagedZookeeper Quorum (see hbase-env.sh)
</description>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2222</value>
<description>Property fromZooKeeper's config zoo.cfg.
The port at which the clients willconnect.
</description>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>node1,node2,node3</value>
<description>Comma separated listof servers in the ZooKeeper Quorum.
For example,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
By default this is set to localhost forlocal and pseudo-distributed modes
of operation. For a fully-distributedsetup, this should be set to a full
list of ZooKeeper quorum servers. IfHBASE_MANAGES_ZK is set in hbase-env.sh
this is the list of servers which we willstart/stop ZooKeeper on.
</description>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hadoop/zookeeper</value>
<description>Property fromZooKeeper's config zoo.cfg.
The directory where the snapshot isstored.
</description>
</property>
</configuration>
要想運行完全分布式模式,加一個(gè)屬性 hbase.cluster.distributed 設置為 true 然后把 hbase.rootdir 設置為HDFS的NameNode的位置。 例如,你的namenode運行在node1,端口是49002 你期望的目錄是 /hbase,使用如下的配置:hdfs://node1:49002/hbase
hbase.rootdir:這個(gè)目錄是region server的共享目錄,用來(lái)持久化Hbase。URL需要是'完全正確'的,還要包含文件系統的scheme。例如,要表示hdfs中的'/hbase'目錄,namenode 運行在node1的9090端口。則需要設置為hdfs://node1:49002/hbase。默認情況下Hbase是寫(xiě)到/tmp的。不改這個(gè)配置,數據會(huì )在重啟的時(shí)候丟失。默認: file:///tmp/hbase-${user.name}/hbase
hbase.cluster.distributed :Hbase的運行模式。false是單機模式,true是分布式模式。若為false,Hbase和Zookeeper會(huì )運行在同一個(gè)JVM里面。
默認: false
在hbase-site.xml配置zookeeper:
當Hbase管理zookeeper的時(shí)候,你可以通過(guò)修改zoo.cfg來(lái)配置zookeeper,
一個(gè)更加簡(jiǎn)單的方法是在 conf/hbase-site.xml里面修改zookeeper的配置。Zookeeer的配置是作為property寫(xiě)在 hbase-site.xml里面的。
對于zookeepr的配置,你至少要在 hbase-site.xml中列出zookeepr的ensemble servers,具體的字段是 hbase.zookeeper.quorum. 該這個(gè)字段的默認值是 localhost,這個(gè)值對于分布式應用顯然是不可以的. (遠程連接無(wú)法使用)。
hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客戶(hù)端連接的端口。
hbase.zookeeper.quorum:Zookeeper集群的地址列表,用逗號分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默認是localhost,是給偽分布式用的。要修改才能在完全分布式的情況下使用。如果在hbase-env.sh設置了HBASE_MANAGES_ZK,這些ZooKeeper節點(diǎn)就會(huì )和Hbase一起啟動(dòng)。
默認: localhost
運行一個(gè)zookeeper也是可以的,但是在生產(chǎn)環(huán)境中,你最好部署3,5,7個(gè)節點(diǎn)。部署的越多,可靠性就越高,當然只能部署奇數個(gè),偶數個(gè)是不可以的。你需要給每個(gè)zookeeper 1G左右的內存,如果可能的話(huà),最好有獨立的磁盤(pán)。 (獨立磁盤(pán)可以確保zookeeper是高性能的。).如果你的集群負載很重,不要把Zookeeper和RegionServer運行在同一臺機器上面。就像DataNodes 和 TaskTrackers一樣
hbase.zookeeper.property.dataDir:ZooKeeper的zoo.conf中的配置。 快照的存儲位置
把ZooKeeper保存數據的目錄地址改掉。默認值是 /tmp ,這里在重啟的時(shí)候會(huì )被操作系統刪掉,可以把它修改到 /home/hadoop/zookeeper (這個(gè)路徑hadoop用戶(hù)擁有操作權限)
對于獨立的Zookeeper,要指明Zookeeper的host和端口??梢栽?nbsp;hbase-site.xml中設置, 也可以在Hbase的CLASSPATH下面加一個(gè)zoo.cfg配置文件。 HBase 會(huì )優(yōu)先加載 zoo.cfg 里面的配置,把hbase-site.xml里面的覆蓋掉.
參見(jiàn)
http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查找hbase.zookeeper.property 前綴,找到關(guān)于zookeeper的配置。
3.3 配置conf/regionservers
Node1
Node2
完全分布式模式的還需要修改conf/regionservers. 在這里列出了你希望運行的全部 HRegionServer,一行寫(xiě)一個(gè)host (就像Hadoop里面的 slaves 一樣). 列在這里的server會(huì )隨著(zhù)集群的啟動(dòng)而啟動(dòng),集群的停止而停止.
4 運行和確認你的安裝
4.1當Hbase托管ZooKeeper的時(shí)候
當Hbase托管ZooKeeper的時(shí)候Zookeeper集群的啟動(dòng)是Hbase啟動(dòng)腳本的一部分
首先確認你的HDFS是運行著(zhù)的。你可以運行HADOOP_HOME中的 bin/start-hdfs.sh 來(lái)啟動(dòng)HDFS.你可以通過(guò)put命令來(lái)測試放一個(gè)文件,然后有g(shù)et命令來(lái)讀這個(gè)文件。通常情況下Hbase是不會(huì )運行mapreduce的。所以比不需要檢查這些。
用如下命令啟動(dòng)Hbase:
bin/start-hbase.sh
這個(gè)腳本在HBASE_HOME目錄里面。
你現在已經(jīng)啟動(dòng)Hbase了。Hbase把log記在 logs 子目錄里面. 當Hbase啟動(dòng)出問(wèn)題的時(shí)候,可以看看Log.
Hbase也有一個(gè)界面,上面會(huì )列出重要的屬性。默認是在Master的60010端口上H (HBase RegionServers 會(huì )默認綁定 60020端口,在端口60030上有一個(gè)展示信息的界面 ).如果Master運行在 node1,端口是默認的話(huà),你可以用瀏覽器在 http://node:60010看到主界面. .
一旦Hbase啟動(dòng),可以看到如何建表,插入數據,scan你的表,還有disable這個(gè)表,最后把它刪掉。
可以在Hbase Shell停止Hbase
$./bin/stop-hbase.sh
stoppinghbase...............
停止操作需要一些時(shí)間,你的集群越大,停的時(shí)間可能會(huì )越長(cháng)。如果你正在運行一個(gè)分布式的操作,要確認在Hbase徹底停止之前,Hadoop不能停.
4.2獨立的zookeeper啟動(dòng),
除了啟動(dòng)habse,
執行:bin/start-hbase.sh啟動(dòng)habse
你需要自己去運行zookeeper:
${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper
你可以用這條命令啟動(dòng)ZooKeeper而不啟動(dòng)Hbase. HBASE_MANAGES_ZK 的值是 false, 如果你想在Hbase重啟的時(shí)候不重啟ZooKeeper,你可以這樣。
5.測試:
可以使用jps查看進(jìn)程:在master上:
在node2,node3(slave節點(diǎn))上
通過(guò)瀏覽器查看60010端口:
6 在安裝中出現的問(wèn)題:
1 )
用./start-hbase.sh啟動(dòng)HBase后,執行hbase shell
# bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Version: 0.20.6, rUnknown, Thu Oct 28 19:02:04 CST 2010
接著(zhù)創(chuàng )建表時(shí)候出現如下情況:hbase(main):001:0> create 'test',''c
NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null
jps下,發(fā)現主節點(diǎn)上HMaster沒(méi)有啟動(dòng),查理HBase log(logs/hbase-hadoop-master-ubuntu.log)里有下面異常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException
解決:
從hadoop_home/下面cp一個(gè)hadoop/hadoop-core-0.20.203.0.jar到hbase_home/lib下。
因為Hbase建立在Hadoop之上,所以他用到了hadoop.jar,這個(gè)Jar在 lib 里面。這個(gè)jar是hbase自己打了branch-0.20-append 補丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必須 一致。所以你需要將 Hbaselib 目錄下的hadoop.jar替換成Hadoop里面的那個(gè),防止版本沖突。比方說(shuō)CDH的版本沒(méi)有HDFS-724而branch-0.20-append里面有,這個(gè)HDFS-724補丁修改了RPC協(xié)議。如果不替換,就會(huì )有版本沖突,繼而造成嚴重的出錯,Hadoop會(huì )看起來(lái)掛了。
再用./start-hbase.sh啟動(dòng)HBase后,jps下,發(fā)現主節點(diǎn)上HMaster還是沒(méi)有啟動(dòng),在HBase log里有下面異常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
解決:
在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration
果斷給他加一個(gè)commons-configuration包,
從hadoop_home/lib下面cp一個(gè)hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。
(集群上所有機子的hbase配置都需要一樣)
2 注意事項:
1)、先啟動(dòng)hadoop后,再開(kāi)啟hbase
2)、去掉hadoop的安全模式:hadoop dfsadmin -safemode leave
3)、把/etc/hosts里的ubuntu的IP改為服務(wù)器當前的IP
4) 、確認hbase的hbase-site.xml中
<name>hbase.rootdir</name>
<value>hdfs://node:49002/hbase</value>
與hadoop的core-site.xml中
<name>fs.default.name</name>
<value>hdfs://node:49002/hbase</value>
紅字部分保持一致
<value>hdfs://localhost:8020/hbase</value>
6)、重新執行./start-hbase.sh之前,先kill掉當前的hbase和zookeeper進(jìn)程
PS:遇到問(wèn)題時(shí),先查看logs,很有幫助。
HBase 官方文檔,全面介紹hbase安裝配置:
http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations