- 系統環境:
Ubuntu 11.10
- 安裝步驟
Step1 JDK安裝
原因: Hadoop的程式都是使用java所撰寫的,需要有Java執行環境,安裝JDK也可供日後開發或測試MapReduce等程式
指令: $sudo apt-get install openjdk-6-jdk
Step2 ssh server安裝
原因: Hadoop啟用時,需要遠端連線到所設定的各節點,各節點必須建立互信機制,則是使用ssh的方式連線
指令: $sudo apt-get install openssh-server
Step3 ssh 免登入設定
原因: 當節點數一多時,使用ssh遠端連線到一個節點便要key一次密碼,這相當的不方便,以及安全性問題
指令:
$ssh-keygen –t rsa –P ‘’ (產生公鑰與私鑰)
$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys (將公鑰複製到受驗證金鑰內,此以本機為例)
$ssh localhost (測試是否可免密碼登入)
Step4 Hadoop下載
指令:
$sudo chown hadoop:hadoop /opt (改變/opt資料夾的擁有者與群組)
$cd /opt (變更工作目錄到/opt)
$wget http://ftp.tc.edu.tw/pub/Apache//hadoop/common/hadoop-0.20.205.0/hadoop-0.20.205.0.tar.gz (下載Hadoop-0.20.205.0壓縮檔)
$tar –xvf hadoop-0.20.205.0.tar.gz (解壓縮)
Step5 Hadoop環境設定
(1)開啟/opt/hadoop-0.20.205.0/conf/masters檔案,將內容清空
此檔案中所設定的節點位址,指的是要運行的Secondary namenode,如不需要運行,則清空以免佔用系統資源
(2)開啟/opt/hadoop-0.20.205.0/conf/slavers檔案,鍵入所有叢集節點的hostname或ip(一行一個節點)
此檔案決定所連接的datanode
(3)設定/opt/hadoop-0.20.205.0/conf/core-site.xml,內容如下
<configuration>
<!--設定hadoop hdfs路徑,請以hostname或ip表示,盡量避免localhost或127.0.0.1-->
<property>
<name>fs.default.name</name>
<value>hdfs://主節點ip:9000</value>
</property>
</configuration>
(4)設定/opt/hadoop-0.20.205.0/conf/hdfs-site.xml,內容如下
<configuration>
<!--設定hadoop資料複本數,虛擬分散架構下請設為1-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--設定hadoop資料儲存路徑-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-data</value>
</property>
</configuration>
(5)設定/opt/hadoop-0.20.205.0/conf/mapred-site.xml,內容如下
<configuration>
<!--設定hadoop jobtracker,請以hostname或ip表示,盡量避免localhost或127.0.0.1-->
<property>
<name>mapred.job.tracker</name>
<value>主節點ip:9001</value>
</property>
<property>
<name>mapred.map.tasker</name>
<value>5</value>
</property>
</configuration>
(6)設定/opt/hadoop-0.20.205.0/conf/hadoop-env.sh,內容如下
export JAVA_HOME = /usr/lib/jvm/java-6-openjdk (加入此行以設定JAVA_HOME位置)
Step6 namenode格式化
原因: 當環境設定好後,必需先針對namenode做格式化,產生hadoop的目錄資料結構
指令: $bin/hadoop namenode –format
Step7 啟動Hadoop
指令: $bin/start-all.sh (hadoop 內建的啟動叢集shell程序)
Step8 測試Hadoop
於瀏覽器鍵入http://主節點ip:50030,便可看到Hadoop Map/Reduce管理畫面,顯示目前叢集可提供之運算能力並顯示你目前的節點數(請確定是否正確)
於瀏覽器鍵入http://主節點ip:50070,便可看到Hadoop NameNode管理畫面,顯示目前叢集的資料儲存能力,以及存活與死亡的節點數(請確定是否正確)
留言列表