• 系統環境:

    Ubuntu 11.10

  • 安裝步驟

    Step1    JDK安裝

    原因: Hadoop的程式都是使用java所撰寫的,需要有Java執行環境,安裝JDK也可供日後開發或測試MapReduce等程式

    指令: $sudo apt-get install openjdk-6-jdk

    Step2    ssh server安裝

    原因: Hadoop啟用時,需要遠端連線到所設定的各節點,各節點必須建立互信機制,則是使用ssh的方式連線

    指令: $sudo apt-get install openssh-server

    Step3    ssh 免登入設定

    原因: 當節點數一多時,使用ssh遠端連線到一個節點便要key一次密碼,這相當的不方便,以及安全性問題

    指令:

        $ssh-keygen –t rsa –P ‘’  (產生公鑰與私鑰)

        $cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys   (將公鑰複製到受驗證金鑰內,此以本機為例)

        $ssh localhost   (測試是否可免密碼登入)

    Step4    Hadoop下載

    指令:

        $sudo chown hadoop:hadoop /opt    (改變/opt資料夾的擁有者與群組)

        $cd /opt    (變更工作目錄到/opt)

        $wget http://ftp.tc.edu.tw/pub/Apache//hadoop/common/hadoop-0.20.205.0/hadoop-0.20.205.0.tar.gz    (下載Hadoop-0.20.205.0壓縮檔)

        $tar –xvf hadoop-0.20.205.0.tar.gz    (解壓縮)

    Step5    Hadoop環境設定

        (1)開啟/opt/hadoop-0.20.205.0/conf/masters檔案,將內容清空

            此檔案中所設定的節點位址,指的是要運行的Secondary namenode,如不需要運行,則清空以免佔用系統資源

        (2)開啟/opt/hadoop-0.20.205.0/conf/slavers檔案,鍵入所有叢集節點的hostname或ip(一行一個節點)

            此檔案決定所連接的datanode

        (3)設定/opt/hadoop-0.20.205.0/conf/core-site.xml,內容如下

        <configuration>

        <!--設定hadoop hdfs路徑,請以hostname或ip表示,盡量避免localhost或127.0.0.1-->

        <property>

        <name>fs.default.name</name>

        <value>hdfs://主節點ip:9000</value>

        </property>

        </configuration>

        (4)設定/opt/hadoop-0.20.205.0/conf/hdfs-site.xml,內容如下

        <configuration>

        <!--設定hadoop資料複本數,虛擬分散架構下請設為1-->

        <property>

        <name>dfs.replication</name>

        <value>1</value>

        </property>

        <!--設定hadoop資料儲存路徑-->

        <property>

        <name>hadoop.tmp.dir</name>

        <value>/opt/hadoop-data</value>

        </property>

        </configuration>

        (5)設定/opt/hadoop-0.20.205.0/conf/mapred-site.xml,內容如下

        <configuration>

        <!--設定hadoop jobtracker,請以hostname或ip表示,盡量避免localhost或127.0.0.1-->

        <property>

        <name>mapred.job.tracker</name>

        <value>主節點ip:9001</value>

        </property>

        <property>

        <name>mapred.map.tasker</name>

        <value>5</value>

        </property>

        </configuration>

        (6)設定/opt/hadoop-0.20.205.0/conf/hadoop-env.sh,內容如下

        export JAVA_HOME = /usr/lib/jvm/java-6-openjdk  (加入此行以設定JAVA_HOME位置)

    Step6    namenode格式化

    原因: 當環境設定好後,必需先針對namenode做格式化,產生hadoop的目錄資料結構

    指令: $bin/hadoop namenode –format

    Step7    啟動Hadoop

    指令: $bin/start-all.sh   (hadoop 內建的啟動叢集shell程序)

    Step8    測試Hadoop

    於瀏覽器鍵入http://主節點ip:50030,便可看到Hadoop Map/Reduce管理畫面,顯示目前叢集可提供之運算能力並顯示你目前的節點數(請確定是否正確)

    於瀏覽器鍵入http://主節點ip:50070,便可看到Hadoop NameNode管理畫面,顯示目前叢集的資料儲存能力,以及存活與死亡的節點數(請確定是否正確)

   

arrow
arrow
    全站熱搜

    ciner945 發表在 痞客邦 留言(0) 人氣()