Vyhledávání na webu

Jak nainstalovat Hadoop Single Node Cluster (Pseudonode) na CentOS 7


Hadoop je open-source framework, který se široce používá pro práci s Bigdata. Většina projektů Bigdata/Data Analytics je postavena na Hadoop Eco-System. Skládá se ze dvou vrstev, jedna je pro Ukládání dat a druhá pro Zpracování dat.

O Úložiště se bude starat vlastní souborový systém nazvaný HDFS (Hadoop Distributed Filesystem) a o zpracování se postará care of by YARN (Ještě další vyjednavač zdrojů). Mapreduce je výchozím procesorem Hadoop Eco-System.

Tento článek popisuje proces instalace Pseudonode instalace Hadoop, kde budou všichni démoni (JVM) běžící Single Node Cluster na CentOS 7.

Toto je hlavně pro začátečníky, aby se naučili Hadoop. V reálném čase bude Hadoop nainstalován jako multiuzlový cluster, kde budou data distribuována mezi servery jako bloky a úloha bude prováděna paralelně.

Předpoklady

  • Minimální instalace serveru CentOS 7.
  • Vydání Java v1.8.
  • Hadoop 2.x stabilní vydání.

Na této straně

  • Jak nainstalovat Java na CentOS 7
  • Nastavte přihlášení bez hesla na CentOS 7
  • Jak nainstalovat Hadoop Single Node v CentOS 7
  • Jak nakonfigurovat Hadoop v CentOS 7
  • Formátování systému souborů HDFS prostřednictvím NameNode

Instalace Javy na CentOS 7

1. Hadoop je ekologický systém, který se skládá z Java. K instalaci Hadoop potřebujeme v našem systému povinně nainstalovanou Java.

yum install java-1.8.0-openjdk

2. Dále ověřte nainstalovanou verzi Java v systému.

java -version

Nakonfigurujte přihlášení bez hesla na CentOS 7

V našem počítači musíme mít nakonfigurované ssh, Hadoop bude spravovat uzly pomocí SSH. Hlavní uzel používá připojení SSH k připojení svých podřízených uzlů a provádění operací, jako je spuštění a zastavení.

Musíme nastavit ssh bez hesla, aby mohl master komunikovat s podřízenými pomocí ssh bez hesla. Jinak pro každé navázání připojení je třeba zadat heslo.

V tomto jediném uzlu jsou služby Master (Namenode, Secondary Namenode & Resource Manager) a Slave< služby (Datanode a Nodemanager) budou spuštěny jako samostatné JVM. I když je to jediný uzel, potřebujeme mít ssh bez hesla, aby Master mohl komunikovat Slave bez ověřování.

3. Nastavte přihlášení SSH bez hesla pomocí následujících příkazů na serveru.

ssh-keygen
ssh-copy-id -i localhost

4. Po konfiguraci přihlášení SSH bez hesla se zkuste přihlásit znovu, budete připojeni bez hesla.

ssh localhost

Instalace Hadoop v CentOS 7

5. Přejděte na web Apache Hadoop a stáhněte si stabilní vydání Hadoop pomocí následujícího příkazu wget.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Dále přidejte proměnné prostředí Hadoop do souboru ~/.bashrc podle obrázku.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Po přidání proměnných prostředí do souboru ~/.bashrc vytvořte zdrojový soubor a ověřte Hadoop spuštěním následujících příkazů.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

Konfigurace Hadoop v CentOS 7

Potřebujeme nakonfigurovat níže uvedené konfigurační soubory Hadoop, aby se vešly do vašeho počítače. V Hadoop má každá služba své vlastní číslo portu a vlastní adresář pro ukládání dat.

  • Konfigurační soubory Hadoop – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Nejprve musíme aktualizovat JAVA_HOME a Hadoop cestu v souboru hadoop-env.sh, jak je znázorněno .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Zadejte následující řádek na začátek souboru.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Dále upravte soubor core-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Následující text vložte mezi značky <configuration> podle obrázku.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Vytvořte níže uvedené adresáře v domovském adresáři uživatele tecmint, který bude použit pro úložiště NN a DN.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Dále upravte soubor hdfs-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Následující text vložte mezi značky <configuration> podle obrázku.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Znovu upravte soubor mapred-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Následující text vložte mezi značky <configuration> podle obrázku.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Nakonec upravte soubor yarn-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Následující text vložte mezi značky <configuration> podle obrázku.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

Formátování systému souborů HDFS prostřednictvím NameNode

13. Před spuštěním Clusteru musíme naformátovat Hadoop NN v našem místním systému, kde byl nainstalován. Obvykle se to provede v počáteční fázi před prvním spuštěním clusteru.

Formátování NN způsobí ztrátu dat v metaúložišti NN, takže musíme být opatrnější, neměli bychom formátovat NN za běhu clusteru, pokud to není vyžadováno záměrně.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. Spusťte démona NameNode a démona DataNode: (port 50070).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. Spusťte démona ResourceManager a démona NodeManager: (port 8088).

sbin/start-yarn.sh

16. Chcete-li zastavit všechny služby.

sbin/stop-dfs.sh
sbin/stop-dfs.sh
souhrn

Shrnutí
V tomto článku jsme krok za krokem prošli procesem nastavení Hadoop Pseudonode (Single Node) Clusteru. Pokud máte základní znalosti Linuxu a budete postupovat podle těchto kroků, cluster bude UP za 40 minut.

To může být velmi užitečné pro začátečníky, aby se začali učit a procvičovat Hadoop nebo tuto vanilkovou verzi Hadoop lze použít pro účely vývoje. Pokud chceme mít cluster v reálném čase, potřebujeme v ruce alespoň 3 fyzické servery, nebo musíme zajistit Cloud pro více serverů.