Jak nainstalovat Hadoop Single Node Cluster (Pseudonode) na CentOS 7
Hadoop je open-source framework, který se široce používá pro práci s Bigdata. Většina projektů Bigdata/Data Analytics je postavena na Hadoop Eco-System. Skládá se ze dvou vrstev, jedna je pro Ukládání dat a druhá pro Zpracování dat.
O Úložiště se bude starat vlastní souborový systém nazvaný HDFS (Hadoop Distributed Filesystem) a o zpracování se postará care of by YARN (Ještě další vyjednavač zdrojů). Mapreduce je výchozím procesorem Hadoop Eco-System.
Tento článek popisuje proces instalace Pseudonode instalace Hadoop, kde budou všichni démoni (JVM) běžící Single Node Cluster na CentOS 7.
Toto je hlavně pro začátečníky, aby se naučili Hadoop. V reálném čase bude Hadoop nainstalován jako multiuzlový cluster, kde budou data distribuována mezi servery jako bloky a úloha bude prováděna paralelně.
Předpoklady
- Minimální instalace serveru CentOS 7.
- Vydání Java v1.8.
- Hadoop 2.x stabilní vydání.
Na této straně
- Jak nainstalovat Java na CentOS 7
- Nastavte přihlášení bez hesla na CentOS 7
- Jak nainstalovat Hadoop Single Node v CentOS 7
- Jak nakonfigurovat Hadoop v CentOS 7
- Formátování systému souborů HDFS prostřednictvím NameNode
Instalace Javy na CentOS 7
1. Hadoop je ekologický systém, který se skládá z Java. K instalaci Hadoop potřebujeme v našem systému povinně nainstalovanou Java.
yum install java-1.8.0-openjdk
2. Dále ověřte nainstalovanou verzi Java v systému.
java -version
Nakonfigurujte přihlášení bez hesla na CentOS 7
V našem počítači musíme mít nakonfigurované ssh, Hadoop bude spravovat uzly pomocí SSH. Hlavní uzel používá připojení SSH k připojení svých podřízených uzlů a provádění operací, jako je spuštění a zastavení.
Musíme nastavit ssh bez hesla, aby mohl master komunikovat s podřízenými pomocí ssh bez hesla. Jinak pro každé navázání připojení je třeba zadat heslo.
V tomto jediném uzlu jsou služby Master (Namenode, Secondary Namenode & Resource Manager) a Slave< služby (Datanode a Nodemanager) budou spuštěny jako samostatné JVM. I když je to jediný uzel, potřebujeme mít ssh bez hesla, aby Master mohl komunikovat Slave bez ověřování.
3. Nastavte přihlášení SSH bez hesla pomocí následujících příkazů na serveru.
ssh-keygen
ssh-copy-id -i localhost
4. Po konfiguraci přihlášení SSH bez hesla se zkuste přihlásit znovu, budete připojeni bez hesla.
ssh localhost
Instalace Hadoop v CentOS 7
5. Přejděte na web Apache Hadoop a stáhněte si stabilní vydání Hadoop pomocí následujícího příkazu wget.
wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz
6. Dále přidejte proměnné prostředí Hadoop do souboru ~/.bashrc
podle obrázku.
HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX
7. Po přidání proměnných prostředí do souboru ~/.bashrc
vytvořte zdrojový soubor a ověřte Hadoop spuštěním následujících příkazů.
source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version
Konfigurace Hadoop v CentOS 7
Potřebujeme nakonfigurovat níže uvedené konfigurační soubory Hadoop, aby se vešly do vašeho počítače. V Hadoop má každá služba své vlastní číslo portu a vlastní adresář pro ukládání dat.
- Konfigurační soubory Hadoop – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml
8. Nejprve musíme aktualizovat JAVA_HOME
a Hadoop cestu v souboru hadoop-env.sh, jak je znázorněno .
cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh
Zadejte následující řádek na začátek souboru.
export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1
9. Dále upravte soubor core-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml
Následující text vložte mezi značky <configuration>
podle obrázku.
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
10. Vytvořte níže uvedené adresáře v domovském adresáři uživatele tecmint
, který bude použit pro úložiště NN a DN.
mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name
10. Dále upravte soubor hdfs-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml
Následující text vložte mezi značky <configuration>
podle obrázku.
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/tecmint/hdata/name</value>
</property>
<property>
<name>dfs .datanode.data.dir</name>
<value>home/tecmint/hdata/data</value>
</property>
</configuration>
11. Znovu upravte soubor mapred-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
Následující text vložte mezi značky <configuration>
podle obrázku.
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
12. Nakonec upravte soubor yarn-site.xml
.
cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml
Následující text vložte mezi značky <configuration>
podle obrázku.
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Formátování systému souborů HDFS prostřednictvím NameNode
13. Před spuštěním Clusteru musíme naformátovat Hadoop NN v našem místním systému, kde byl nainstalován. Obvykle se to provede v počáteční fázi před prvním spuštěním clusteru.
Formátování NN způsobí ztrátu dat v metaúložišti NN, takže musíme být opatrnější, neměli bychom formátovat NN za běhu clusteru, pokud to není vyžadováno záměrně.
cd $HADOOP_PREFIX
bin/hadoop namenode -format
14. Spusťte démona NameNode a démona DataNode: (port 50070).
cd $HADOOP_PREFIX
sbin/start-dfs.sh
15. Spusťte démona ResourceManager a démona NodeManager: (port 8088).
sbin/start-yarn.sh
16. Chcete-li zastavit všechny služby.
sbin/stop-dfs.sh
sbin/stop-dfs.sh
souhrn
Shrnutí
V tomto článku jsme krok za krokem prošli procesem nastavení Hadoop Pseudonode (Single Node) Clusteru. Pokud máte základní znalosti Linuxu a budete postupovat podle těchto kroků, cluster bude UP za 40 minut.
To může být velmi užitečné pro začátečníky, aby se začali učit a procvičovat Hadoop nebo tuto vanilkovou verzi Hadoop lze použít pro účely vývoje. Pokud chceme mít cluster v reálném čase, potřebujeme v ruce alespoň 3 fyzické servery, nebo musíme zajistit Cloud pro více serverů.