Jak nainstalovat a nakonfigurovat Apache Hadoop na jednom uzlu v CentOS 7

Apache Hadoop je sestavení rámce Open Source pro distribuované ukládání velkých dat a zpracování dat napříč počítačovými clustery. Projekt je založen na následujících komponentách:

Hadoop Common – obsahuje Java knihovny a nástroje potřebné pro ostatní moduly Hadoop.
HDFS – Hadoop Distributed File System – škálovatelný souborový systém založený na Javě distribuovaný mezi více uzly.
MapReduce – rámec YARN pro paralelní zpracování velkých dat.
Hadoop YARN: Rámec pro správu klastrových prostředků.

Tento článek vás provede tím, jak nainstalovat Apache Hadoop do jednoho uzlu clusteru v CentOS 7 (funguje také pro RHEL 7 a Fedora 23+ verze). Tento typ konfigurace je také označován jako Hadoop Pseudo-Distributed Mode.

Krok 1: Nainstalujte Javu na CentOS 7

1. Před pokračováním v instalaci Java se nejprve přihlaste jako uživatel root nebo uživatel s právy root a nastavte název hostitele počítače pomocí následujícího příkazu.

hostnamectl set-hostname master

Také přidejte nový záznam do souboru hostitelů s FQDN vašeho vlastního stroje, aby ukazoval na vaši systémovou IP adresu.

vi /etc/hosts

Přidejte následující řádek:

192.168.1.41 master.hadoop.lan

Nahraďte výše uvedený název hostitele a záznamy FQDN svým vlastním nastavením.

2. Dále přejděte na stránku stahování Oracle Java a stáhněte si nejnovější verzi Java SE Development Kit 8 do svého systému pomocí curl příkaz:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Po dokončení stahování binárního kódu Java nainstalujte balíček zadáním níže uvedeného příkazu:

rpm -Uvh jdk-8u92-linux-x64.rpm

Krok 2: Nainstalujte Hadoop Framework v CentOS 7

4. Dále si ve svém systému vytvořte nový uživatelský účet bez oprávnění root, který použijeme pro instalační cestu a pracovní prostředí Hadoop. Nový domovský adresář účtu bude umístěn v adresáři /opt/hadoop.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. V dalším kroku navštivte stránku Apache Hadoop, kde získáte odkaz na nejnovější stabilní verzi a stáhněte si archiv do svého systému.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Rozbalte archiv a zkopírujte obsah adresáře do domovské cesty účtu hadoop. Také se ujistěte, že jste odpovídajícím způsobem změnili oprávnění ke kopírovaným souborům.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Dále se přihlaste jako uživatel hadoop a nakonfigurujte Hadoop a Proměnné prostředí Java ve svém systému úpravou .bash_profile.

su - hadoop
vi .bash_profile

Na konec souboru připojte následující řádky:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Nyní inicializujte proměnné prostředí a zkontrolujte jejich stav zadáním následujících příkazů:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Nakonec nakonfigurujte ověřování pomocí klíče ssh pro účet hadoop spuštěním níže uvedených příkazů (nahraďte hostname nebo FQDN proti příkazu ssh-copy-id).

Také ponechte pole passphrase prázdné, abyste se mohli automaticky přihlásit pomocí ssh.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan