Jak nainstalovat a nakonfigurovat Apache Hadoop na jednom uzlu v CentOS 7
Apache Hadoop je sestavení rámce Open Source pro distribuované ukládání velkých dat a zpracování dat napříč počítačovými clustery. Projekt je založen na následujících komponentách:
- Hadoop Common – obsahuje Java knihovny a nástroje potřebné pro ostatní moduly Hadoop.
- HDFS – Hadoop Distributed File System – škálovatelný souborový systém založený na Javě distribuovaný mezi více uzly.
- MapReduce – rámec YARN pro paralelní zpracování velkých dat.
- Hadoop YARN: Rámec pro správu klastrových prostředků.
Tento článek vás provede tím, jak nainstalovat Apache Hadoop do jednoho uzlu clusteru v CentOS 7 (funguje také pro RHEL 7 a Fedora 23+ verze). Tento typ konfigurace je také označován jako Hadoop Pseudo-Distributed Mode.
Krok 1: Nainstalujte Javu na CentOS 7
1. Před pokračováním v instalaci Java se nejprve přihlaste jako uživatel root nebo uživatel s právy root a nastavte název hostitele počítače pomocí následujícího příkazu.
hostnamectl set-hostname master
Také přidejte nový záznam do souboru hostitelů s FQDN vašeho vlastního stroje, aby ukazoval na vaši systémovou IP adresu.
vi /etc/hosts
Přidejte následující řádek:
192.168.1.41 master.hadoop.lan
Nahraďte výše uvedený název hostitele a záznamy FQDN svým vlastním nastavením.
2. Dále přejděte na stránku stahování Oracle Java a stáhněte si nejnovější verzi Java SE Development Kit 8 do svého systému pomocí curl příkaz:
curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Po dokončení stahování binárního kódu Java nainstalujte balíček zadáním níže uvedeného příkazu:
rpm -Uvh jdk-8u92-linux-x64.rpm
Krok 2: Nainstalujte Hadoop Framework v CentOS 7
4. Dále si ve svém systému vytvořte nový uživatelský účet bez oprávnění root, který použijeme pro instalační cestu a pracovní prostředí Hadoop. Nový domovský adresář účtu bude umístěn v adresáři /opt/hadoop
.
useradd -d /opt/hadoop hadoop
passwd hadoop
5. V dalším kroku navštivte stránku Apache Hadoop, kde získáte odkaz na nejnovější stabilní verzi a stáhněte si archiv do svého systému.
curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Rozbalte archiv a zkopírujte obsah adresáře do domovské cesty účtu hadoop. Také se ujistěte, že jste odpovídajícím způsobem změnili oprávnění ke kopírovaným souborům.
tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/
7. Dále se přihlaste jako uživatel hadoop a nakonfigurujte Hadoop a Proměnné prostředí Java ve svém systému úpravou .bash_profile
.
su - hadoop
vi .bash_profile
Na konec souboru připojte následující řádky:
## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Nyní inicializujte proměnné prostředí a zkontrolujte jejich stav zadáním následujících příkazů:
source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME
9. Nakonec nakonfigurujte ověřování pomocí klíče ssh pro účet hadoop spuštěním níže uvedených příkazů (nahraďte hostname nebo FQDN proti příkazu ssh-copy-id
).
Také ponechte pole passphrase prázdné, abyste se mohli automaticky přihlásit pomocí ssh.
ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan