Day01(05/29) Hadoop运行环境搭建及配置


查看笔记合集

0.软件环境准备

虚拟化平台,VMware Workstation 16 Pro

虚拟机镜像,CentOS7, ISO:CentOS-7-x86_64-DVD-2207-02.iso

远程连接工具, MobaXterm

一台笔电,操作系统为Win10Pro

相关资源文件,放在共享网盘资源里了(博客首页左侧的公告)

1
2
hadoop-2.7.6.tar.gz # hadoop安装包
jdk-8u131-linux-x64.tar.gz # jdk1.8-linux安装包

1.关闭防火墙

1
2
sudo systemctl stop firewalld # 临时关闭
sudo systemctl disable firewalld # 永久关闭

2.配置主机名称

a. 注意:在Hadoop集群中的主机名称不能存在_-,如果存在则会导致Hadoop在集群中无法找到该节点
b. 编辑文件:vim /etc/hostname
c. 将主机名称进行指定然后保存退出


3.配置hosts文件,将主机名称和ip地址进行映射

1
2
vim /etc/hosts # 编辑hosts文件
xx.xx.xx.xx qianfeng01 # 将主机名称与ip地址进行映射

4.重新启动虚拟机让所有的配置进行生效

在当前节点输入:reboot


5.配置SSH免密互通

1
2
ssh-keygen # 生成自己的公钥和秘钥 
ssh-copy-id root@qianfeng01 # 将生成的公钥拷贝给远程服务器

6.进入Hadoop安装目录的子目录

cd /home/software/hadoop-2.7.6/etc/hadoop/

a. 编辑hadoop-env.sh文件

vim打开显示行号功能,进入一般命令模式(ESC),输入:set nu

1
2
3
4
5
6
7
8
1) 修改第25行JAVA_HOME的路径:
export JAVA_HOME=/home/software/jdk1.8

2) 修改第33行HADOOP_CONF_DIR的路径:
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.6/etc/hadoop

3) 保存退出之后需要让该文件重新生效:
source hadoop-env.sh

b. 编辑core-site.xml文件

1
2
3
4
5
6
7
8
9
10
11
12
<property>
<!-- 指定HDFS中的主节点 -->
<name>fs.defaultFS</name>
<value>hdfs://qianfeng01:9000</value>
<property>
</property>
<!-- 运行Hadoop数据存储目录 -->
<name>hadoop.tmp.dir</name>

<value>/home/software/hadoop-2.7.6/tmp</value>
</property>
<property>

c.编辑hdfs-site.xml文件

1
2
3
4
5
<property>
<!-- 设置HDFS的副本数量,在伪分布式的场景中副本数量只能为1 --> # 伪分布式只有1个结点
<name>dfs.replication</name>
<value>1</value>
</property>

d.编辑mapred-site.xml文件
mapred-site.xml.template模板文件复制一份并且重命名为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml