浅析Hadoop完全分布式集群搭建问题

2025-12-17 22:06:45

一、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
Hadoop并不只是单单一个技术，而是一个生态圈，里面包括Spark、Flume、HBase、Kafka、Sqoop、Hive、Oozie、Azkaban、Zookeeper。

二、Hadoop组成

1、Hadoop1.x

①：MapReduce（计算+资源调度）
②：HDFS（数据存储）
③：Common（辅助工具）

2、Hadoop2.x

①：MapReduce（计算）
②：Yarn（资源调度）
③：HDFS（数据存储）
④：Common（辅助工具）

三、Hadoop集群搭建所需工具（链接如下，自行下载）

JDK1.8
Hadoop2.7

四、Hadoop集群配置前期准备

1.克隆虚拟机（克隆三台，首先配置第一台，剩下两台由于篇幅有限，不再复述，步骤和第一台一样）

修改主机名，我设置为hadoop102

hostnamectl set-hostname 你要设置的主机名

关闭防火墙

systemctl stop firewalld.service # 关闭防火墙

systemctl disable firewalld.service # 禁止开机自启

配置虚拟机网络，可以连通外网和主机
①：修改虚拟机网络为NAT模式

②：打开虚拟网络编辑器，将我框起来的ip地址和子网掩码记下来，继续点击NAT配设置，同样记下来框起来的，后面要用。

③：从这里开始进入root模式，首先使用如下命令进入网络配置，然后按照我的图修改您的配置，请和我保持一致，没有的东西就自己写上，然后按照我的配置。

vim /etc/sysconfig/network-scripts/ifcfg-ens32 #电脑不同最后面的ens32可能不一样，但是就找差不多的就行

④：重启网络（配置到这里可以ping一下百度之类的，但是还没全部完成，完全按照我的做，应该没问题，我们还需要配置虚拟机之间的连通，所以另外两台虚拟机请按照上面的操作配置。）

systemctl start network.service

⑤：配置和另外两台的连通（我三台分别叫hadoop102、hadoop103、hadoop104）

vim /etc/hosts

⑥：测试连接，我们分别ping百度、主机、和另外两台虚拟机，如果如下图，则证明配置成功。

五、Hadoop运行环境搭建

①：在/opt下面新建module和software，分别用来存放安装包和程序

②：使用连接工具将上面我提供的安装包放入software，然后开始安装jdk，首先卸载之前的jdk，命令如下

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.102-4.b14.el7.x86_64

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.102-4.b14.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.111-2.6.7.8.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64

③：然后解压jdk到module中

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

④：然后配置jdk环境变量，首先获取jdk路径（在解压后的目录运行pwd命令，如下，将这个目录保存下来）

[root@hadoop102 jdk1.8.0_144]$ pwd

/opt/module/jdk1.8.0_144

⑤：打开/etc/profile文件

vim /etc/profile

⑥：在profile文件末尾添加JDK路径，保存后退出

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

⑦：安装hadoop，前面的步骤一样，将安装包解压到module中，然后使用pwd获取路径保存，然后打开/etc/profile文件，在profile文件末尾添加JDK路径，保存后退出。

##HADOOP_HOME
export
HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

⑧：让修改后的文件生效

source/etc/profile

⑨：如下图所示，即生效

至此，一台机器的前期准备工作已完成，另外两台完全按照一样的步骤操作，按照我的一步一步来，肯定没问题，该踩的坑我都踩过了hh~

六、Hadoop完全分布式集群环境正式搭建

1、编写集群分发脚本xsync

①：在/home/atguigu目录下创建bin目录，并在bin目录下创建xsync文件

mkdir bin
cd bin/
touch xsync
vi xsync

②：文件内容如下

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=103; host<105; host++)); do
echo ------------------- hadoop$host --------------
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

③：修改脚本 xsync 具有执行权限

chmod 777 xsync

④：调用脚本形式：xsync 文件名称

xsync /home/ironmanjay/bin

注：如果将xsync放到/home/atguigu/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

2、集群配置

这里我们首先配置hadoop102一个主机，配置好之后我们把配置文件使用上面的功能分发下去，这样就实现了集群的配置。
①：配置core-site.xml，在文件中编写如下配置（在hadoop目录下）

vim core-site.xml

<!-- 指定HDFS中NameNode的地址-->
<property>
     <name>fs.defaultFS</name>
<value>hdfs://hadoop102:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录–>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

②：配置hadoop-env.sh

[root@hadoop102 hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

③：配置hdfs-site.xml，在该文件中编写如下配置

vim hdfs-site.xml

<property>
     <name>dfs.replication</name>
     <value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 –>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>

④：配置yarn-env.sh

[root@hadoop102 hadoop]$ vim yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

⑤：配置yarn-site.xml，在该文件中增加如下配置

vim yarn-site.xml

<!-- Reducer获取数据的方式-->
<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址–>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>

⑥：配置mapred-env.sh

[root@hadoop102 hadoop]$ vim mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

⑦：配置mapred-site.xml，在该文件中增加如下配置

[root@hadoop102 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[root@hadoop102 hadoop]$ vim mapred-site.xml

<!-- 指定MR运行在Yarn上
-->
<property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
</property>

⑧：在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-2.7.2/

⑨：查看文件分发情况

cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

3、SSH无密登录配置

①：生成公钥和私钥，然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

[root@hadoop102 .ssh]$ ssh-keygen -t rsa

②：将公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

注：还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；
还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

4、群起集群

①：配置slaves，向文件中增加如下内容，注意，严格按照我的格式，不允许有空格，文件中不允许有空行

cd /opt/module/hadoop-2.7.2/etc/hadoop/slaves

vim slaves

hadoop102

hadoop103

hadoop104

②：同步所有节点配置文件

xsync slaves

③：如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

[root@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode -format

④：(hadoop102) 启动HDFS，终端输入jps出现下图即成功启动HDFS

[root@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh

⑤：(hadoop103) 启动YARN，终端输入jps出现下图即成功启动YARN

[root@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。
⑥：Web端查看SecondaryNameNode
浏览器中输入：http://hadoop102:50090/status.html
查看OverView信息，如下图所示，即配置成功

5、集群启动/停止方式总结

①：各个服务组件逐一启动/停止

# 分别启动/停止HDFS组件
hadoop-daemon.sh start / stop  namenode / datanode /secondarynamenode
# 启动/停止YARN
yarn-daemon.sh start / stop  resourcemanager / nodemanager

②：各个模块分开启动/停止（配置ssh是前提）常用

# 整体启动/停止HDFS
start-dfs.sh  /  stop-dfs.sh
# 整体启动/停止YARN
start-yarn.sh  /  stop-yarn.sh

6、集群时间同步（必须root用户）

①：检查ntp是否安装，如下图即安装

rpm -qa|grep ntp

②：修改ntp配置文件，修改内容如下

vim /etc/ntp.conf

a）修改1（授权192.168.1.0-192.168.1.255网段上的所有机器可以从这台机器上查询和同步时间）

#restrict 192.168.1.0

mask 255.255.255.0 nomodify notrap为

restrict 192.168.1.0 mask

255.255.255.0 nomodify notrap

b）修改2（集群在局域网中，不使用其他互联网上的时间）
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
server 127.127.1.0
fudge 127.127.1.0 stratum 10

③：修改/etc/sysconfig/ntpd 文件，增加内容如下（让硬件时间与系统时间一起同步）

vim /etc/sysconfig/ntpd

SYNC_HWCLOCK=yes

④：重新启动ntpd服务

service ntpd restart

⑤：设置ntpd服务开机启动

chkconfig ntpd on

到此这篇关于浅析Hadoop完全分布式集群搭建问题的文章就介绍到这了,更多相关Hadoop集群搭建内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

Hadoop3.2.0集群搭建常见注意事项

一端口变化 3.2.0版本中namenode页面端口是9870,datanode管理端口是8088,所以需要开放这两个端口还给web页面访问二but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation hadoop-env.sh中不光需要配置java-home,还需要声明下面这些用户变量,不然无法启动: export JAVA_HOME=/usr/local/jdk/jdk1.8.0_191 export HDF
使用docker部署hadoop集群的详细教程

最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群. 0. 写在前面网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程. 目标:使用docker搭建一个一主两从三台机器的hadoop2.7.7版本的集群准备: 首先要有一台内存8G以上的centos7机器,我用的是阿里云主机. 其次将jdk和hadoop包上传到服务器中. 我安装的是hadoop2.7.7.包给大家准备好了,链接:https://pan.baidu.com/s/15n
hadoop分布式环境搭建过程

1. Java安装与环境配置 Hadoop是基于Java的,所以首先需要安装配置好java环境.从官网下载JDK,我用的是1.8版本. 在Mac下可以在终端下使用scp命令远程拷贝到虚拟机linux中. danieldu@daniels-MacBook-Pro-857 ~/Downloads scp jdk-8u121-linux-x64.tar.gz root@hadoop100:/opt/software root@hadoop100's password: danieldu@daniels
浅析Hadoop完全分布式集群搭建问题

目录一.Hadoop是什么二.Hadoop组成 1.Hadoop1.x 2.Hadoop2.x 三.Hadoop集群搭建所需工具(链接如下,自行下载) 四.Hadoop集群配置前期准备五.Hadoop运行环境搭建六.Hadoop完全分布式集群环境正式搭建 1.编写集群分发脚本xsync 2.集群配置 3.SSH无密登录配置 4.群起集群 5.集群启动/停止方式总结 6.集群时间同步(必须root用户) 一.Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架
Centos7.3 RabbitMQ分布式集群搭建示例

本文介绍了Centos7.3 RabbitMQ分布式集群搭建示例,分享给大家,具体如下: 注意事项 centos 7.x 关闭firewall 三台机器: 172.17.250.97 rabbiMQ01 172.17.250.98 rabbiMQ03 172.17.250.99 rabbiMQ02 配置 hosts 172.17.250.97 fz-rabbitMQ01 172.17.250.99 fz-rabbitMQ02 172.17.250.98 fz-rabbitMQ03 $ syste
Kafka多节点分布式集群搭建实现过程详解

上一篇分享了单节点伪分布式集群搭建方法,本篇来分享一下多节点分布式集群搭建方法.多节点分布式集群结构如下图所示: 为了方便查阅,本篇将和上一篇一样从零开始一步一步进行集群搭建. 一.安装Jdk 具体安装步骤可参考linux安装jdk. 二.安装与配置zookeeper 下载地址:https://www-us.apache.org/dist/zookeeper/stable/ 下载二进制压缩包zookeeper-3.4.14.tar.gz,然后上传到linux服务器指定目录下,本次上传目录为/so
linux系统安装hadoop真分布式集群详解

Hadoop真分布式完全集群安装,基于版本2.7.2安装,在两台Linux机器上面分别安装Hadoop的master和slave节点. 1.安装说明不管NameNode还是DataNode节点,安装的用户名需要一致.master和slave的区别,只是在于配置的hostname,在config的slaves配置的hostname所代表的机器即为slave,不使用主机名也可以,直接配置为IP即可.在这种集群下面,需要在master节点创建namenode路径,并且使用格式化命令hdfs name
Kafka单节点伪分布式集群搭建实现过程详解

Kafka集群搭建分为单节点的伪分布式集群和多节点的分布式集群两种,首先来看一下单节点伪分布式集群安装.单节点伪分布式集群是指集群由一台ZooKeeper服务器和一台Kafka broker服务器组成,如下图所示: 为了搭建单节点Kafka集群,需要依次安装如下软件:安装Java-->安装ZooKeeper-->安装Kafka. 一.安装Java 可以参考linux安装jdk,来进行安装二.安装ZooKeeper 下载地址:https://www-us.apache.org/dist/zoo
Hadoop+HBase+ZooKeeper分布式集群环境搭建步骤

目录一.环境说明 2.1 安装JDK 2.2 添加Hosts映射关系 2.3 集群之间SSH无密码登陆三.Hadoop集群安装配置 3.1 修改hadoop配置 3.2 启动hadoop集群四.ZooKeeper集群安装配置 4.1 修改配置文件zoo.cfg 4.2 新建并编辑myid文件 4.3 启动ZooKeeper集群五.HBase集群安装配置 5.1 hbase-env.sh 5.2 hbase-site.xml 5.3 更改 regionservers 5.4 分发并同步安装
Python搭建Spark分布式集群环境

前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍.本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装. 本教程采用Spark2.0以上版本(比如Spark2.0.2.Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群. 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装
详解使用docker搭建hadoop分布式集群

使用Docker搭建部署Hadoop分布式集群在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档,没办法,只能自己写一个了. 一:环境准备: 1:首先要有一个Centos7操作系统,可以在虚拟机中安装. 2:在centos7中安装docker,docker的版本为1.8.2 安装步骤如下: <1>安装制定版本的docker yum install -y docker-1.8.2-10.el7.centos <2>安装的时候可能会报错,需要删除这个依赖 r
详解CentOS 6.5搭建Redis3.2.8单机分布式集群

前言最近在服务器上搭建了一套Redis3.0伪分布式集群,发现一个问题,就是Shell脚本编写能力和运维工具的重要性亟待提高. 集群环境安装 1.安装Redis $ cd /usr/local #安装目录 $ wget http://download.redis.io/releases/redis-3.2.8.tar.gz $ tar xzf redis-3.2.8.tar.gz $ mv redis-3.2.8/ redis $ cd redis $ make $ make install
基于 ZooKeeper 搭建 Hadoop 高可用集群的教程图解

一.高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自: https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-hi