linux系统安装hadoop真分布式集群详解

2025-06-10 20:13:17

Hadoop真分布式完全集群安装，基于版本2.7.2安装，在两台Linux机器上面分别安装Hadoop的master和slave节点。

1.安装说明

不管NameNode还是DataNode节点，安装的用户名需要一致。
master和slave的区别，只是在于配置的hostname，
在config的slaves配置的hostname所代表的机器即为slave，
不使用主机名也可以，直接配置为IP即可。
在这种集群下面，需要在master节点创建namenode路径，
并且使用格式化命令hdfs namenode –format。
然后在slave节点创建datanode路径，注意目录的权限。

2.配置hosts

如果已经存在则不需要，每台机器进行相同的操作

10.43.156.193 zdh193 ywmaster/fish master
10.43.156.194 zdh194 ywmaster/fish slave

3.创建用户

集群上面的用户名必须都是一样的，否则无法影响Hadoop集群启动，
在每台机器里面添加相同的用户，参考如下命令：

useradd ywmaster

4.安装JDK

此处安装的是jdk1.7

scp yuwen@10.43.156.193:/home/yuwen/backup/jdk-7u80-linux-x64.tar.gz .
zdh123
tar -zxvf jdk-7u80-linux-x64.tar.gz
vi .bash_profile
export JAVA_HOME=~/jdk1.7.0_80
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source .bash_profile

验证jdk

java -version

5.设置集群免密登陆

5.1.设置本地免密登陆

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

必须修改权限，否则无法免秘登陆

chmod 600 ~/.ssh/authorized_keys

验证免密登陆

ssh localhost

5.2.设置远程免密登陆

需要把本机的公钥放到对方的机器authorized_keys，才能免密登陆其他机器。
进入ywmaster的.ssh目录

scp ~/.ssh/authorized_keys ywmaster@10.43.156.194:~/.ssh/authorized_keys_from_zdh193

进入ywslave的.ssh目录,注意备份，否则下面步骤存在重复的ywmaster公钥。

cat authorized_keys_from_zdh193 >> authorized_keys
ssh zdh194

5.3.设置其他机器免密登陆

参考上面的步骤同理设置其他机器，配置后zdh193可以免密登陆。

scp ~/.ssh/authorized_keys ywmaster@10.43.156.193:~/.ssh/authorized_keys_from_zdh194

6.安装Hadoop

上传并解压hadoop文件

scp pub@10.43.156.193:/home/pub/hadoop/source/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz .
zdh1234
tar -zxvf hadoop-2.7.2.tar.gz

7.配置环境变量

export HADOOP_HOME=~/hadoop-2.7.2
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

配置别名，可以快速访问配置路径

alias conf='cd /home/ywmaster/hadoop-2.7.2/etc/hadoop'

8.检查和修改Hadoop配置文件

8.1 hadoop-env.sh

涉及环境变量：JAVA_HOME，HADOOP_HOME，HADOOP_CONF_DIR

8.2 yarn-env.sh

涉及环境变量：JAVA_HOME，HADOOP_YARN_USER，HADOOP_YARN_HOME, YARN_CONF_DIR

8.3 slaves

这个文件里面保存所有slave节点，注释掉localhost,新增zdh194作为slave节点。

8.4 core-site.xml

<name>fs.defaultFS</name>
<value>hdfs://10.43.156.193:29080</value>

<name>fs.default.name</name>
<value>hdfs://10.43.156.193:29080</value>

<name>io.file.buffer.size</name>
<value>131072</value>

<name>hadoop.tmp.dir</name>
<value>file:/home/ywmaster/tmp</value>

8.5 hdfs-site.xml

<name>dfs.namenode.rpc-address</name>
<value>10.43.156.193:29080</value>

<name>dfs.namenode.http-address</name>
<value>10.43.156.193:20070</value>

<name>dfs.namenode.secondary.http-address</name>
<value>10.43.156.193:29001</value>

<name>dfs.namenode.name.dir</name>
<value>file:/home/ywmaster/dfs/name</value>

<name>dfs.datanode.data.dir</name>
<value>file:/home/ywmaster/dfs/data</value>

<name>dfs.replication</name>
<value>1</value>

<name>dfs.webhdfs.enabled</name>
<value>true</value>

8.6 mapred-site.xml

<name>mapreduce.framework.name</name>
<value>yarn</value>

<name>mapreduce.shuffle.port</name>
<value>23562</value>

<name>mapreduce.jobhistory.address</name>
<value>10.43.156.193:20020</value>

<name>mapreduce.jobhistory.webapp.address</name>
<value>10.43.156.193:29888</value>

8.7：yarn-site.xml

<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  TODODELETE
<value>org.apache.hadoop.mapred.ShuffleHandler</value>

#mapreduce.shuffle已经过时，改为mapreduce_shuffle
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>

<name>yarn.resourcemanager.address</name>
<value>10.43.156.193:28032</value>

<name>yarn.resourcemanager.scheduler.address</name>
<value>10.43.156.193:28030</value>

<name>yarn.resourcemanager.resource-tracker.address</name>
<value>10.43.156.193:28031</value>

<name>yarn.resourcemanager.admin.address</name>
<value>10.43.156.193:28033</value>

<name>yarn.resourcemanager.webapp.address</name>
<value>10.43.156.193:28088</value>

8.8 获取Hadoop的默认配置文件

选择相应版本的hadoop,下载解压后，搜索*.xml,
找到core-default.xml,hdfs-default.xml,mapred-default.xml,
这些就是默认配置,可以参考这些配置的描述说明，
在这些默认配置上进行修改，配置自己的Hadoop集群。

find . -name *-default.xml
./hadoop-2.7.1/share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
./hadoop-2.7.1/share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml
./hadoop-2.7.1/share/doc/hadoop/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
./hadoop-2.7.1/share/doc/hadoop/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
./hadoop-2.7.1/share/hadoop/httpfs/tomcat/webapps/webhdfs/WEB-INF/classes/httpfs-default.xml

9.把配置好的Hadoop复制到其他节点

scp -r ~/hadoop-2.7.2 ywmaster@10.43.156.194:~/

或者只拷贝配置文件，可以提高拷贝效率:

scp -r ~/hadoop-2.7.2/etc/hadoop ywmaster@10.43.156.194:~/hadoop-2.7.2/etc

创建好name和data数据目录

mkdir -p ./dfs/name
mkdir -p ./dfs/data

10.启动验证Hadoop

格式化namenode：

hdfs namenode -format

出现如下结果则表示成功：

16/09/13 23:57:16 INFO common.Storage: Storage directory /home/ywmaster/dfs/name has been successfully formatted.

启动hdfs

start-dfs.sh

启动yarn:

start-yarn.sh

注意修改了配置之后一定要重新复制到其他节点，否则启动会有问题。

11.检查启动结果

NameNode下执行jps应该包含如下进程：

15951 ResourceManager
13294 SecondaryNameNode
12531 NameNode
16228 Jps

DataNode下执行jps应该包含如下进程：

3713 NodeManager
1329 DataNode
3907 Jps

查看HDFS服务：

http://10.43.156.193:20070

查看SecondaryNameNode：

http://10.43.156.193:29001/

具体IP和Port参考hdfs-site.xml:

<name>dfs.namenode.http-address</name>
<description> The address and the base port where the dfs namenode web ui will listen on.</description>

查看RM:

http://10.43.156.193:28088

具体IP和Port参考yarn-site.xml：

<name>yarn.resourcemanager.webapp.address</name>
<value>10.43.156.193:28088</value>

12.其他参考

停止命令：

stop-yarn.sh
stop-dfs.sh

执行命令验证：

hadoop fs -ls /usr
hadoop fs -mkdir usr/yuwen
hadoop fs -copyFromLocal wordcount /user
hadoop fs -rm -r /user/wordresult
hadoop jar ~/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/wordcount.txt /user/wordresult_001
hadoop fs -text /user/wordresult_001/part-r-00000

更多关于linux系统安装hadoop真分布式集群的文章请查看下面的相关链接

hadoop基于Linux7的安装配置图文详解

如上图准备好该准备的食材(ps:其中的hadoop-3.1.2-src更改为hadoop-3.1.2 src为源文件的意思? 反正就是换了大家注意一下后面截图有错的地方有空我再改吧肝疼) 安装好centos7 桌面右键打开terminal--输入ifconfig--查看ens33的ip--记住然后打开xftp6 点击新建把食材多选,右键传输即可,内网传输速度不快不慢所示很完美了解压hadoop安装包 tar -zxvf hadoop-3.1.2-src.tar.gz 重新装了cen
Linux下安装Hadoop集群详细步骤

目录 1.在usr目录下创建Hadoop目录,将安装包导入目录中并解压文件 2.进入vim /etc/profile文件并编辑配置文件 3.使文件生效 4.进入Hadoop目录下 5.编辑配置文件 6.进入slaves添加主节点和从节点 7.将各个文件复制到其他虚拟机上 8.格式化hadoop (仅在主节点中进行操作) 9.回到Hadoop目录下(仅在主节点操作) 1.在usr目录下创建Hadoop目录,将安装包导入目录中并解压文件 2.进入vim /etc/profile文件并编辑配置文件
Linux中Centos7搭建Hadoop服务步骤

下载Hadoop 官网:http://hadoop.apache.org/releases.html 先配置jdk环境(教程:http://www.jb51.net/article/108936.htm) 下载以后解压到到/usr/local tar -zxvf hadoop-2.8.0.tar.gz -C /usr/local 为了方便操作把hadoop-2.8.0 改为hadoop mv /usr/local/hadoop-2.8.0 /usr/local/hadoop 查看主机名 ho
Linux中安装配置hadoop集群详细步骤

一. 简介参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功.下面就把详细的安装步骤叙述一下.我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择2.7.1版本.(前边主要介绍单机版的配置,集群版是在单机版的基础上,主要是配置文件有所不同,后边会有详细说明) 二. 准备工作 2.1 创建用户创建用户,并为其添加root权限,经过亲自验证下面这种方法比较好. sudo adduser hadoop sudo vim /etc/sudoers
linux环境不使用hadoop安装单机版spark的方法

大数据持续升温, 不熟悉几个大数据组件, 连装逼的口头禅都没有. 最起码, 你要会说个hadoop, hdfs, mapreduce, yarn, kafka, spark, zookeeper, neo4j吧, 这些都是装逼的必备技能. 关于spark的详细介绍, 网上一大堆, 搜搜便是, 下面, 我们来说单机版的spark的安装和简要使用. 0. 安装jdk, 由于我的机器上之前已经有了jdk, 所以这一步我可以省掉. jdk已经是很俗气的老生常谈了, 不多说, 用java/scala的
linux下搭建hadoop环境步骤分享

1.下载hadoop包 wget http://apache.freelamp.com/hadoop/core/stable/hadoop-0.20.2.tar.gz2.tar xvzf hadoop-0.20.2.tar.gz3.安装JDK,从oracle网站上直接下载JDK,地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html4.chmod +x jdk-6u21-linux-i586.bin;./jdk-
Linux下Hadoop 2.7.3 安装搭建过程

Linux Hadoop 2.7.3 安装搭建 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据
linux系统安装hadoop真分布式集群详解

Hadoop真分布式完全集群安装,基于版本2.7.2安装,在两台Linux机器上面分别安装Hadoop的master和slave节点. 1.安装说明不管NameNode还是DataNode节点,安装的用户名需要一致.master和slave的区别,只是在于配置的hostname,在config的slaves配置的hostname所代表的机器即为slave,不使用主机名也可以,直接配置为IP即可.在这种集群下面,需要在master节点创建namenode路径,并且使用格式化命令hdfs name
docker 搭建hadoop以及hbase集群详解

要用docker搭建集群,首先需要构造集群所需的docker镜像.构建镜像的一种方式是,利用一个已有的镜像比如简单的linux系统,运行一个容器,在容器中手动的安装集群所需要的软件并进行配置,然后commit容器到新的镜像.另一种方式是,使用Dockerfile来自动化的构造镜像. 下面采用第二种. 1. 创建带ssh服务的ubuntu14.04系统镜像使用ubuntu14系统来安装hadoop和hbase,由于hadoop集群机器之间通过ssh通信,所以需要在ubuntu14系统中安装ssh
LINUX中NGINX反向代理下的TOMCAT集群(详解)

Nginx具有反向代理(注意和正向代理的区别)和负载均衡等特点. 这次Nginx安装在 192.168.1.108 这台linux 机器上.安装Nginx 先要装openssl库,gcc,PCRE,zlib库等. Tomcat 安装在192.168.1.168 和 192.168.1.178 这两台机器上.客户端通过访问192.168.1.108 反向代理访问到 192.168.1.168 和 192.168.1.178 里Tomcat 部署的工程内容. 1.Linux 下安装Nginx (机器
浅析Hadoop完全分布式集群搭建问题

目录一.Hadoop是什么二.Hadoop组成 1.Hadoop1.x 2.Hadoop2.x 三.Hadoop集群搭建所需工具(链接如下,自行下载) 四.Hadoop集群配置前期准备五.Hadoop运行环境搭建六.Hadoop完全分布式集群环境正式搭建 1.编写集群分发脚本xsync 2.集群配置 3.SSH无密登录配置 4.群起集群 5.集群启动/停止方式总结 6.集群时间同步(必须root用户) 一.Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架
Redis集群详解

Redis集群详解 Redis有三种集群模式,分别是: * 主从模式 * Sentinel模式 * Cluster模式三种集群模式各有特点,关于Redis介绍可以参考这里:NoSQL(二)--Redis Redis官网:https://redis.io/ ,最新版本6.0.5 主从模式主从模式介绍主从模式是三种模式中最简单的,在主从复制中,数据库分为两类:主数据库(master)和从数据库(slave). 其中主从复制有如下特点: * 主数据库可以进行读写操作,当读写操作导致数据变化时会自
Linux学习教程之redis哨兵集群详解

前言 Sentinel(哨兵)是用于监控redis集群中Master状态的工具,其已经被集成在redis2.4+的版本中,下面话不多说了,来一起看看详细的介绍吧 1.Sentinel 哨兵 Sentinel(哨兵)是Redis 的高可用性解决方案:由一个或多个Sentinel 实例组成的Sentinel 系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器,并在被监视的主服务器进入下线状态时,自动将下线主服务器属下的某个从服务器升级为新的主服务器. 例如: 在Server1 掉线后
kubernetes存储之GlusterFS集群详解

目录 1.glusterfs概述 1.1.glusterfs简介 1.2.glusterfs特点 1.3.glusterfs卷的模式 2.heketi概述 3.部署heketi+glusterfs 3.1.准备工作 3.1.1.所有节点安装glusterfs客户端 3.1.2.节点打标签 3.1.3.所有节点加载对应模块 3.2.创建glusterfs集群 3.2.1.下载相关安装文件 3.2.2.创建集群 3.2.3.查看gfs pods 3.3.创建heketi服务 3.3.1.创建heke
Node.js进程管理之进程集群详解

一.cluster模块 Node.js是单线程处理,对于高并发的请求怎么样能增加吞吐量呢?为了提高服务器的利用率,能不能多核的来处理呢?于是就有了cluster模块. cluster模块可以轻松实现运行在同一机器不同进程上的TCP或HTTP服务器集群.它们仍使用相同的底层套接字,从而在相同的IP地址和端口组合上处理请求. 下面是它的一些事件属性和方法. 事件: fork:当新的工作进程已经被派生时发出.callback函数接收worker对象作为唯一的参数.function(Worker) on
Java高级架构之FastDFS分布式文件集群详解

FastDFS简介 FastDFS是一款开源的轻量级分布式文件系统,使用C实现,支持Linux.BSD等unix-like操作系统.值得注意的是,fastdfs并不是通用的文件系统,只能通过专用的API访问. fastdfs为互联网应用量身定做,解决了大容量文件存储的问题,fastdfs追求高性能和高扩展性.fastdfs的主要概念: tracker-server:跟踪服务器.用于跟踪文件,主要起调度作用.在内存中记录了所有存储组和存储服务器的状态信息,是客户端和数据存储的主要枢纽.相比GFS更
Python搭建Spark分布式集群环境

前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍.本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装. 本教程采用Spark2.0以上版本(比如Spark2.0.2.Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群. 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装