VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程

2025-04-01 06:32:34

前言
VMware克隆虚拟机（准备工作，克隆3台虚拟机，一台master,两台node）
1.创建Hadoop用户(在master,node1,node2执行)
2.更新apt下载源(在master,node1,node2执行)
3. 安装SSH、配置SSH免密登录 (在master,node1,node2执行)
4.安装Java环境 (在master,node1,node2执行)
修改主机名(在master,node1,node2执行)
修改IP映射(在master,node1,node2执行)
SSH免密登录其他节点（在master上执行）
安装hadoop3.2.1（在master中执行）
配置hadoop环境(这一步需要很仔细)
启动（在master上执行）
关闭hadoop集群（在master上执行）
总结

前言

本次教程是基于学校的大数据实验而做的，博主在搭建的同时，记录了自己的命令运行结果截图，在图书馆搭建环境+写博客，也花了将近3个小时。长时间眼睛对着电脑会很伤眼睛，所以童鞋们需要注意保护好眼睛，做做眼保健操。希望学到的童鞋可以点个赞！

VMware克隆虚拟机（准备工作，克隆3台虚拟机，一台master,两台node）

先在虚拟机中关闭系统
右键虚拟机，点击管理，选择克隆

3.点击下一步，选择完整克隆，选择路径即可

1.创建Hadoop用户(在master,node1,node2执行)

顺序执行以下命令即可

1.创建hadoop用户

sudo useradd -m hadoop -s /bin/bash

设置用户密码（输入两次）

sudo passwd hadoop

添加权限

sudo adduser hadoop sudo

切换到hadoop用户(这里要输入刚刚设置的hadoop密码)

su hadoop

运行截图展示(以master虚拟机为例)

2.更新apt下载源(在master,node1,node2执行)

sudo apt-get update

截图展示(以master为例)

3. 安装SSH、配置SSH免密登录 (在master,node1,node2执行)

1.安装SSH

sudo apt-get install openssh-server

2.配置SSH免密登录

ssh localhost
exit
cd ~/.ssh/
ssh-keygen -t rsa #一直按回车
cat ./id_rsa.pub >> ./authorized_keys

3.验证免密

ssh localhost
exit
cd ~/.ssh/
ssh-keygen -t rsa #一直按回车
cat ./id_rsa.pub >> ./authorized_keys

截图展示(以master为例)

4.安装Java环境 (在master,node1,node2执行)

1.下载 JDK 环境包

sudo apt-get install default-jre default-jdk

2.配置环境变量文件

vim ~/.bashrc

3.在文件首行加入

export JAVA_HOME=/usr/lib/jvm/default-java

4,。让环境变量生效

source ~/.bashrc

5.验证

java -version

截图展示(以master为例)

修改主机名(在master,node1,node2执行)

1.将文件中原有的主机名删除，master中写入master,node1中写入node1,node2…（同理）

sudo vim /etc/hostname

重启三个服务器

reboot

重启成功后，再次连接会话，发现主机名改变了

截图展示(以node1为例)

修改IP映射(在master,node1,node2执行)

查看各个虚拟机的ip地址

ifconfig -a

如果有报错，则下载 net-tools ,然后再运行即可看到

sudo apt install net-tools

如下图，红色方框内的就是本台虚拟机的 ip 地址

3台虚拟机中都需要在 hosts 文件中加入对方的ip地址

sudo vim /etc/hosts

以master为例截图展示

SSH免密登录其他节点（在master上执行）

在Master上执行

cd ~/.ssh
rm ./id_rsa*  # 删除之前生成的公匙（如果有）
ssh-keygen -t rsa # 一直按回车就可以
cat ./id_rsa.pub >> ./authorized_keys
scp ~/.ssh/id_rsa.pub hadoop@node1:/home/hadoop/
scp ~/.ssh/id_rsa.pub hadoop@node2:/home/hadoop/

在node1，node2都执行

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub # 用完就删掉

验证免密登录

ssh node1
exit
ssh node2
exit

以master为例截图展示

安装hadoop3.2.1（在master中执行）

有些镜像的下载网址失效了，这里贴出官网的下载地址。

下载网址：hadoop3.2.1下载网址

下载好，之后通过VMware-Tools上传到master的/home/hadoop中

解压

cd /home/hadoop
sudo tar -zxf hadoop-3.2.1.tar.gz -C /usr/local #解压
cd /usr/local/
sudo mv ./hadoop-3.2.1/ ./hadoop  # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限

验证

cd /usr/local/hadoop
./bin/hadoop version

配置hadoop环境(这一步需要很仔细)

配置环境变量

vim ~/.bashrc

在首行中写入

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使得配置生效

source ~/.bashrc

创建文件目录（为后面的xml做准备）

cd /usr/local/hadoop
mkdir dfs
cd dfs
mkdir name data tmp
cd /usr/local/hadoop
mkdir tmp

配置hadoop的java环境变量

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

vim $HADOOP_HOME/etc/hadoop/yarn-env.sh

两个的首行都写入

export JAVA_HOME=/usr/lib/jvm/default-java

(master中)配置nodes

cd /usr/local/hadoop/etc/hadoop

删除掉原有的localhost,因为我们有2个node,就把这2个的名字写入

vim workers

node1
node2

配置 core-site.xml

vim core-site.xml

因为我们只有一个namenode,所以用fs.default.name，不采用fs.defalutFs

其次确保/usr/local/hadoop/tmp这个目录存在

<configuration>
 <property>
 <name>fs.default.name</name>
 <value>hdfs://Master:9000</value>
 </property>

 <property>
 <name>hadoop.tmp.dir</name>
 <value>/usr/local/hadoop/tmp</value>
 </property>
</configuration>

配置 hdfs-site.xml

vim hdfs-site.xml

dfs.namenode.secondary.http-address确保端口不要和core-site.xml中端口一致导致占用

确保/usr/local/hadoop/dfs/name :/usr/local/hadoop/dfs/data 存在

因为我们只有2个node，所以dfs.replication设置为2

<configuration>
 <property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>Master:9001</value>
 </property>

 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:/usr/local/hadoop/dfs/name</value>
 </property>

 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:/usr/local/hadoop/dfs/data</value>
 </property>

 <property>
 <name>dfs.replication</name>
 <value>2</value>
 </property>
</configuration>

配置mapred-site.xml

vim mapred-site.xml

<configuration>
 <property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
 </property>
</configuration>

配置 yarn-site.xml

vim yarn-site.xml

<configuration>
 <property>
 <name>yarn.resourcemanager.hostname</name>
 <value>Master</value>
 </property>

 <property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
 </property>

 <property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
 </property>
</configuration>

将hadoop压缩

cd /usr/local
tar -zcf ~/hadoop.master.tar.gz ./hadoop #压缩
cd ~

复制到node1中

scp ./hadoop.master.tar.gz node1:/home/hadoop

复制到node2中

scp ./hadoop.master.tar.gz node2:/home/hadoop

在node1、node2上执行
解压

sudo rm -r /usr/local/hadoop # 删掉旧的（如果存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local #解压
sudo chown -R hadoop /usr/local/hadoop #修改权限

首次启动需要先在 Master 节点执行 NameNode 的格式化，之后不需要

hdfs namenode -format

（注意:如果需要重新格式化 NameNode ，才需要先将原来 NameNode 和 DataNode 下的文件全部删除！！！！！！！！！）

#看上面的文字，不要直接复制了
rm -rf $HADOOP_HOME/dfs/data/*
rm -rf $HADOOP_HOME/dfs/name/*

启动（在master上执行）

start-all.sh
mr-jobhistory-daemon.sh start historyserver

master中，出现Warning不影响

jps

运行截图展示

关闭hadoop集群（在master上执行）

stop-all.sh
mr-jobhistory-daemon.sh stop historyserver

运行截图展示

总结

搭建环境是一件比较耗时的操作，自己亲手搭一遍，可能其中会遇到很多问题，比如说Linux的命令不熟悉，各种报错，运行结果不对等，但是这些一般都可以在网上搜索到对应的解决方法。学习新技术就是要勇于试错，然后归纳总结，这样子会形成自己的一套解决问题的逻辑框架思维，也可以增强知识框架的形成，加油！

到此这篇关于VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程的文章就介绍到这了,更多相关VMware Ubuntu搭建Hadoop集群内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

详解VMware12使用三台虚拟机Ubuntu16.04系统搭建hadoop-2.7.1+hbase-1.2.4（完全分布式）

初衷首先说明一下既然网上有那么多教程为什么要还要写这样一个安装教程呢?网上教程虽然多,但是有些教程比较老,许多教程忽略许多安装过程中的细节,比如添加用户的权限,文件权限,小编在安装过程遇到许多这样的问题所以想写一篇完整的教程,希望对初学Hadoop的人有一个直观的了解,我们接触真集群的机会比较少,虚拟机是个不错的选择,可以基本完全模拟真实的情况,前提是你的电脑要配置相对较好不然跑起来都想死,废话不多说. 环境说明本文使用VMware® Workstation 12 Pro虚拟机创建并安装三台
VMware虚拟机下hadoop1.x的安装方法

这是Hadoop学习全程记录第1篇,在这篇里我将介绍一下如何在Linux下安装Hadoop1.x. 先说明一下我的开发环境: 虚拟机:VMware8.0: 操作系统:CentOS6.4: 版本:jdk1.8:hadoop1.2.1 ①下载hadoop1.2.1,网盘:链接: https://pan.baidu.com/s/1sl5DMIp 密码: 5p67 下载jdk1.8,网盘:链接: https://pan.baidu.com/s/1boN1gh5 密码: t36h 将 jdk-8u144-
vmware配置hadoop实现伪分布式的图文教程

一.实验环境编号项目软件及版本 1 操作系统 CentOS6 2 环境软件 VMware 12 3 jdk环境 jdk1.8.0_181 4 Hadoop Hadoop2.8.5 5 本机操作系统 win10专业版二.准备Linux网络环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.150.0 子网掩码:255.255.255.0 ->
VMware Workstation Pro 16搭建CentOS8虚拟机集群的图文教程

在日常学习.工作当中,我们经常需要用到分布式集群环境,如nacos集群,mysql集群,zookeeper集群,redis集群,大数据集群等,而通常并没有那么多的物理机器可以使用,因此,通过虚拟机搭建一套分布式集群环境以供开发和测试,是一个不错的选择.那今天我们就来尝试在Windows 10下使用VMWare搭建一套CentOS 8的集群. 准备工作硬件环境:既然是安装虚拟机,物理机本身硬件配置最好不要太低,笔者使用的环境是Windows10 64位.i7 32G 256g SSD+ 1T硬盘
VMware + Ubuntu18.04 搭建Hadoop集群环境的图文教程

目录前言 VMware克隆虚拟机(准备工作,克隆3台虚拟机,一台master,两台node) 1.创建Hadoop用户(在master,node1,node2执行) 2.更新apt下载源(在master,node1,node2执行) 3. 安装SSH.配置SSH免密登录 (在master,node1,node2执行) 4.安装Java环境 (在master,node1,node2执行) 修改主机名(在master,node1,node2执行) 修改IP映射(在master,node1,node
ubuntu docker搭建Hadoop集群环境的方法

spark要配合Hadoop的hdfs使用,然而Hadoop的特点就是分布式,在一台主机上搭建集群有点困难,百度后发现可以使用docker构建搭建,于是开搞: github项目:https://github.com/kiwenlau/hadoop-cluster-docker 参考文章://www.jb51.net/article/109698.htm docker安装文章中安装的是docker.io 但是我推荐安装docker-ce,docker.io版本太老了,步骤如下: 1.国际惯例更新
详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境

Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验.虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的. 连接服务器使用 ssh 命令连接远程服务器. ssh root@[Your IP Address] 更新软件列表 apt-get update 更新完成. 安装 Docker sudo apt-get install docker.io 当遇到输入是否继续时,输入「Y/y」继
使用docker compose搭建consul集群环境的例子

consul基本概念 server模式和client模式 server模式和client模式是consul节点的类型:client不是指的用户客户端. server模式提供数据持久化功能. client模式不提供持久化功能,并且实际上他也不工作,只是把用户客户端的请求转发到server模式的节点.所以可以把client模式的节点想象成LB(load balance),只负责请求转发. 通常server模式的节点需要配置成多个例如3个,5个.而client模式节点个数没有限制. server模式启
使用sealos快速搭建K8s集群环境的过程

目录一.前言二.sealos 三.准备环境 sealos 安装虚拟机设置网络 windows网络虚拟机的网络网卡配置其他配置 RPM 源四.安装开始五.可能遇见的问题 sealos run的时候镜像下载缓慢六.安装测试安装Kubernetes Dashboard 一.前言最近在做谷粒商城项目,搞到k8s了,但是跟这老师的方法一步一步做还是搭建不起来. 我不断的试错啊,各种bug都遇见了一个也没解决我真是啊哭死! 二.sealos 直到遇见一个大佬同学,告诉我sealos几
Vmware + Ubuntu18.04 安装 Hbase 2.3.5的详细教程

前言上篇安装了 Hadoop ,这篇来安装 Hbase ,当然,如果只是简单做实验的话,其实还是比较简单的.前后大概只需要十多分钟左右就可以解决这个实验.
docker搭建rabbitmq集群环境的方法

本文主要讲述如何用docker搭建rabbitmq的集群.分享给大家,希望此文章对各位有所帮助. 下载镜像采用bijukunjummen该镜像. git clone https://github.com/bijukunjummen/docker-rabbitmq-cluster.git 运行启动集群 cd docker-rabbitmq-cluster/cluster docker-compose up -d ...... Status: Downloaded newer image for
Vscode搭建远程c开发环境的图文教程

目录基础环境远程开发套件建立c文件配置编译任务开始编译开始调试注意参考资料基础环境目标机:ubuntu20 开发机:win10.mac 安装远程开发套件本机和目标机都需要安装. 参考 vscode 免密登录服务器编辑配置服务器信息,用vscode打开远程电脑的一个目录. 建立c文件 #include <stdio.h> #include <stdlib.h> #include <unistd.h> //系统函数 #include <stri
在Hadoop集群环境中为MySQL安装配置Sqoop的教程

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS. 一.安装sqoop 1.下载sqoop压缩包,并解压压缩包分别是:sqoop-1.2.0-CDH3B4.tar.gz,hadoop-0.20.2-C
CLion搭建配置C++开发环境的图文教程 (MinGW-W64 GCC-8.1.0)

1.下载MinGW-W64 GCC 下载地址:MinGW-w64 - for 32 and 64 bit Windows - Browse Files at SourceForge.net MinGW各个版本区别: 我们这里下载MinGW-W64 GCC-8.1.0版本等待下载完成: 解压到指定路径: 我们这里放到D盘路径下: 2. 下载CLion 下载地址:下载 CLion:适用于 C 和 C++ 的智能跨平台 IDE (jetbrains.com) 3. 安装CLion 4. 配置CLio