最新hadoop安装教程及hadoop的命令使用(亲测可用)

目录
  • 01 引言
  • 02 hadoop 安装
    • 2.1 下载与安装
    • 2.2 hadoop配置
    • 2.3 免登陆配置
    • 2.4 配置环境变量
    • 2.5 配置域名
    • 2.6 启动
  • 03 相关命令
    • 3.1 yarn相关命令
    • 3.2 hdfs相关命令
  • 04 一次填完所有的坑

01 引言

最近安装hadoop-2.7.7 版本的时候遇到了很多坑,本文来详细讲解如何安装和解决遇到的问题。

02 hadoop 安装

2.1 下载与安装

Step1: 下载

百度网盘下载

链接: https://pan.baidu.com/s/1ydPDP3xL0iL6sKYxdiq2ew 提取码: nnpf

Step2: 上传并解压

 cd /data
 tar -zxvf hadoop-2.7.7.tar.gz

2.2 hadoop配置

Step1: 修改hadoop安装目录/etc/hadoop下的hadoop-env.sh的文件内容

[root@server11 hadoop]# vi hadoop-env.sh

# 指定JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/TencentKona-8.0.1-242

Step2: 修改hadoop安装目录/etc/hadoop下的core-site.xml的文件内容

[root@server19 hadoop]# vi core-site.xml

<configuration>
    <!-- 指定HDFS老大(namenode)的通信地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://服务器的真实ip:9002</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储路径 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop/tmp</value>
    </property>
</configuration>

注:这里fs.defaultFSvalue最好是写本机的静态IP。当然写本机主机名,再配置hosts是最好的,如果用localhost,然后在windowsjava操作hdfs的时候,会连接不上主机。

Step3: 修改hadoop安装目录/etc/hadoop下的hdfs-site.xml的文件内容

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/data/hadoop/hadoop/hdfs/nn</value>
        </property>
        <property>
                <name>fs.checkpoint.dir</name>
                <value>/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>fs.checkpoint.edits.dir</name>
                <value>/data/hadoop/hdfs/snn</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/data/hadoop/hdfs/dn</value>
        </property>

        <property>
            <name>dfs.name.dir</name>
            <value>/data/hadoop/name</value>
        </property>
        <property>
            <name>dfs.data.dir</name>
            <value>/data/hadoop/node</value>
        </property>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.http.address</name>
            <value>服务器的真实ip:9000</value>
        </property>
        <property>
             <name>ipc.maximum.data.length</name>
             <value>134217728</value>
        </property>
</configuration>

*Step4: 修改hadoop安装目录/etc/hadoop下的yarn-site.xml的文件内容

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.application.classpath</name>
    <value>
        /data/hadoop-2.7.7/etc/*,
        /data/hadoop-2.7.7/etc/hadoop/*,
        /data/hadoop-2.7.7/lib/*,
        /data/hadoop-2.7.7/share/hadoop/common/*,
        /data/hadoop-2.7.7/share/hadoop/common/lib/*,
        /data/hadoop-2.7.7/share/hadoop/mapreduce/*,
        /data/hadoop-2.7.7/share/hadoop/mapreduce/lib/*,
        /data/hadoop-2.7.7/share/hadoop/hdfs/*,
        /data/hadoop-2.7.7/share/hadoop/hdfs/lib/*,
        /data/hadoop-2.7.7/share/hadoop/yarn/*,
        /data/hadoop-2.7.7/share/hadoop/yarn/lib/*
    </value>
</property>

</configuration>

2.3 免登陆配置

线上环境已配置,无需配置

#到 root 目录下:
cd /root
#执行生成密钥命令:
ssh-keygen -t rsa
#然后三个回车
#然后复制公钥追加到第一台节点的公钥文件中:
ssh-copy-id -i /root/.ssh/id_rsa.pub root@master01
#选择 yes
#输入登录第一台节点的密码(操作完成该节点公钥复制到第一台节点中)

2.4 配置环境变量

vi /etc/profile

### 配置内容如下:
export JAVA_HOME=/usr/lib/jvm/TencentKona-8.0.1-242
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/data/hadoop-2.7.7
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=/data/hadoop-2.7.7/etc/hadoop

### 生效配置
source /etc/profile

注意:配置HADOOP_CLASSPATH!

2.5 配置域名

可能会配置到,根据提示错误配置就好了

vi /etc/hosts

127.0.0.1 localhost.localdomain localhost
127.0.0.1 localhost4.localdomain4 localhost4
127.0.0.1 VM-xx-centos gp-master

::1 VM-xx-centos VM-xxx-centos
::1 localhost.localdomain localhost
::1 localhost6.localdomain6 localhost6

服务器的真实ip VM-xxx-centos localhost.localdomain gp-master

2.6 启动

进入hadoop安装目录/sbin,执行start-all.sh文件:

./start-all.sh

使用jps命令验证是否已经启动成功(这些都启动了才算成功:ResourceManager、DataNode、SecondaryNameNode、NodeManager、TaskManagerRunner、YarnTaskExecutorRunner、NameNode):

jps

浏览器打开:http://服务器地址:50070/,可以看到hadoop环境搭建好了:

03 相关命令

3.1 yarn相关命令

## 正在运行的任务
yarn application -list

## kill掉yarn正在运行的任务
yarn application -kill application_1654588814418_0003

## 查找yarn已经完成的任务列表
yarn application -appStates finished -list

## 查找yarn所有任务列表
yarn application -appStates ALL -list

## 查看容器日志
curl http://127.0.0.1:8042/node/containerlogs/container_1654588814418_0003_01_000001/root/jobmanager.out/?start=0

## 查看yarn内存使用情况
curl http://127.0.0.1:8042/cluster

3.2 hdfs相关命令

# 因为在 HDFS 上没有为当前用户创建主目录,所以要先创建目录
$ hadoop fs -mkdir -p /user/root
# 目录只能一级级创建 ,不能一下子创建2个
$ hadoop fs -mkdir ./flink
# 上传
$ hadoop fs -put /资源路径/相关资源 ./flink
# 下载
$ hadoop fs -get ./flink
# 查看
$ hadoop fs -ls ./flink 

# 删除整个文件夹
$ hadoop fs -rm -rf flink
# 此处为逐级删除
$ hadoop fs -rm  ./flink/资源
# 备注:上面的 `./bin/hadoop fs`等同于`./bin/hdfs dfs`

04 一次填完所有的坑

1. 程序访问hdfs失败,提示“Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message”

解决方案:使用命令hdfs getconf -confKey fs.default.name获取正确的端口号并配置到程序

2. 首次安装hadoop,使用hdfs命令时,会提示“‘.’: No such file or directory”

解决方案: 因为在 hdfs 上没有为当前用户创建主目录,所以要先创建目录$ hadoop fs -mkdir -p /user/root

3. 首次安装hadoop,使用hdfs命令时,可能会提示“‘There are 0 datanode(s) running and no node(s) are excluded in this operation.”

解决方案:可能是格式化两次hadoop,导致没有datanode。首先stop-all.sh停掉所有的服务,然后找到hadoop指定的data目录(线上是:/data/hadoop)删除,接着从新执行一下 hadoop namenode -format,最后使用start-all.sh 重启一下hadoop

4. 使用hdfs命令,提示“Caused by: org.apache.hadoop.ipc.RemoteException: Cannot create directory”

解决方案:是因为安全模式没有自动关闭,使用命令关闭“hdfs dfsadmin -safemode leave”,然后删除出错的block块,命令:“hdfs fsck / -delete”。

5. 启动hadoop时,可能会提示second node connection refuesd,即访问被拒绝

解决方案: 修改hadoop安装目录/etc/hadoop下的hdfs-site.xml的文件内容

<property>
	<name>dfs.http.address</name>
	<value>11.41.140.96:9002</value>
</property>
<property>
	<name>dfs.secondary.http.address</name>
	<value>11.41.140.96:9002</value>
</property>

6.部署的时候可能会失败,提示 Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message,指的是端口号配置错了,查询端口号的命令:

解决方案:修改查询端口号并修改

hdfs getconf -confKey fs.default.name

7.hadoop的日志在哪个目录:

在:/data/hadoop-2.7.7/logs 05 Yarn相关配置

本文顺带讲下yarn相关的配置(在/etc/hadoop/yarn-site.xml配置),可以直接跳过。

配置 描述
yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。
yarn.nodemanager.vmem-pmem-ratio 任务每使用1MB物理内存,最多可使用虚拟内存量,默认是2.1。
yarn.nodemanager.pmem-check-enabled 是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true。
yarn.nodemanager.vmem-check-enabled 是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true。
yarn.scheduler.minimum-allocation-mb 单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,则该对应的值改为这个数。
yarn.scheduler.maximum-allocation-mb 单个任务可申请的最多物理内存量,默认是8192(MB)。

06 文末

本文主要讲解了如何安装hadoop、使用hadoop的命令及遇到的问题解决,希望能帮助到大家,谢谢大家的阅读,本文完!

(0)

相关推荐

  • 新手Hadoop安装 环境搭建

    目录 一. 下载环境 二. 创建Hadoop用户 1.进入用户,打开终端输入如下命令: 2.设置密码 三. 进行Hadoop内部环境的搭建 四. 安装ssh并配置无密码登陆 1.登陆 2.设置无密码登陆 五.安装Java环境 六.安装Hadoop 七.Hadoop伪分布配置 1.配置文件 2.开启NameNode 和 DataNode 守护进程 八.Hadoop集群搭建 总结 一. 下载环境 Ubuntu 2.x.x 版本 二. 创建Hadoop用户 在虚拟机创建安装完成后. 1.进入用户,打开

  • Hadoop的安装与环境搭建教程图解

    一.Hadoop的安装 1. 下载地址:https://archive.apache.org/dist/hadoop/common/我下载的是hadoop-2.7.3.tar.gz版本. 2. 在/usr/local/ 创建文件夹zookeeper mkdir hadoop 3.上传文件到Linux上的/usr/local/source目录下 3.解压缩 运行如下命令: tar -zxvf hadoop-2.7.3.tar.gz-C /usr/local/hadoop 4. 修改配置文件 进入到

  • Hadoop介绍与安装配置方法

     1. HADOOP背景介绍 1.1 什么是HADOOP 1.HADOOP是apache旗下的一套开源软件平台 2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3.HADOOP的核心组件有 1.HDFS(分布式文件系统) 2.YARN(运算资源调度系统) 3.MAPREDUCE(分布式运算编程框架) 4.广义上来说,HADOOP通常是指一个更广泛的概念--HADOOP生态圈 Hadoop hive hbase flume kafka sqoop s

  • hadoop 单机安装配置教程

    单机安装主要用于程序逻辑调试.安装步骤基本通分布式安装,包括环境变量,主要Hadoop配置文件,SSH配置等.主要的区别在于配置文件:slaves配置需要修改,另外如果分布式安装中dfs.replication大于1,需要修改为1,因为只有1个datanode. 分布式安装请参考: http://acooly.iteye.com/blog/1179828 单机安装中,使用一台机器,即做namenode和JobTracker也是datanode和TaskTracker,当然也是SecondaryN

  • Hadoop的eclipse的插件安装方法

    1)网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclipse就可以看到MapReduce选项了. 2)启动eclipse,点开Windows->preferences,弹出如下对话框,设置hadoop的安装目录. 3)点开Windows->ShowView->Other-,弹出

  • Hadoop单机版和全分布式(集群)安装

    Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细.为了方便,本人使用三台的虚拟机系统是Ubuntu-12.设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试.单机和集群安装相差不多,先说单机然后补充集群的几点配置. 第一步,先安装工具软件编辑器:vim 复制代码 代码如下: sudo apt-get install vim ssh服务器: openssh,先安装ssh是为了使用远程终端工

  • 最新hadoop安装教程及hadoop的命令使用(亲测可用)

    目录 01 引言 02 hadoop 安装 2.1 下载与安装 2.2 hadoop配置 2.3 免登陆配置 2.4 配置环境变量 2.5 配置域名 2.6 启动 03 相关命令 3.1 yarn相关命令 3.2 hdfs相关命令 04 一次填完所有的坑 01 引言 最近安装hadoop-2.7.7 版本的时候遇到了很多坑,本文来详细讲解如何安装和解决遇到的问题. 02 hadoop 安装 2.1 下载与安装 Step1: 下载 百度网盘下载 链接: https://pan.baidu.com/

  • clion最新激活码+汉化的步骤详解(亲测可用激活到2089)

    前言 CLion是一款专为开发C及C++所设计的跨平台IDE.它是以IntelliJ为基础设计的,包含了许多智能功能来提高开发人员的生产力,提高开发人员的工作效率.pycharm和clion是同一个公司的奥!!! 破解包获取地址: Clion2020.2.x破解包 ,参考教程点击此处 https://pan.baidu.com/share/init?surl=nb0jSOq1N-exaxUyeVkfew 提取码:mk2u CLion 2020.1的破解包,参考教程点击此处 链接: https:/

  • pycharm最新免费激活码至2099年(21.3.18亲测可用)

    这是支持的下载版本,去官网下载2020.3及以上(2021-03-18测试破解有效) 官网下载地址:https://www.jetbrains.com/pycharm/download/#section=windows 软件安装比较简单,就不再过多描述,中间会弹出一个自定义选择框,四个选项全部打上,然后一直下一步直到下载完成 注意有一个选项是要不要自动配置环境变量,这个需要重启之后才能生效 激活步骤及必备的压缩包下载 安装好之后在激活界面选择免费试用,进入编辑界面. 必备压缩包下载地址 链接:h

  • 最新2019Pycharm安装教程 亲测

    Pycharm安装 在这插一个小话题哈,Pycharm只是一个编译器,并不能代替Python,如果要使用Python,还是需要安装Python的哈 1.Pycharm下载安装 Pycharm下载 Pycharm官网:http://www.jetbrains.com/pycharm/download/#section=windows ,进入以后,选择自己应该安装的版本,这里选择"Windows"为例下载. Pycharm安装 (1)双击下载好的exe,得到如下图所示,点击next (2)

  • python Windows最新版本安装教程

    目录 1.官网下载地址 2.打开exe安装 3.是否安装成功 1.官网下载地址 在官网找到你想安装的版本 官网地址:https://www.python.org/并且选择下载windows版本 目前最新的版本是3.10.1,在稳定版中下拉选择一个你想要的版本,直接下载installer即可,我下载的是最新版本.(如果你的电脑是win7或者XP系统,就需要下载旧一点的版本了,他上面也有提示) 如果下载很慢的话,可以打开手机热点,电脑连接手机热点后再重新下载,速度应该会有所提升.或者使用国内镜像:h

  • 2023年IDEA最新永久激活教程(亲测可用)

    目录 效果如下: 下载安装 插件及激活码下载 杀软误报毒说明 安装插件 卸载其他插件 下载并解压插件 安装插件 windows安装插件 mac/Linux安装插件 重启软件(IDE) 使用激活码 第一步,重启IDE 第二步,获取激活码 第三步,打开激活界面 第四步,输入激活码 第五步,激活成功 其他常见问题 InteIIiJ IDEA 2023.版本发布了,很多朋友已经迫不及待升级了.官方对此版本的新变化总结:在 IntelliJ IDEA 2023.1中,我们根据用户的宝贵反馈对新UI做出了大

  • Navicat Premium 15 永久破解激活工具及安装教程(亲测可用)

    前言 Navicat premium是一款数据库管理工具,是一个可多重连线资料库的管理工具,它可以让你以单一程式同时连线到 MySQL.SQLite.Oracle 及 PostgreSQL 资料库,让管理不同类型的资料库更加的方便. 最新版的Navicat Premium 15 已经发布了,但是此工具是收费的,学习的话买,不怎么划算,所以双手奉上白嫖版的. 页面: 下载安装包和破解工具 此处附上官网下载地址:http://www.navicat.com.cn/download/navicat-p

  • Centos7安装Docker(2020最新亲测可用,直接复制粘贴即可)

    这里参考官方文档进行操作: https://docs.docker.com/engine/install/centos/ 1.卸载docker旧版本(我的centos7是新的,所以运行后不删除任何软件包) yum remove docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-logrotate \ docker-engi

  • PyCharm2019.3永久激活破解详细图文教程,亲测可用(不定期更新)

    PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试.语法高亮.Project管理.代码跳转.智能提示.自动完成.单元测试.版本控制.此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发. 本教程适用于 Pycharm 所有版本,之前激活过的请重新下载安装参数 一.激活前注意事项 软件一定要是在官网下载:https://www.jetbrains.com/ 本教程适用于jetbrains全系列产品(Pyc

  • IDEA 2020.3最新永久激活码(免费激活到 2099 年,亲测有效)

    分享一下 IntelliJ IDEA 2020.3.1 最新激活注册码,破解教程如下,可免费激活至 2099 年,亲测有效,下面是详细文档哦~ 提供下面两种激活方法,小伙伴任选其一即可: 第一种:即本文的教程,可激活到 2099 年, 跟着文章一步一步来即可: 第二种:<IDEA 破解新招 - 无限重置30天试用期>,这种方法可以通过无限重置30天试用期的方式持续使用: 注意 本教程适用于 IntelliJ IDEA 2020.3.1 以下所有版本,请放心食用~ 本教程适用 Windows/M

随机推荐