详解Hadoop 运行环境搭建过程

一,集群搭建步骤

1.先在一台虚拟机配置jdk,hadoop
2.克隆
3.修改网络等相关配置
当我们使用虚拟机时,可能自然而然的会想上面的步骤一样先搭建一台虚拟机,做好相关配置,然后进行克隆,继而修改一些网络配置来搭建集群,但是在生产过程中是买好的服务器,不存在克隆这一说,所以在此采用的步骤是:
1.建立一台虚拟机(仅带jdk安装包)
2.克隆
3.修改网络等相关配置
4.配置第一个hadoop节点,编写集群分发脚本使其他虚拟机完成配置

二,具体搭建过程

这里使用三台虚拟机来完成集群搭建,hadoop001,hadoop002,hadoop003,把安装包放在/opt/software,建立虚拟机和克隆就不说了,注意一点,在个人用不能使用sudo命令在/opt建立文件,可以先使用root,然后通过chown scq:scq module/ software/ -R把拥有着赋给个人用户即可

修改网络等配置修改sudoer文件

代码如下:

su rootll /etc/sudoerschmod u+w /etc/sudoersvim /etc/sudoers

#当用户执行sudo时,系统会主动寻找/etc/sudoers文件,判断该用户是否有执行sudo的权限

修改mac地址,修改ip
 代码如下:

sudo vim /etc/udev/rules.d/70-persistent-net.rules

把eth0删除,把eth1改为eth0,同时复制ATTR{address}的值

sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0

把ATTR{address}粘到HWADDR

然后更改IP,ip可以通过图形化界面和命令行两种方式进行更改
这里需要重启一下(可以等所有配置完成后再重启),如果我们只是修改ip,可以通过sudo /etc/rc.d/init.d/network restart 进行网络重启即可,但是修改网卡配置通过这个命令会报错网上说eth0 里仍然记录着旧的MAC地址,但我更新了sudo /etc/sysconfig/network-scripts/ifcfg-eth0仍然不行

BOOTPROTO=static 静态IPBOOTPROTO=dhcp 动态IPBOOTPROTO=none 无(图形化界面修改时BOOTPROTO值为none)

修改主机名

主机名是什么:在命令行中敲入hostname或者命令行每一行中 @后面的内容

sudo vim /etc/sysconfig/network

重启生效,不重启生效的方式不常见,可以自行百度。

修改hosts文件

sudo vim /etc/hosts[/code]关闭防火墙[code]centos6/etc/init.d/iptables status/etc/init.d/iptables start/etc/init.d/iptables stopchkconfig iptables offcentos7systemctl start firewalldfirewall-cmd --statesystemctl stop firewalldsystemctl disable firewalldsystemctl list-unit-files|grep firewalld

注:

1.每次开机时修改一下/etc/resolv.conf文件设置网关

安装hadoop,形成hadoop集群安装单个hadoop

①解压,配置环境变量

②配置文件

对于本地模式,因为本地模式直接运行jvm上,所以不需要对配置文件做配置
对于伪分布式与完全分布式的常见相关配置集中在以下文件中

HDFShadoop-env.shcore-site.xml ---> nameNode节点 + hadoop 运行时产生文件的存储目录hdfs-site.xml 副本数 + SecondaryNameNode地址Yarnyarn-env.sh yarn-site.xml reducer 获取数据的方式 + 指定 YARN 的 ResourceManager 的地址 + 日志信息上传到 HDFS 系统上MapReducemapred-env.sh mapred-site.xml 指定 mr 运行在 yarn 上 + 历史服务器 对于xxx-env.sh 就是考虑JAVA_HOME。hadoop-env.sh添加JAVA_HOME,yarn可以辨别JAVA_HOME,mapreduce-env.sh可以不用配置,当然也可以全部都配置

常见的具体配置

<property><name>fs.defaultFS</name><value>hdfs://hadoop001:9000</value>
</property><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>伪分布式 副本1,无SecondaryNameNode节点<property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.secondary.http-address</name>
<value>hadoop004:50090</value></property><!-- reducer 获取数据的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 YARN 的 ResourceManager 的地址 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property>
<!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志保留时间设置 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!-- 指定 mr 运行在 yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property>
<!-- 配置历史服务器--><property><name>mapreduce.jobhistory.address</name><value>hadoop001:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value>
</property>

编写集群分发脚本

1) scp:secure copy 安全拷贝

(a)将 hadoop001 中/opt/module 目录下的软件拷贝到 hadoop002 上。

[scq@hadoop001 /]$ scp -r /opt/module/* scq@hadoop002:/opt/module

(b)将 hadoop001 服务器上的/opt/module 目录下的软件拷贝到 hadoop003 上。

scq@hadoop003 opt]$ scp -r scq@hadoop101:/opt/module/* hadoop003:/opt/module

(c)在 hadoop003 上操作将 hadoop001 中/opt/module 目录下的软件拷贝到hadoop004 上。

[scq@hadoop003 opt]$ scp -r scq@hadoop001:/opt/module/* scq@hadoop004:/opt/modul

注意一点:

1.用户@主机名:地址,在该主机中,这个用户必须读地址有读权限

2.路径后面记得带*号

2)rsync 远程同步工具

主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别: 用 rsync 做文件的复制要比 scp 的速度快, rsync 只对差异文件做更新。 scp 是把所有文件都复制过去。

(1)查看 rsync 使用说明

man rsync | more

(2)基本语法

rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

命令 命令参数 要拷贝的文件路径/名称 目的用户@主机:目的路径

(3) 选项说明

选项 功能
-r 递归
-v 显示复制过程
-l 拷贝符号连接

(4)案例实操

把本机/opt/software 目录同步到 hadoop002 服务器的 root 用户下的/opt/目录

[scq@hadoop001 opt]$ rsync -rvl /opt/software/* hadoop102:/opt/software/

3)rsync 远程同步工具

脚本需求分析:循环复制文件到所有节点的相同目录下。
(1)原始拷贝:

rsync -rvl /opt/module root@hadoop103:/opt/

(2)期望脚本:

xsync 要同步的文件名称
(3)在/home/atguigu/bin 这个目录下存放的脚本, atguigu 用户可以在系统任何地方直接执行。

#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); then echo no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`echo pdir=$pdir#4 获取当前用户名称user=`whoami`#5 循环for((host=2; host<4; host++)); doecho --------------------- hadoop00$host ----------------rsync -rvl $pdir/$fname $user@hadoop00$host:$pdirdone

注1 对于dirname,记住一下几个场景

输入:dirname // 结果为 /(斜杠)。

输入:dirname /a/b/ 结果为:/a。输入:dirname a 结果为 . (点)。

输入:dirname a/b 结果为路径名 a

.即当前目录,所以脚本中的代码我们使用绝对路径和相对路径都是可行的

2.脚本中并没有使用*,这个应该也不难理解

分发Hadoop,完成集群搭建

[scq@hadoop001 bin]$ ./xsync /opt/module/hadoop-2.7.2

总结

以上所述是小编给大家介绍的Hadoop 运行环境搭建过程,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对我们网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

(0)

相关推荐

  • 在Hadoop集群环境中为MySQL安装配置Sqoop的教程

    Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS. 一.安装sqoop 1.下载sqoop压缩包,并解压 压缩包分别是:sqoop-1.2.0-CDH3B4.tar.gz,hadoop-0.20.2-C

  • Hadoop2.X/YARN环境搭建--CentOS7.0系统配置

    一.我缘何选择CentOS7.0 14年7月7日17:39:42发布了CentOS 7.0.1406正式版,我曾使用过多款Linux,对于Hadoop2.X/YARN的环境配置缘何选择CentOS7.0,其原因有: 1.界面采用RHEL7.0新的GNOME界面风,这可不是CentOS6.5/RHEL6.5所能比的!(当然,Fedora早就采用这种风格的了,但是现在的Fedora缺包已然不成样子了) 2.曾经,我也用了RHEL7.0,它最大的问题就是YUM没法用,而且总会有Warning提示注册购

  • linux下搭建hadoop环境步骤分享

    1.下载hadoop包 wget http://apache.freelamp.com/hadoop/core/stable/hadoop-0.20.2.tar.gz2.tar xvzf hadoop-0.20.2.tar.gz3.安装JDK,从oracle网站上直接下载JDK,地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html4.chmod +x jdk-6u21-linux-i586.bin;./jdk-

  • 使用Maven搭建Hadoop开发环境

    关于Maven的使用就不再啰嗦了,网上很多,并且这么多年变化也不大,这里仅介绍怎么搭建Hadoop的开发环境. 1. 首先创建工程 复制代码 代码如下: mvn archetype:generate -DgroupId=my.hadoopstudy -DartifactId=hadoopstudy -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false 2. 然后在pom.xml文件里添加hadoop的依赖

  • 详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境

    Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验.虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的. 连接服务器 使用 ssh 命令连接远程服务器. ssh root@[Your IP Address] 更新软件列表 apt-get update 更新完成. 安装 Docker sudo apt-get install docker.io 当遇到输入是否继续时,输入「Y/y」继

  • Hadoop2.X/YARN环境搭建--CentOS7.0 JDK配置

    Hadoop是Java写的,他无法使用Linux预安装的OpenJDK,因此安装hadoop前需要先安装JDK(1.6以上) 原材料:在Oracle官网下载的32位JDK: 说明: 1.CentOS 7.0系统现在只有64位的,但是,Hadoop一般支持32位的,在64位环境下有事会有Warning出现,避免真的有神马问题,选择i586的JDK(即32位的),当然,64位的CentOS 7 肯定是兼容32位JDK的,记住:64位系统肯定兼容32位的软件,32位系统不能兼容64位软件.64位只是说

  • 详解Hadoop 运行环境搭建过程

    一,集群搭建步骤 1.先在一台虚拟机配置jdk,hadoop 2.克隆 3.修改网络等相关配置 当我们使用虚拟机时,可能自然而然的会想上面的步骤一样先搭建一台虚拟机,做好相关配置,然后进行克隆,继而修改一些网络配置来搭建集群,但是在生产过程中是买好的服务器,不存在克隆这一说,所以在此采用的步骤是: 1.建立一台虚拟机(仅带jdk安装包) 2.克隆 3.修改网络等相关配置 4.配置第一个hadoop节点,编写集群分发脚本使其他虚拟机完成配置 二,具体搭建过程 这里使用三台虚拟机来完成集群搭建,ha

  • hadoop分布式环境搭建过程

    1. Java安装与环境配置 Hadoop是基于Java的,所以首先需要安装配置好java环境.从官网下载JDK,我用的是1.8版本. 在Mac下可以在终端下使用scp命令远程拷贝到虚拟机linux中. danieldu@daniels-MacBook-Pro-857 ~/Downloads scp jdk-8u121-linux-x64.tar.gz root@hadoop100:/opt/software root@hadoop100's password: danieldu@daniels

  • 详解python开发环境搭建

    虽然网上有很多python开发环境搭建的文章,不过重复造轮子还是要的,记录一下过程,方便自己以后配置,也方便正在学习中的同事配置他们的环境. 1.准备好安装包 1)上python官网下载python运行环境(http://www.jb51.net/softs/416037.html),目前比较稳定的是python-3.5.2 2)上pycharm官网下载最新版的IDE(http://www.jb51.net/softs/299378.html),官网提供了mac.windows和linux三种版

  • Windows7下的Java运行环境搭建过程图解

    第一步:下载JDK 地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html,(由于Sun于2009年被oracle收购所以网址是oracle的) 单击"Java Download"按钮. 选中"Accept License Agreement"单选按钮. 我们以Windows 64位操作系统为例,下载Windows X64版的jdk.单击"jdk-8u5-windows-x

  • 详解Angular 开发环境搭建

    Angular 是一款开源 JavaScript 框架,由Google 维护,用来协助单一页面应用程序运行的.它的目标是增强基于浏览器的应用,使开发和测试变得更加容易.目前最新的 Angular 版本是 v4.2.3 开始搭建 Angular 开发环境 搭建 Angular 开发环境需要的步骤: Node.js 配置 npm Angular CLI 安装 Node.js 下载安装Node.js,下载最新的 LTS 版本即可,目前最新的版本是 v6.11.0 LTS 配置 npm 安装好 Node

  • 详解iOS WebDriverAgent 环境搭建

    WebDriverAgent简介 WebDriverAgent是Facebook 在去年的 SeleniumConf 大会上推出了一款新的iOS移动测试框架.当时的推文申明,还只支持模拟器,不过在今年4月更新的版本中,官方宣称支持真机测试了,大家可以查看官方github 的介绍:https://github.com/facebook/WebDriverAgent 下面摘录一段官方对于WebDriverAgent的介绍字段: WebDriverAgent 在 iOS 端实现了一个 WebDrive

  • Hadoop-3.1.2完全分布式环境搭建过程图文详解(Windows 10)

    一.前言 Hadoop原理架构本人就不在此赘述了,可以自行百度,本文仅介绍Hadoop-3.1.2完全分布式环境搭建(本人使用三个虚拟机搭建). 首先,步骤: ① 准备安装包和工具: hadoop-3.1.2.tar.gz ◦ jdk-8u221-linux-x64.tar.gz(Linux环境下的JDK) ◦ CertOS-7-x86_64-DVD-1810.iso(CentOS镜像) ◦工具:WinSCP(用于上传文件到虚拟机),SecureCRTP ortable(用于操作虚拟机,可复制粘

  • IDEA插件开发之环境搭建过程图文详解

    基于IntelliJ Platform Plugin搭建 环境步骤 File->New->Project 选择IntelliJ Platform Plugin 如果你这里没有SDK环境,则添加一个SDK环境,选择自己的idea的安装的根目录即可. 展示效果 基于Gradle搭建环境步骤 File->New->Project 选择Gradle next 进来以后大概是这样的一个界面,然后gradle会自动build项目,下载相关的依赖.(可能会失败) 遇到的问题一,依赖ideaIC-

  • Windows下Goland的环境搭建过程详解

    1.安装包下载 进入Go官方下载界面 下载并安装,安装时注意最好不要将其安装在C盘,我这里将它安装在D盘: 2.环境变量配置 安装包会自动添加环境变量,但是默认的Go工作空间C盘,而我们一般不在C盘放自己的文件,这里以我的工作空间为例我的Go项目文件放在D盘的GoFiles文件夹中,所以这里演示重新配置: 主要是配置两个环境变量:GOROOT和GOPATH: GOROOT指GO的安装目录 GOPATH是作为编译后二进制的存放目的地和import包时的搜索路径,不要设置为GO的安装目录,我们一般用

  • Android开发环境搭建过程图文详解

    一.工具 IDE:Android Studio4.1+genymotion (Android studio 自带AVD着实有些不好用,这里选择使用genymotion模拟器) JDK:1.8 SDK:7.1 版本管理:Git 二.环境搭建 1.安装jdk 这里使用的是jdk1.8 ,安装并配置环境变量,通用步骤,不一 一介绍了 2.安装Android Studio 安装:android-studio-ide-201.6858069-windows.exe ,默认安装即可配置sdk (可以选择设置

随机推荐