Hadoop单机版和全分布式(集群)安装

2025-04-06 03:30:14

Hadoop，分布式的大数据存储和计算, 免费开源！有Linux基础的同学安装起来比较顺风顺水，写几个配置文件就可以启动了，本人菜鸟，所以写的比较详细。为了方便，本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的网络连接使用桥接方式，这样在一个局域网方便调试。单机和集群安装相差不多，先说单机然后补充集群的几点配置。

第一步，先安装工具软件
编辑器：vim

代码如下:

sudo apt-get install vim

ssh服务器: openssh，先安装ssh是为了使用远程终端工具（putty或xshell等），这样管理虚拟机就方便多了。

代码如下:

sudo apt-get install openssh-server

第二步，一些基本设置
最好给虚拟机设置固定IP

代码如下:

sudo vim /etc/network/interfaces
加入以下内容：
iface eth0 inet static
address 192.168.0.211
gateway 192.168.0.222
netmask 255.255.255.0

修改机器名，我这里指定的名字是：hadoopmaster ，以后用它做namenode

代码如下:

sudo vim /etc/hostname

修改hosts，方便应对IP变更，也方便记忆和识别

代码如下:

sudo vim /etc/hosts
加入内容：
192.168.0.211 hadoopmaster

第三步，添加一个专门为hadoop使用的用户

代码如下:

sudo addgroup hadoop
sudo adduser -ingroup hadoop hadoop

设置hadoop用户的sudo权限

代码如下:

sudo vim /etc/sudoers

在 root ALL=(ALL:ALL)
下面加一行 hadoop ALL=(ALL:ALL)
切换到hadoop用户 su hadoop

第四步，解压安装JDK，HADOOP，PIG(顺便把PIG也安装了)

代码如下:

sudo tar zxvf ./jdk-7-linux-i586.tar.gz -C /usr/local/jvm/
sudo tar zxvf ./hadoop-1.0.4.tar.gz -C /usr/local/hadoop
sudo tar zxvf ./pig-0.11.1.tar.gz -C /usr/local/pig

修改解压后的目录名并且最终路径为：

代码如下:

jvm: /usr/local/jvm/jdk7
hadoop: /usr/local/hadoop/hadoop （注意：hadoop所有节点的安装路径必须相同）
pig: /usr/local/pig

设置目录所属用户

代码如下:

sudo chown -R hadoop:hadoop jdk7
sudo chown -R hadoop:hadoop hadoop
sudo chown -R hadoop:hadoop pig

设置环境变量, 编辑~/.bashrc 或 ~/.profile 文件加入

代码如下:

export JAVA_HOME=/usr/local/jvm/jdk7
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_INSTALL=/usr/local/hadoop/hadoop
export PATH=${HADOOP_INSTALL}/bin:$PATH
source ~/.profile 生效

第五步，.ssh无密码登录本机，也就是说ssh到本机不需要密码

代码如下:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

如果不起作用请修改权限：

代码如下:

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

authorized_keys相当于白名单，id_rsa.pub是公钥，凡是在authorized_keys有请求者机器的公钥时ssh服务器直接放行，无需密码！

第六步，Hadoop必要设置
所有设置文件在hadoop/conf目录下
1、hadoop-env.sh 找到 #export JAVA_HOME 去掉注释#，并设置实际jdk路径
2、core-site.xml

代码如下:

<property>
<name>fs.default.name</name>
<value>hdfs://hadoopmaster:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>

3、mapred-site.xml

代码如下:

<property>
<name>mapred.job.tracker</name>
<value>hadoopmaster:9001</value>
</property>

4、hdfs-site.xml

代码如下:

<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

5、文件masters 和文件slaves，单机写 localhost 即可

第七步，启动Hadoop
格式化Hadoop的HDFS文件系统

代码如下:

hadoop namenode -format

执行Hadoop启动脚本，如果是集群的话在master上执行，其他slave节点Hadoop会通过ssh执行：

代码如下:

start-all.sh

执行命令 jps 如果显示有： Namenode，SecondaryNameNode，TaskTracker，DataNode，JobTracker等五个进程表示启动成功了！

第八步，集群的配置
所有其他单机的安装跟上面相同，下面只增加集群的额外配置！
最好先配置好一台单机，其他的可以通过scp直接复制，路径也最好相同包括java！
本例的主机列表（设置hosts）：

设置ssh，让master能够不要密码登录到其他slaves上，主要用来启动slaves

代码如下:

复制hadoopmaster下id_rsa.pub到子结点：
scp ./ssh/id_rsa.pub hadoopnode1:/home/hadoop/.ssh/id_master
scp ./ssh/id_rsa.pub hadoopnode2:/home/hadoop/.ssh/id_master

分别在子结点~/.ssh/目录下执行：
cat ./id_master >> authorized_keys

masters文件，添加作为secondarynamenode或namenode的主机名,一行一个。
集群写master名如：hadoopmaster
slaves文件，添加作为slave的主机名，一行一个。
集群写子结点名：如 hadoopnode1、hadoopnode2

Hadoop管理
hadoop启动后会启动一个任务管理服务和一个文件系统管理服务，是两个基于JETTY的WEB服务，所以可在线通过WEB的方式查看运行情况。
任务管理服务运行在50030端口，如 http://127.0.0.1:50030文件系统管理服务运行在50070端口。

参数说明：
1、dfs.name.dir：是NameNode持久存储名字空间及事务日志的本地文件系统路径。当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
2、dfs.data.dir：是DataNode存放块数据的本地文件系统路径，逗号分割的列表。当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
3、dfs.replication：是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错。

用python + hadoop streaming 分布式编程（一） -- 原理介绍，样例程序与本地调试

MapReduce与HDFS简介什么是Hadoop? Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System,并发布了相关论文(可在Google Research的网站上获得: GFS . MapReduce). Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop. MapReduce的Data flow如下图,原始数据
hadoop实现grep示例分享

hadoop做的一个简单grep程序,可从文档中提取包含某些字符串的行复制代码代码如下: /* * 一个简单grep程序,可从文档中提取包含莫些字符串的行 */ public class grep extends Configured implements Tool{ public static class grepMap extends Mapper<LongWritable, Text, Text,NullWritable>{ public void map(LongWritabl
hadoop是什么语言

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果. HDFS:Hadoop Distributed File System,Hadoop
hadoop中一些常用的命令介绍

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop.启动与关闭启动Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/start-all.sh 关闭Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似.并且支持通配符,如*. 查看文件列表查看hdfs中/user/admin/aaron目录下的文件.1.进入HADOOP_HOME
Hadoop1.2中配置伪分布式的实例

1.设置ssh 安装ssh相关软件包: 复制代码代码如下: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: 复制代码代码如下: sudo /etc/init.d/ssh start|stopsudo service ssh start|stop 若成功启动sshd,我们能看到如下类似结果: 复制代码代码如下: $ ps -e | grep ssh 2766 ? 00:00:00
hadoop的hdfs文件操作实现上传文件到hdfs

hdfs文件操作操作示例,包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码代码如下: import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*; import java.io.File;import java.io.IOException;public class HadoopFile { private Configuration conf =null
Hadoop2.X/YARN环境搭建--CentOS7.0系统配置

一.我缘何选择CentOS7.0 14年7月7日17:39:42发布了CentOS 7.0.1406正式版,我曾使用过多款Linux,对于Hadoop2.X/YARN的环境配置缘何选择CentOS7.0,其原因有: 1.界面采用RHEL7.0新的GNOME界面风,这可不是CentOS6.5/RHEL6.5所能比的!(当然,Fedora早就采用这种风格的了,但是现在的Fedora缺包已然不成样子了) 2.曾经,我也用了RHEL7.0,它最大的问题就是YUM没法用,而且总会有Warning提示注册购
用PHP和Shell写Hadoop的MapReduce程序

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer.例如: 复制代码代码如下: hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 在这个例子里,就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer
hadoop map-reduce中的文件并发操作

这样的操作在map端或者reduce端均可.下面以一个实际业务场景中的例子来简要说明. 问题简要描述: 假如reduce输入的key是Text(String),value是BytesWritable(byte[]),不同key的种类为100万个,value的大小平均为30k左右,每个key大概对应 100个value,要求对每一个key建立两个文件,一个用来不断添加value中的二进制数据,一个用来记录各个value在文件中的位置索引.(大量的小文件会影响HDFS的性能,所以最好对这些小文件进行
Hadoop单机版和全分布式(集群)安装

Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细.为了方便,本人使用三台的虚拟机系统是Ubuntu-12.设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试.单机和集群安装相差不多,先说单机然后补充集群的几点配置. 第一步,先安装工具软件编辑器:vim 复制代码代码如下: sudo apt-get install vim ssh服务器: openssh,先安装ssh是为了使用远程终端工
ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境的详细教程

准备4台虚拟机,安装好ol7.7,分配固定ip192.168.168.11 12 13 14,其中192.168.168.11作为master,其他3个作为slave,主节点也同时作为namenode的同时也是datanode,192.168.168.14作为datanode的同时也作为secondary namenodes 首先修改/etc/hostname将主机名改为master.slave1.slave2.slave3 然后修改/etc/hosts文件添加 192.168.168.11 m
Linux下Kafka分布式集群安装教程

Kafka(http://kafka.apache.org/) 是由 LinkedIn 使用 Scala 编写的一个分布式消息系统,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础,具有高水平扩展和高吞吐量.Spack.Elasticsearch 都支持与 Kafka 集成.下面看一下几种分布式开源消息队列系统的对比: Kafka 集群架构: 一般不建议直接使用 Kafka 自带的 Zookeeper 建立 zk 集群,这里我们使用独
Linux下ZooKeeper分布式集群安装教程

ZooKeeper 就是动物园管理员的意思,它是用来管理 Hadoop(大象).Hive(蜜蜂).pig(小猪)的管理员,Apache Hbase.Apache Solr.Dubbo 都用到了 ZooKeeper,其实就是一个集群管理工具,是集群的入口.ZooKeeper 是一个分布式的.开源的程序协调服务,是 Hadoop 项目下的一个子项目.ZooKeeper 主要应用场景包括集群管理(主从管理.负载均衡.高可用的管理).配置文件的集中管理.分布式锁.注册中心等.实际项目中,为了保证高可用,
ol7.7安装部署4节点spark3.0.0分布式集群的详细教程

为学习spark,虚拟机中开4台虚拟机安装spark3.0.0 底层hadoop集群已经安装好,见ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境首先,去http://spark.apache.org/downloads.html下载对应安装包解压 [hadoop@master ~]$ sudo tar -zxf spark-3.0.0-bin-without-hadoop.tgz -C /usr/local [hadoop@master ~]$ cd /usr/local
Kafka单节点伪分布式集群搭建实现过程详解

Kafka集群搭建分为单节点的伪分布式集群和多节点的分布式集群两种,首先来看一下单节点伪分布式集群安装.单节点伪分布式集群是指集群由一台ZooKeeper服务器和一台Kafka broker服务器组成,如下图所示: 为了搭建单节点Kafka集群,需要依次安装如下软件:安装Java-->安装ZooKeeper-->安装Kafka. 一.安装Java 可以参考linux安装jdk,来进行安装二.安装ZooKeeper 下载地址:https://www-us.apache.org/dist/zoo
详解使用docker搭建hadoop分布式集群

使用Docker搭建部署Hadoop分布式集群在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档,没办法,只能自己写一个了. 一:环境准备: 1:首先要有一个Centos7操作系统,可以在虚拟机中安装. 2:在centos7中安装docker,docker的版本为1.8.2 安装步骤如下: <1>安装制定版本的docker yum install -y docker-1.8.2-10.el7.centos <2>安装的时候可能会报错,需要删除这个依赖 r
浅析Hadoop完全分布式集群搭建问题

目录一.Hadoop是什么二.Hadoop组成 1.Hadoop1.x 2.Hadoop2.x 三.Hadoop集群搭建所需工具(链接如下,自行下载) 四.Hadoop集群配置前期准备五.Hadoop运行环境搭建六.Hadoop完全分布式集群环境正式搭建 1.编写集群分发脚本xsync 2.集群配置 3.SSH无密登录配置 4.群起集群 5.集群启动/停止方式总结 6.集群时间同步(必须root用户) 一.Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架
linux系统安装hadoop真分布式集群详解

Hadoop真分布式完全集群安装,基于版本2.7.2安装,在两台Linux机器上面分别安装Hadoop的master和slave节点. 1.安装说明不管NameNode还是DataNode节点,安装的用户名需要一致.master和slave的区别,只是在于配置的hostname,在config的slaves配置的hostname所代表的机器即为slave,不使用主机名也可以,直接配置为IP即可.在这种集群下面,需要在master节点创建namenode路径,并且使用格式化命令hdfs name
Hadoop+HBase+ZooKeeper分布式集群环境搭建步骤

目录一.环境说明 2.1 安装JDK 2.2 添加Hosts映射关系 2.3 集群之间SSH无密码登陆三.Hadoop集群安装配置 3.1 修改hadoop配置 3.2 启动hadoop集群四.ZooKeeper集群安装配置 4.1 修改配置文件zoo.cfg 4.2 新建并编辑myid文件 4.3 启动ZooKeeper集群五.HBase集群安装配置 5.1 hbase-env.sh 5.2 hbase-site.xml 5.3 更改 regionservers 5.4 分发并同步安装

Hadoop单机版和全分布式(集群)安装

相关推荐

随机推荐