Hadoop1.2中配置伪分布式的实例

2025-04-14 10:29:09

1、设置ssh

安装ssh相关软件包：

代码如下:

sudo apt-get install openssh-client openssh-server

然后使用下面两个命令之一启动/关闭sshd：

代码如下:

sudo /etc/init.d/ssh start|stop
sudo service ssh start|stop

若成功启动sshd，我们能看到如下类似结果：

代码如下:

$ ps -e | grep ssh
2766 ? 00:00:00 ssh-agent
10558 ? 00:00:00 sshd

这时候，如果运行如下ssh登录本机的命令，会提示输入密码：

代码如下:

ssh localhost

现在我们要做的就是让它不需要输入密码：

代码如下:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa #一个空密码的SSH密钥
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

这样的话就行了。如果仍不凑效，可能是密钥文件的权限设置不当。

2、配置hadoop

将hadoop-1.2.1解压到~/下，同时在~/下建立目录hadoop-env，继续在hadoop-env下建立如下的目录结构：

├── dfs
│   ├── checkpoint1
│   ├── data1
│   ├── data2
│   └── name1
└── test
    └── input
配置文件hadoop-1.2.1/conf/core-site.xml：

代码如下:

fs.default.name来指定HDFS的uri，如果value中没有提供端口，默认为8020。

配置文件hadoop-1.2.1/conf/hdfs-site.xml：

代码如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
    <name>dfs.name.dir</name>
    <value>~/hadoop-env/dfs/name1</value>
    <final>true</final>
</property>
<property>
    <name>dfs.data.dir</name>
    <value>~/hadoop-env/dfs/data1,~/hadoop-env/dfs/data2</value>
    <final>true</final>
</property>
<property>
    <name>fs.checkpoint.dir</name>
    <value>~/hadoop-env/dfs/checkpoint1</value>
    <final>true</final>
</property>
</configuration>

dfs.name.dir指定namenode存储元数据的目录，可以指定多个目录，这些目录要用逗号分开；dfs.data.dir指定datanode存放数据的目录，可以指定多个目录；fs.checkpoint.dir指定辅助namenode存放检查点的目录。

配置文件hadoop-1.2.1/conf/mapred-site.xml：

代码如下:

3、测试

先格式化HDFS：

代码如下:

./hadoop-1.2.1/bin/hadoop namenode -format

启动HDFS和MapReduce进程：

代码如下:

$ ./hadoop-1.2.1/bin/start-dfs.sh
$ ./hadoop-1.2.1/bin/start-mapred.sh

启动时候如果报错，例如localhost: Error: JAVA_HOME is not set.，需要在./hadoop-1.2.1/conf/hadoop-env.sh文件中export JAVA_HOME，例如：

export JAVA_HOME=~/jdk1.7.0_25
如何检查是否成功启动了：第一种方法是使用jps命令（Java Virtual Machine Process Status Tool），应该有如下类似输出：

代码如下:

$ jps
13592 DataNode
13728 SecondaryNameNode
13837 JobTracker
12864 NameNode
13955 TaskTracker
16069 Jps

第二种方法是浏览器登录http://localhost:50030查看jobtracker，http://localhost:50070查看namenode。如果在使用翻墙软件，那么在访问时可能会报错，最简单的解决方法是关掉翻墙软件。还有一种方法就是查看日志文件。

现在我们在~/hadoop-env/test/input目录下建立两个文件：

代码如下:

$ echo "hello world" > test1.txt
$ echo "hi,world" > test2.txt

把这两个文件导入HDFS：

代码如下:

./hadoop-1.2.1/bin/hadoop dfs -put hadoop-env/test/input/ output/

查看：

代码如下:

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /
Found 2 items
drwxr-xr-x - user supergroup 0 2013-10-22 22:07 /test
drwxr-xr-x - user supergroup 0 2013-10-22 21:58 /tmp

$ ./hadoop-1.2.1/bin/hadoop dfs -ls /test
Found 2 items
-rw-r--r-- 3 user supergroup 12 2013-10-22 22:07 /test/test1.txt
-rw-r--r-- 3 user supergroup 9 2013-10-22 22:07 /test/test2.txt

OK，配置完成。

注：本文使用的系统是linux mint 15 64bit，hadoop使用的是1.2.1版本。

hadoop是什么语言

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果. HDFS:Hadoop Distributed File System,Hadoop
用PHP和Shell写Hadoop的MapReduce程序

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer.例如: 复制代码代码如下: hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 在这个例子里,就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer
用python + hadoop streaming 分布式编程（一） -- 原理介绍，样例程序与本地调试

MapReduce与HDFS简介什么是Hadoop? Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System,并发布了相关论文(可在Google Research的网站上获得: GFS . MapReduce). Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop. MapReduce的Data flow如下图,原始数据
hadoop实现grep示例分享

hadoop做的一个简单grep程序,可从文档中提取包含某些字符串的行复制代码代码如下: /* * 一个简单grep程序,可从文档中提取包含莫些字符串的行 */ public class grep extends Configured implements Tool{ public static class grepMap extends Mapper<LongWritable, Text, Text,NullWritable>{ public void map(LongWritabl
Hadoop单机版和全分布式(集群)安装

Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细.为了方便,本人使用三台的虚拟机系统是Ubuntu-12.设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试.单机和集群安装相差不多,先说单机然后补充集群的几点配置. 第一步,先安装工具软件编辑器:vim 复制代码代码如下: sudo apt-get install vim ssh服务器: openssh,先安装ssh是为了使用远程终端工
hadoop的hdfs文件操作实现上传文件到hdfs

hdfs文件操作操作示例,包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码代码如下: import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*; import java.io.File;import java.io.IOException;public class HadoopFile { private Configuration conf =null
Hadoop2.X/YARN环境搭建--CentOS7.0系统配置

一.我缘何选择CentOS7.0 14年7月7日17:39:42发布了CentOS 7.0.1406正式版,我曾使用过多款Linux,对于Hadoop2.X/YARN的环境配置缘何选择CentOS7.0,其原因有: 1.界面采用RHEL7.0新的GNOME界面风,这可不是CentOS6.5/RHEL6.5所能比的!(当然,Fedora早就采用这种风格的了,但是现在的Fedora缺包已然不成样子了) 2.曾经,我也用了RHEL7.0,它最大的问题就是YUM没法用,而且总会有Warning提示注册购
hadoop map-reduce中的文件并发操作

这样的操作在map端或者reduce端均可.下面以一个实际业务场景中的例子来简要说明. 问题简要描述: 假如reduce输入的key是Text(String),value是BytesWritable(byte[]),不同key的种类为100万个,value的大小平均为30k左右,每个key大概对应 100个value,要求对每一个key建立两个文件,一个用来不断添加value中的二进制数据,一个用来记录各个value在文件中的位置索引.(大量的小文件会影响HDFS的性能,所以最好对这些小文件进行
hadoop中一些常用的命令介绍

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop.启动与关闭启动Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/start-all.sh 关闭Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似.并且支持通配符,如*. 查看文件列表查看hdfs中/user/admin/aaron目录下的文件.1.进入HADOOP_HOME
Hadoop1.2中配置伪分布式的实例

1.设置ssh 安装ssh相关软件包: 复制代码代码如下: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: 复制代码代码如下: sudo /etc/init.d/ssh start|stopsudo service ssh start|stop 若成功启动sshd,我们能看到如下类似结果: 复制代码代码如下: $ ps -e | grep ssh 2766 ? 00:00:00
webstorm中配置nodejs环境及npm的实例

--nodejs安装及环境配置 1.nodejs官网,下载windows平台nodejs环境安装包(.msi格式),安装 2.测试安装是否成功: cmd操作,进入node安装根目录下: node -v : npm -v 查看版本号 3.配置全局在node的安装的根目录,也就是nodejs文件夹下新建两个名字为node_cache.node_global文件夹设置环境变量:变量名:NODE_PATH 值:D:\Program Files\nodejs\node_global\node_modu
YII2框架中日志的配置与使用方法实例分析

本文实例讲述了YII2框架中日志的配置与使用方法.分享给大家供大家参考,具体如下: YII2中给我们提供了非常方便的日志组件,只需要简单配置一下就可以使用. 我们在config/web.php中配置如下: return [ //log必须在bootstrap期间就被加载,便于及时调度日志消息到目标 'bootstrap' => ['log'], 'components' => [ 'log' => [ //消息跟踪级别,设置yii\log\Dispatcher::traceLevel属性
SpringBoot配置ShedLock分布式定时任务

什么是ShedLock ShedLock是一个在分布式环境中使用的定时任务框架,用于解决在分布式环境中的多个实例的相同定时任务在同一时间点重复执行的问题,解决思路是通过对公用的数据库中的某个表进行记录和加锁,使得同一时间点只有第一个执行定时任务并成功在数据库表中写入相应记录的节点能够成功执行而其他节点直接跳过该任务.当然不只是数据库,目前已经实现的支持数据存储类型除了经典的关系型数据库,还包括MongoDB,Zookeeper,Redis,Hazelcast. 如何使用 ShedLock采用非侵
详解ASP.NET Core 在 JSON 文件中配置依赖注入

前言在上一篇文章中写了如何在MVC中配置全局路由前缀,今天给大家介绍一下如何在在 json 文件中配置依赖注入. 在以前的 ASP.NET 4+ (MVC,Web Api,Owin,SingalR等)时候,都是提供了专有的接口以供使用第三方的依赖注入组件,比如我们常用的会使用 Autofac.Untiy.String.Net 等,这些第三放依赖注入组件基本上都提供了一套配置注入或者配置生命周期的方式,除了直接配置到类里面之外,还提供了要么使用 xml 文件,要么使用 json 等,那么在新的
ASP.NET中Web API的简单实例

一.Web API的路由 1.在Visual Studio中新建MVC4项目,在App_Start目录下有一个WebApiConfig.cs文件,这个文件中就是相应的Web API的路由配置了. 2.Web API 框架默认是基于 Restful 架构模式的,与ASP.NET MVC 有区别的是,它会根据 Http 请求的 HttpMethod(Get.Post.Put.Delete)来在Controller 中查找 Action,规则是:Action 名中是否以Get.Post 开头?Acti
Linux 中的 Openssl命令及实例代码

openssl命令的格式是"openssl command command-options args",command部分有很多种命令,这些命令需要依赖于openssl命令才能执行,所以称为伪命令(pseudo-command),每个伪命令都有各自的功能,大部分command都可以直接man command查看命令的用法和功能. OpenSSL是一个强大的安全套接字层密码库,囊括主要的密码算法.常用的密钥和证书封装管理功能及SSL协议,并提供丰富的应用程序供测试或其它目的使用.在Ope
Java的Struts2框架中拦截器使用的实例教程

1.拦截器小介拦截器的功能类似于web.xml文件中的Filter,能对用户的请求进行拦截,通过拦截用户的请求来实现对页面的控制.拦截器是在Struts-core-2.2.3.jar中进行配置的,原始的拦截器是在struts-default.xml中配置的,里面封存了拦截器的基本使用方法. Struts2拦截器功能类似于Servlet过滤器.在Action执行execute方法前,Struts2会首先执行struts.xml中引用的拦截器,如果有多个拦截器则会按照上下顺序依次执行,在执行完所有
java 中HttpClient传输xml字符串实例详解

java 中HttpClient传输xml字符串实例详解介绍:我现在有一个对象page,需要将page对象转换为xml格式并以binary方式传输到服务端其中涉及到的技术点有: 1.对象转xml流 2.输出流转输入流 3.httpClient发送二进制流数据 POM文件依赖配置 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifact
Spring MVC中自定义拦截器的实例讲解

1. 引言拦截器(Interceptor)实现对每一个请求处理前后进行相关的业务处理,类似于Servlet的Filter. 我们可以让普通的Bean实现HandlerIntercpetor接口或继承HandlerInterceptorAdapter类来实现自定义拦截器. 通过重写WebMvcConfigurerAdapter的addIntercetors方法来注册一个计算每一次请求的处理时间的拦截器. 2. 自定义拦截器的实现 2.1 定义拦截器新建LogInterceptor类,并继承Ha

Hadoop1.2中配置伪分布式的实例

相关推荐

随机推荐