hadoop中一些常用的命令介绍

2025-09-02 03:26:34

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。
启动与关闭
启动Hadoop
1.进入HADOOP_HOME目录。
2.执行sh bin/start-all.sh

关闭Hadoop
1.进入HADOOP_HOME目录。
2.执行sh bin/stop-all.sh
文件操作
Hadoop使用的是HDFS，能够实现的功能和我们使用的磁盘系统类似。并且支持通配符，如*。

查看文件列表
查看hdfs中/user/admin/aaron目录下的文件。
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs -ls /user/admin/aaron
这样，我们就找到了hdfs中/user/admin/aaron目录下的文件了。
我们也可以列出hdfs中/user/admin/aaron目录下的所有文件（包括子目录下的文件）。
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs -lsr /user/admin/aaron

创建文件目录
查看hdfs中/user/admin/aaron目录下再新建一个叫做newDir的新目录。
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs -mkdir /user/admin/aaron/newDir

删除文件
删除hdfs中/user/admin/aaron目录下一个名叫needDelete的文件
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs -rm /user/admin/aaron/needDelete
删除hdfs中/user/admin/aaron目录以及该目录下的所有文件
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs -rmr /user/admin/aaron

上传文件
上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/aaron目录下
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/aaron/

下载文件
下载hdfs中/user/admin/aaron目录下的newFile文件到本机/home/admin/newFile中
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs –get /user/admin/aaron/newFile /home/admin/newFile

查看文件
我们可以直接在hdfs中直接查看文件，功能与类是cat类似
查看hdfs中/user/admin/aaron目录下的newFile文件
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop fs –cat /home/admin/newFile

MapReduce Job操作
提交MapReduce Job
原则上说，Hadoop所有的MapReduce Job都是一个jar包。
运行一个/home/admin/hadoop/job.jar的MapReduce Job
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]

杀死某个正在运行的Job
假设Job_Id为：job_201005310937_0053
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop job -kill job_201005310937_0053

更多Hadoop的命令
上面介绍的这些Hadoop的操作命令是我们最常用的。如果你希望了解更多，可以按照如下的方式获取命令的说明信息。
1.进入HADOOP_HOME目录。
2.执行sh bin/hadoop
我们可以看到更多命令的说明信息：

代码如下:

Usage: hadoop [--config confdir] COMMAND
where COMMAND is one of:
namenode -format     format the DFS filesystem
secondarynamenode    run the DFS secondary namenode
namenode             run the DFS namenode
datanode             run a DFS datanode
dfsadmin             run a DFS admin client
fsck                 run a DFS filesystem checking utility
fs                   run a generic filesystem user client
balancer             run a cluster balancing utility
jobtracker           run the MapReduce job Tracker node
pipes                run a Pipes job
tasktracker          run a MapReduce task Tracker node
job                  manipulate MapReduce jobs
queue                get information regarding JobQueues
version              print the version
jar <jar>            run a jar file
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME <src>* <dest> create a hadoop archive
daemonlog            get/set the log level for each daemon
or
CLASSNAME            run the class named CLASSNAME
Most commands print help when invoked w/o parameters.

用PHP和Shell写Hadoop的MapReduce程序

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer.例如: 复制代码代码如下: hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 在这个例子里,就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer
Hadoop1.2中配置伪分布式的实例

1.设置ssh 安装ssh相关软件包: 复制代码代码如下: sudo apt-get install openssh-client openssh-server 然后使用下面两个命令之一启动/关闭sshd: 复制代码代码如下: sudo /etc/init.d/ssh start|stopsudo service ssh start|stop 若成功启动sshd,我们能看到如下类似结果: 复制代码代码如下: $ ps -e | grep ssh 2766 ? 00:00:00
hadoop map-reduce中的文件并发操作

这样的操作在map端或者reduce端均可.下面以一个实际业务场景中的例子来简要说明. 问题简要描述: 假如reduce输入的key是Text(String),value是BytesWritable(byte[]),不同key的种类为100万个,value的大小平均为30k左右,每个key大概对应 100个value,要求对每一个key建立两个文件,一个用来不断添加value中的二进制数据,一个用来记录各个value在文件中的位置索引.(大量的小文件会影响HDFS的性能,所以最好对这些小文件进行
Hadoop单机版和全分布式(集群)安装

Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细.为了方便,本人使用三台的虚拟机系统是Ubuntu-12.设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试.单机和集群安装相差不多,先说单机然后补充集群的几点配置. 第一步,先安装工具软件编辑器:vim 复制代码代码如下: sudo apt-get install vim ssh服务器: openssh,先安装ssh是为了使用远程终端工
hadoop的hdfs文件操作实现上传文件到hdfs

hdfs文件操作操作示例,包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码代码如下: import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*; import java.io.File;import java.io.IOException;public class HadoopFile { private Configuration conf =null
hadoop是什么语言

Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果. HDFS:Hadoop Distributed File System,Hadoop
Hadoop2.X/YARN环境搭建--CentOS7.0系统配置

一.我缘何选择CentOS7.0 14年7月7日17:39:42发布了CentOS 7.0.1406正式版,我曾使用过多款Linux,对于Hadoop2.X/YARN的环境配置缘何选择CentOS7.0,其原因有: 1.界面采用RHEL7.0新的GNOME界面风,这可不是CentOS6.5/RHEL6.5所能比的!(当然,Fedora早就采用这种风格的了,但是现在的Fedora缺包已然不成样子了) 2.曾经,我也用了RHEL7.0,它最大的问题就是YUM没法用,而且总会有Warning提示注册购
用python + hadoop streaming 分布式编程（一） -- 原理介绍，样例程序与本地调试

MapReduce与HDFS简介什么是Hadoop? Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System,并发布了相关论文(可在Google Research的网站上获得: GFS . MapReduce). Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop. MapReduce的Data flow如下图,原始数据
hadoop实现grep示例分享

hadoop做的一个简单grep程序,可从文档中提取包含某些字符串的行复制代码代码如下: /* * 一个简单grep程序,可从文档中提取包含莫些字符串的行 */ public class grep extends Configured implements Tool{ public static class grepMap extends Mapper<LongWritable, Text, Text,NullWritable>{ public void map(LongWritabl
hadoop中一些常用的命令介绍

假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop.启动与关闭启动Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/start-all.sh 关闭Hadoop1.进入HADOOP_HOME目录.2.执行sh bin/stop-all.sh文件操作Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似.并且支持通配符,如*. 查看文件列表查看hdfs中/user/admin/aaron目录下的文件.1.进入HADOOP_HOME
基于android布局中的常用占位符介绍

大家在做布局文件是肯定会遇到过下面的这种情况填充出现问题,所以需要用到占位符规范填充汉字常用占位符: <TextView android:layout_width="wrap_content" android:layout_height="wrap_content" android:text="这是测试:" android:textSize="22sp" /> <TextView android:layo
ubuntu下常用apt命令介绍

apt-get全称Advanced Package Tool,是一款适用于Unix和Linux系统的高级包管理器.主要用于自动从互联网的软件仓库中搜索.安装.升级.卸载软件或操作系统. 使用apt的主流Linux系统包括Debian和Ubuntu变异版本. 1.apt-get\apt-cache apt-get命令一般需要root权限执行,一般跟着sudo命令. apt 命令命令的功能 sudo apt-get update 更新源 sudo apt-get install package 安
Ruby基本的环境变量设置以及常用解释器命令介绍

Ruby 环境变量 Ruby 解释器使用下列环境变量来控制它的行为.ENV 对象包含了所有当前设置的环境变量列表. 对于 Unix,使用 env 命令来查看所有环境变量的列表. HOSTNAME=ip-72-167-112-17.ip.secureserver.net RUBYPATH=/usr/bin SHELL=/bin/bash TERM=xterm HISTSIZE=1000 SSH_CLIENT=122.169.131.179 1742 22 SSH_TTY=/dev/pts/1 US
maven的生命周期及常用命令介绍

maven简介及优势 maven是一个项目构建和管理的工具,提供了帮助管理构建.文档.报告.依赖.scms.发布.分发的方法.可以方便的编译代码.进行依赖管理.管理二进制库等等.maven的好处在于可以将项目过程规范化.自动化.高效化以及强大的可扩展性利用maven自身及其插件还可以获得代码检查报告. 单元测试覆盖率.实现持续集成等等. maven优势: 1.项目自动化编译部署 2.项目jar包的依赖管理 3.项目的插件管理 Maven是围绕着构建生命周期的核心概念为原型,整个项目的创建和部
UNIX 系统常用管理命令

一. 引言UNIX系统作为一种强大的多用户分时操作系统,在越来越多的场合受到了应用,同时,对UNIX的系统管理的要求也随之越来越多,但目前的书籍对UNIX系统管理命令介绍的并不是很多.本文主要是针对UNIX系统管理员,以SUN SOLARIS 2.6 系统为例,列举了一些UNIX常用的管理命令的使用及其使用中遇到的问题和解决方法,供大家参考. 二. 常用系统管理命令介绍1. share 和 mount 命令这是系统管理员常用的两个命令,share命令用于把本机的目录共享出来,以便其它UNIX系
linux环境中常用的mysql命令介绍

进入mysql命令: mysql -u+(用户名) -p+(密码 ) mysql语句命令后面一定要加":" 查询库名: show databases: 修改库: use 库名: 创建库: create database [if not exists][库名]; 查询创建库: show create database [库名]; 查询创建表: show create table [表名]: 查询表: desc [表名]: 查询当前所使用的库: select database(): 创建表
linux中的常用命令与快捷键介绍

目录 1 系统介绍 2 系统快捷方式 3 常用系统命令 1 系统介绍 1.ping 格式: ping [网址] # 判断系统是否可以正常连网 2.主机登录用户信息 [root@localhost ~]# root : 登录当前系统的用户名 @ : 分隔符,没有特殊含义 localhost : 当前系统的主机名 ~ : 当前所在的目录(~ 代表的是当前的家目录, /root) # : 没有实际含义 3.自定义系统登录用户信息 PS1 环境变量 [root@localhost ~]# echo $P
批处理中常用命令介绍(Echo、rem、goto、call、pause、if、for)

一.echo命令 (echo图文版) 1. Echo :显示当前ECHO的状态:ECHO ON 或者ECHO OFF .2. ECHO ON :ECHO状态设为ON,将显示命令行(如每行前的C:\>等类似标志).3. ECHO OFF:CHO状态设为OFF,将不显示命令行(如每行前的C:\>等类似标志) .4. ECHO 字符串 :将输入的字符串显示在CMD屏幕上.5. ECHO 字符串 &ECHO 字符串 - :&,类似and的意思,逻辑运算,用来显示多行数据.6. ECHO
基于Python os模块常用命令介绍

1.os.name---判断现在正在实用的平台,Windows返回'nt':linux返回'posix' 2.os.getcwd()---得到当前工作的目录. 3.os.listdir()--- 4.os.remove---删除指定文件 5.os.rmdir()---删除指定目录 6.os.mkdir()---创建目录(只能创建一层) 7.os.path.isfile()---判断指定对象是否为文件.是则返回True. 8.os.path.isdir()---判断指定对象是否为目录 9.os.p

hadoop中一些常用的命令介绍

相关推荐

随机推荐