JAVA操作HDFS案例的简单实现

2025-04-12 16:38:15

本文介绍了JAVA操作HDFS案例的简单实现，分享给大家，也给自己做个笔记

Jar包引入，pom.xml：

<dependency>
 <groupId>org.apache.hadoop</groupId>
 <artifactId>hadoop-common</artifactId>
 <version>2.8.0</version>
</dependency>
<dependency>
 <groupId>org.apache.hadoop</groupId>
 <artifactId>hadoop-hdfs</artifactId>
 <version>2.8.0</version>
</dependency>

将本地文件上传到hdfs服务器:

/**
 * 上传文件到hdfs上
 */
@Test
public void upload() throws IOException {
  Configuration conf = new Configuration();
  conf.set("fs.defaultFS","hdfs://hzq:9000");
  FileSystem fs = FileSystem.get(conf);
  fs.copyFromLocalFile(new Path("/home/hzq/jdk1.8.tar.gz"),new Path("/demo"));
}

解析：

在开发中我没有引入“core-site.xml”配置文件，所以在本地调用时使用conf进行配置“conf.set("fs.defaultFS","hdfs://hzq:9000");“，下面雷同。

将hdfs上文件下载到本地：

/**
 * 将hdfs上文件下载到本地
 */
@Test
public void download() throws IOException {
  Configuration conf = new Configuration();
  conf.set("fs.defaultFS","hdfs://hzq:9000");
  FileSystem fs = FileSystem.newInstance(conf);
  fs.copyToLocalFile(new Path("/java/jdk1.8.tar.gz"),new Path("/home/hzq/"));
}

删除hdfs上指定文件：

/**
 * 删除hdfs上的文件
 * @throws IOException
 */
@Test
public void removeFile() throws IOException {
  Configuration conf = new Configuration();
  conf.set("fs.defaultFS","hdfs://hzq:9000");
  FileSystem fs = FileSystem.newInstance(conf);
  fs.delete(new Path("/demo/jdk1.8.tar.gz"),true);
}

在hdfs上创建文件夹：

/**
 * 在hdfs更目录下面创建test1文件夹
 * @throws IOException
 */
@Test
public void mkdir() throws IOException {
  Configuration conf = new Configuration();
  conf.set("fs.defaultFS","hdfs://hzq:9000");
  FileSystem fs = FileSystem.newInstance(conf);
  fs.mkdirs(new Path("/test1"));
}

列出hdfs上所有的文件或文件夹：

@Test
  public void listFiles() throws IOException {
    Configuration conf = new Configuration();
    conf.set("fs.defaultFS","hdfs://hzq:9000");
    FileSystem fs = FileSystem.newInstance(conf);
    // true 表示递归查找 false 不进行递归查找
    RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(new Path("/"), true);
    while (iterator.hasNext()){
      LocatedFileStatus next = iterator.next();
      System.out.println(next.getPath());
    }
    System.out.println("----------------------------------------------------------");
    FileStatus[] fileStatuses = fs.listStatus(new Path("/"));
    for (int i = 0; i < fileStatuses.length; i++) {
      FileStatus fileStatus = fileStatuses[i];
      System.out.println(fileStatus.getPath());
    }
  }

运行结果：

结果分析：

“listFiles“列出的是hdfs上所有文件的路径，不包括文件夹。根据你的设置，支持递归查找。

”listStatus“列出的是所有的文件和文件夹，不支持递归查找。如许递归，需要自己实现。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

hadoop重新格式化HDFS步骤解析

了解Hadoop的同学都知道,Hadoop有两个核心的组成部分,一个是HDFS,另一个则是MapReduce,HDFS作为Hadoop的数据存储方案,MapReduce则提供计算服务:同时,HDFS作为一种分布式文件系统,它的安装也是需要相应的格式化操作的,如果安装失败或者我们需要重新安装的时候,那我们就需要对HDFS重新进行格式化,这篇文章就和大家一起讨论下如何进行HDFS的重新格式化. 重新格式化hdfs系统的方法: 1.打开hdfs-site.xml 我们打开Hadoop的hdfs-sit
Java访问Hadoop分布式文件系统HDFS的配置说明

配置文件 m103替换为hdfs服务地址. 要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建.读取. <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <co
java 中Spark中将对象序列化存储到hdfs

java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevel imp
HDFS中JAVA API的使用

HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的文件操作主要涉及一下几个类: Configuration类:该类的对象封转了客户端或者服务器的配置. FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作.FileSystem fs = FileSystem.get(conf);通过FileSystem的静态
hadoop格式化HDFS出现错误解决办法

hadoop格式化HDFS出现错误解决办法报错信息: host:java.net.UnknownHostException: centos-wang: centos-wang: unknown error 在执行hadoop namenode -format命令时,出现未知的主机名. 问题原因: 出现这种问题的原因是Hadoop在格式化HDFS的时候,通过hostname命令获取到的主机名与/etc/hosts文件中进行映射的时候,没有找到. 解决方案: 1.修改/etc/hosts内容 2.
java连接hdfs ha和调用mapreduce jar示例

Java API 连接 HDFS HA 复制代码代码如下: public static void main(String[] args) { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://hadoop2cluster"); conf.set("dfs.nameservices", "hadoop2cluster");
hadoop的hdfs文件操作实现上传文件到hdfs

hdfs文件操作操作示例,包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,大家参考使用吧复制代码代码如下: import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*; import java.io.File;import java.io.IOException;public class HadoopFile { private Configuration conf =null
详解HDFS多文件Join操作的实例

详解HDFS多文件Join操作的实例最近在做HDFS文件处理之时,遇到了多文件Join操作,其中包括:All Join以及常用的Left Join操作, 下面是个简单的例子:采用两个表来做left join其中数据结构如下: A 文件: a|1b|2|c B文件: a|b|1|2|c 即:A文件中的第一.二列与B文件中的第一.三列对应:类似数据库中Table的主键/外键代码如下: import java.io.DataInput; import java.io.DataOutput; imp
java实现将ftp和http的文件直接传送到hdfs

之前实现了使用流来讲http和ftp的文件下载到本地,也实现了将本地文件上传到hdfs上,那现在就可以做到将 ftp和http的文件转移到hdfs上了,而不用先将ftp和http的文件拷贝到本地再上传到hdfs上了.其实这个东西的原理很简单,就是使用流,将ftp或http的文件读入到流中,然后将流中的内容传送到hdfs上,这样子就不用让数据存到本地的硬盘上了,只是让内存来完成这个转移的过程,希望这个工具,能够帮到有这样需求的同学~ 这里先附上之前的几个工具的链接: http工具 ftp工具
JAVA操作HDFS案例的简单实现

本文介绍了JAVA操作HDFS案例的简单实现,分享给大家,也给自己做个笔记 Jar包引入,pom.xml: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.8.0</version> </dependency> <dependency> <gr
Java操作hdfs文件系统过程

目录 1.前置准备 2.编码环境前置准备 1.导入maven依赖 2.添加一个log4j.properties 文件 3.API使用环节 1.创建hdfs文件目录 2.上传文件到hdfs文件目录 3.从hdfs上面下载文件到本地 4.删除hdfs文件 5.修改hdfs文件名称 6.移动同时修改hdfs文件名称 7.文件查看相关 8.hdfs文件与文件夹的判断 4.整合Java 客户端过程中遇到的几个坑 1.运行程序直接报无法连接问题 2.上传文件情况 1.前置准备默认服务器上的hadoop服务
使用Java Api操作HDFS过程详解

如题我就是一个标题党就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包速度慢,可以改变Maven 下载jar包的镜像站改为阿里云. 贴一下 pom.xml 使用到的jar包 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifact
Java操作另一个Java程序使其重启的简单实现

大概思路: 写两个程序,一个负责重启的程序,一个是待重启的程序,在这里为了区分我们假设负责重启的那个程序叫A,待重启的程序叫B,他们都是线程,还要搭配数据库,他是两个程序的桥梁,通过设置信号量进行判断程序状态(不妨设置信号量为Flag),我是这么设置的,0:表示程序正在运行中,1:表示程序需要重启,正准备做关闭自己的操作(只针对待重启的程序B),2:表示B程序已经把自己给关闭了,需要A程序把B程序启动. 实现步骤: A程序:写一个线程进行读信号量Flag,当Flag为2的时候就把B程序启动 B程
java操作elasticsearch的案例解析

这篇文章主要介绍了java操作elasticsearch的案例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下到目前为止,我们一直都是使用RESTful风格的 API操作elasticsearch服务,但是通过我们之前的学习知道,elasticsearch提供了很多语言的客户端用于操作elasticsearch服务,例如:java.python..net.JavaScript.PHP等.而我们此次就学习如何使用java语言来操作elasti
Java操作数据库连接池案例讲解

数据库连接池概念:其实就是一个容器(集合),存放数据库连接的容器. 概念:其实就是一个容器(集合),存放数据库连接的容器. 当系统初始化好后,容器被创建,容器中会申请一些连接对象,当用户来访问数据库时,从容器中获取连接对象,用户访问完之后,会将连接对象归还给容器. 好处: 节约资源用户访问高效实现: 标准接口:DataSource javax.sql包下的方法: 获取连接:getConnection() 归还连接:Connection.close().如果连接对象Connection是从
Java之操作Redis案例讲解

首先下载 jedis.jar包然后再工程设置里面找到Libraries,点击+.添加下载好的jedis.jar包.点击OK退出即可创建Java_Control_Redis类测试链接 package ccit.redis; import redis.clients.jedis.Jedis; public class Java_Control_Redis { public static void main(String[] args) { //连接本地的 Redis 服务 Jedis je
Java 使用maven实现Jsoup简单爬虫案例详解

一.Jsoup的简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据二.我们可以利用Jsoup做什么 2.1从URL,文件或字符串中刮取并解析HTML查找和提取数据, 2.2使用DOM遍历或CSS选择器操纵HTML元素,属性和文本 2.3从而使我们输出我们想要的整洁文本三.利用Jsoup爬
Java API操作Hdfs的示例详解

目录 1.遍历当前目录下所有文件与文件夹 2.遍历所有文件 3.创建文件夹 4.删除文件夹 5.上传文件 6.下载文件 1.遍历当前目录下所有文件与文件夹可以使用listStatus方法实现上述需求.listStatus方法签名如下 /** * List the statuses of the files/directories in the given path if the path is * a directory. * * @param f given path * @return t
Java实现商品的查找、添加、出库、入库操作完整案例

本文实例讲述了Java实现商品的查找.添加.出库.入库操作.分享给大家供大家参考,具体如下: package com.jredu.oopch08; public class Goods1 { private int id; private String name; private double price; private String uom; private int balance; public Goods1(int id, String name, double price, Strin

JAVA操作HDFS案例的简单实现

相关推荐

随机推荐