Hadoop文件的存储格式实例详解

2025-04-07 13:20:30

sequence文件存储格式

1.txt

纯文本格式，若干行记录。默认用字符编码存储

2.SequenceFile格式（顺序文件格式，可进行切割）

key-value 格式进行存储，最终形成的是一个二进制文件，需用hadoop提供的api进行写入存储。

编写写入 seq文件案例。

  Configuration configuration = new Configuration();
  configuration.set("fs.defaultFS","hdfs://s100:8020");
  FileSystem fileSystem = FileSystem.get(configuration);
  Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
  SequenceFile.Writer writer = SequenceFile.createWriter(fileSystem, configuration, path, IntWritable.class, Text.class);
  writer.append(new IntWritable(1),new Text("gg1"));
  writer.append(new IntWritable(1),new Text("gg2"));
  writer.append(new IntWritable(1),new Text("gg3"));
  writer.append(new IntWritable(1),new Text("gg4"));
  writer.close();

3.编写读取 seq 文件案例

 Configuration configuration = new Configuration();
  configuration.set("fs.defaultFS","hdfs://s100:8020");
  FileSystem fileSystem = FileSystem.get(configuration);
  Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
  SequenceFile.Reader sr = new SequenceFile.Reader(fileSystem,path,configuration);
  IntWritable key = new IntWritable();
  Text value = new Text();
  while (sr.next(key,value)){
    System.out.println(key +":"+value );
  }

4.查看文件内容

$> hdfs dfs -text /user/myfile.seq
$> hdfs dfs -cat /user/myfile.seq （此命令查看会出现乱码）

seq 文件格式解析

顺序文件由文件头和随后的一条或多条记录组成

---文件头------
--key-value----sync
--key-value----
--key-value----
--key-value----
--key-value----sync
--key-value----
--key-value----
--key-value----sync

文件头格式

SEQ+版本号+key类型class+value类型class + 压缩格式类型

代码案例

 /**
   * 读取文件位置
   */
  public void seekSeq() throws IOException {
    Configuration configuration = new Configuration();
    configuration.set("fs.defaultFS","hdfs://s100:8020");
    FileSystem fileSystem = FileSystem.get(configuration);
    Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
    SequenceFile.Reader sr = new SequenceFile.Reader(fileSystem,path,configuration);
    IntWritable key = new IntWritable();
    Text value = new Text();
    sr.seek(253); // 定位到第253字节的位置，告诉指针下一次要定位的位置。
    sr.next(key,value); // 定位到第253字节的位置，并取出相应的值。
    System.out.println(key +" : " + value);
    sr.close();
  }

  /**
   * 读取seqfile 同步点
   */
  public void sync() throws IOException {
    /**
     * -----文件头-------
 128byte* --key-value----sync
 153byte* --key-value----
    .* --key-value----
    .* --key-value----
    .* --key-value----sync
     * --key-value----
     * --key-value----
     * --key-value----sync
     */
    Configuration configuration = new Configuration();
    configuration.set("fs.defaultFS","hdfs://s100:8020");
    FileSystem fileSystem = FileSystem.get(configuration);
    Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
    SequenceFile.Reader sr = new SequenceFile.Reader(fileSystem,path,configuration);
    IntWritable key = new IntWritable();
    Text value = new Text();
    int syncPos = 12;
    sr.sync(syncPos);//如上图在写入文件的时候可一指定多少条记录写入一个同步点
    long pos = sr.getPosition();//获取下次要定位的字节位置。
    sr.next(key,value);
    System.out.println("syncPos : " + syncPos + "pos : " + pos +"key : "+key+"value : " + value);
  }

MapFile文件格式

1.是排序的seqfie，具有索引。要求key按照大小顺序添加

2.包含两个文件

index 文件：索引和偏移量的映射，可以设置间隔，默认128（解释：第128key位置--->第256字节指存入128个key 对应的第128key的末尾位置是第128字节的位置。）
data 文件：存放真实的数据。格式为key -value 。和seqfile文件类似

总结

以上所述是小编给大家介绍的Hadoop文件的存储格式实例详解，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

Hadoop文件的存储格式实例详解

sequence文件存储格式 1.txt 纯文本格式,若干行记录.默认用字符编码存储 2.SequenceFile格式(顺序文件格式,可进行切割) key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop提供的api进行写入存储. 编写写入 seq文件案例. Configuration configuration = new Configuration(); configuration.set("fs.defaultFS","hdfs://s100:
hadoop迁移数据应用实例详解

项目开发中hadoop一直装在虚拟机上,最近要迁移到服务器上.记录下迁移过程. 一.为虚拟机添加一块新的硬盘虚拟机的初始硬盘只有30G,容不开要导出的数据.两种方式,一是给虚拟机扩容:二是为虚拟机添加一块新的硬盘.这里采取第二种方式. 1.添加虚拟硬盘至此,添加硬盘成功. 2.将硬盘分区要使用一块新的硬盘,需要先将硬盘分区,然后挂在文件系统上才能使用. 这里普及一下linux的文件系统与硬盘以及分区的关系.按照一个"由硬到软"的顺序来讲,首先是硬盘,是物理的:我们要使用这个物理硬
Linux上的文件搜索命令实例详解

locate 基础了解在centos7上默认没有locate命令,需要先手动安装.安装步骤:http://www.cnblogs.com/feanmy/p/7676717.html locate命令搜索的后台数据库路径:/var/lib/mlocate/mlocate.db ls -hl /var/lib/mlocate total 1.2M -rw-r----- 1 root slocate 1.2M Oct 16 14:36 mlocate.db 更新数据库使用updatedb,配置文件为
IOS 简单的本地json格式文件解析的实例详解

IOS 简单的本地json格式文件解析的实例详解 ljweibo.json文件 { "data":[{ "name" : "孙悟空", "content" : "7月12日的国务院常务会议上,李克强明确要求,要将已审议的<快递条例(草案)>向社会公开征求意见.在会上,总理说了这么一段话:"几年前,快递业刚刚开始发展的时候,有些城市不允许快递存在,理由是影响市容整洁,快递员骑的摩的也不允许停放.但
Android String资源文件插入值实例详解

Android String资源文件插入值实例详解我们在用string字符串资源文件引用的时候,有时候会遇到一串字符串要在中间插入一个值的问题, 比如登录名: XXX,这里XXX是变化的.这时候我们可能会想到拼接.其实也可以使用格式化方式处理.比如 <string name="alert">I am %1$d years old</string> 在代码中使用的话: nt nAge=23; String sAgeFormat = getResources()
JavaWeb实现压缩多个文件并下载实例详解

下面一段代码给大家分享JavaWeb实现压缩多个文件并下载功能,具体代码如下所示: //文件名称 String[] names={"one.jpg","two.jpg","three.jpg","four.jpg"}; //四个文件流 FileInputStream input1 = new FileInputStream(new File("文件路径")); FileInputStream input2
java 解压与压缩文件夹的实例详解

java 解压与压缩文件夹的实例详解注意:JDK7支持设置编码设置编码格式 zipFile,zipInputStream,zipOutputStream都增加了编码格式,如果是jdk1.6需要其他的包辅助下面为自带jdk压缩文件夹代码: public void dozip(String srcfile, String zipfile) throws IOException { String temp = ""; File src = new File(srcfile); File
web前端vue之vuex单独一文件使用方式实例详解

Vuex 是什么? Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式.它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化.Vuex 也集成到 Vue 的官方调试工具 devtools extension,提供了诸如零配置的 time-travel 调试.状态快照导入导出等高级调试功能. 上次我用了一个加减的例子为大家讲解vuex的基本的使用方式,和在什么样的情况下使用.上次还是在一个组件内把这个例子简单的展示了下,这次我把vuex抽离出来一个
Django实现web端tailf日志文件功能及实例详解

这是Django Channels系列文章的第二篇,以web端实现tailf的案例讲解Channels的具体使用以及跟Celery的结合通过上一篇 <Django使用Channels实现WebSocket--上篇> 的学习应该对Channels的各种概念有了清晰的认知,可以顺利的将Channels框架集成到自己的Django项目中实现WebSocket了,本篇文章将以一个Channels+Celery实现web端tailf功能的例子更加深入的介绍Channels 先说下我们要实现的目标:所有
对Python多线程读写文件加锁的实例详解

Python的多线程在io方面比单线程还是有优势,但是在多线程开发时,少不了对文件的读写操作.在管理多个线程对同一文件的读写操作时,就少不了文件锁了. 使用fcntl 在linux下,python的标准库有现成的文件锁,来自于fcntl模块.这个模块提供了unix系统fcntl()和ioctl()的接口. 对于文件锁的操作,主要需要使用 fcntl.flock(fd, operation)这个函数. 其中,参数 fd 表示文件描述符:参数 operation 指定要进行的锁操作,该参数的取值有如

Hadoop文件的存储格式实例详解

相关推荐

随机推荐