java 读写Parquet格式的数据的示例代码

2025-04-24 11:41:47

本文介绍了java 读写Parquet格式的数据，分享给大家，具体如下：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Random;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.log4j.Logger;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.example.data.GroupFactory;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.hadoop.ParquetReader;
import org.apache.parquet.hadoop.ParquetReader.Builder;
import org.apache.parquet.hadoop.ParquetWriter;
import org.apache.parquet.hadoop.example.GroupReadSupport;
import org.apache.parquet.hadoop.example.GroupWriteSupport;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.MessageTypeParser;

public class ReadParquet {
  static Logger logger=Logger.getLogger(ReadParquet.class);
  public static void main(String[] args) throws Exception {

//    parquetWriter("test\\parquet-out2","input.txt");
    parquetReaderV2("test\\parquet-out2");
  }

  static void parquetReaderV2(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    Builder<Group> reader= ParquetReader.builder(readSupport, new Path(inPath));
    ParquetReader<Group> build=reader.build();
    Group line=null;
    while((line=build.read())!=null){
　　　　　　Group time= line.getGroup("time", 0);
　　　　　　　　//通过下标和字段名称都可以获取
　　　　　　　　/*System.out.println(line.getString(0, 0)+"\t"+
　　　　　　　　line.getString(1, 0)+"\t"+
　　　　　　　　time.getInteger(0, 0)+"\t"+
　　　　　　　　time.getString(1, 0)+"\t");*/
　　　　　　　　System.out.println(line.getString("city", 0)+"\t"+
　　　　　　　　line.getString("ip", 0)+"\t"+
　　　　　　　　time.getInteger("ttl", 0)+"\t"+
　　　　　　　　time.getString("ttl2", 0)+"\t");
　　　　　　　　//System.out.println(line.toString());
    }
    System.out.println("读取结束");
  }
  //新版本中new ParquetReader()所有构造方法好像都弃用了,用上面的builder去构造对象
  static void parquetReader(String inPath) throws Exception{
    GroupReadSupport readSupport = new GroupReadSupport();
    ParquetReader<Group> reader = new ParquetReader<Group>(new Path(inPath),readSupport);
    Group line=null;
    while((line=reader.read())!=null){
     System.out.println(line.toString());
    }
    System.out.println("读取结束");

  }
  /**
   *
   * @param outPath　　输出Parquet格式
   * @param inPath 输入普通文本文件
   * @throws IOException
   */
  static void parquetWriter(String outPath,String inPath) throws IOException{
    MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        " repeated group time {\n"+
        　　" required int32 ttl;\n"+
        　　 " required binary ttl2;\n"+
        "}\n"+
       "}");
    GroupFactory factory = new SimpleGroupFactory(schema);
    Path path = new Path(outPath);
    Configuration configuration = new Configuration();
    GroupWriteSupport writeSupport = new GroupWriteSupport();
    writeSupport.setSchema(schema,configuration);
    ParquetWriter<Group> writer = new ParquetWriter<Group>(path,configuration,writeSupport);
　　　　//把本地文件读取进去，用来生成parquet格式文件
    BufferedReader br =new BufferedReader(new FileReader(new File(inPath)));
    String line="";
    Random r=new Random();
    while((line=br.readLine())!=null){
      String[] strs=line.split("\\s+");
      if(strs.length==2) {
        Group group = factory.newGroup()
            .append("city",strs[0])
            .append("ip",strs[1]);
        Group tmpG =group.addGroup("time");
        tmpG.append("ttl", r.nextInt(9)+1);
        tmpG.append("ttl2", r.nextInt(9)+"_a");
        writer.write(group);
      }
    }
    System.out.println("write end");
    writer.close();
  }
}

说下schema（写Parquet格式数据需要schema，读取的话"自动识别"了schema）

/*
 * 每一个字段有三个属性：重复数、数据类型和字段名，重复数可以是以下三种：
 *     required(出现1次)
 *     repeated(出现0次或多次)
 *     optional(出现0次或1次)
 * 每一个字段的数据类型可以分成两种：
 *     group(复杂类型)
 *     primitive(基本类型)
 * 数据类型有
 * INT64, INT32, BOOLEAN, BINARY, FLOAT, DOUBLE, INT96, FIXED_LEN_BYTE_ARRAY
 */

这个repeated和required 不光是次数上的区别，序列化后生成的数据类型也不同，比如repeqted修饰 ttl2 打印出来为 WrappedArray([7,7_a]) 而 required修饰 ttl2 打印出来为 [7,7_a]　　除了用MessageTypeParser.parseMessageType类生成MessageType 还可以用下面方法

（注意这里有个坑--spark里会有这个问题--ttl2这里 as(OriginalType.UTF8) 和 required binary city (UTF8)作用一样，加上UTF8，在读取的时候可以转为StringType，不加的话会报错 [B cannot be cast to java.lang.String ）

/*MessageType schema = MessageTypeParser.parseMessageType("message Pair {\n" +
        " required binary city (UTF8);\n" +
        " required binary ip (UTF8);\n" +
        "repeated group time {\n"+
        "required int32 ttl;\n"+
        "required binary ttl2;\n"+
        "}\n"+
        "}");*/

//import org.apache.parquet.schema.Types;
MessageType schema = Types.buildMessage()
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("city")
      .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ip")
      .repeatedGroup().required(PrimitiveTypeName.INT32).named("ttl")
              .required(PrimitiveTypeName.BINARY).as(OriginalType.UTF8).named("ttl2")
              .named("time")
     .named("Pair");

解决 [B cannot be cast to java.lang.String 异常：

1.要么生成parquet文件的时候加个UTF8
2.要么读取的时候再提供一个同样的schema类指定该字段类型，比如下面:

maven依赖（我用的1.7）

<dependency>
  <groupId>org.apache.parquet</groupId>
  <artifactId>parquet-hadoop</artifactId>
  <version>1.7.0</version>
</dependency>

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

java写入文件的几种方法分享

一,FileWritter写入文件 FileWritter, 字符流写入字符到文件.默认情况下,它会使用新的内容取代所有现有的内容,然而,当指定一个true (布尔)值作为FileWritter构造函数的第二个参数,它会保留现有的内容,并追加新内容在文件的末尾. 1. 替换所有现有的内容与新的内容. new FileWriter(file);2. 保留现有的内容和附加在该文件的末尾的新内容. 复制代码代码如下: new FileWriter(file,true); 追加文件示例一个文本文件,
java list用法示例详解

|--List:元素是有序的(怎么存的就怎么取出来,顺序不会乱),元素可以重复(角标1上有个3,角标2上也可以有个3)因为该集合体系有索引, |-- ArrayList:底层的数据结构使用的是数组结构(数组长度是可变的百分之五十延长)(特点是查询很快,但增删较慢)线程不同步 |-- LinkedList:底层的数据结构是链表结构(特点是查询较慢,增删较快) |-- Vector:底层是数组数据结构线程同步(数组长度是可变的百分之百延长)(无论查询还是增删都很慢,被ArrayList替代了
javascript的console.log()用法小结

console.log 原先是 Firefox 的"专利",严格说是安装了 Firebugs 之后的 Firefox 所独有的调试"绝招". 这一招,IE8 学会了,不过用起来比 Firebugs 麻烦,只有在开启调试窗口(F12)的时候,console.log 才能出结果,不然就报错. 今天看到 Opera 也有个叫 dragonfly 的东东,用这东西查看 DOM,已经可以和 Firebug 媲美,然而还是不能用 console.log.于是有人就提供了这样两句
java中File类的使用方法

构造函数复制代码代码如下: public class FileDemo { public static void main(String[] args){ //构造函数File(String pathname) File f1 =new File("c:\\abc\\1.txt"); //File(String parent,String child) File f2 =new File("c:\\a
JAVA 十六进制与字符串的转换

toHexString public static String toHexString(int i)以十六进制的无符号整数形式返回一个整数参数的字符串表示形式. 如果参数为负,那么无符号整数值为参数加上 232:否则等于该参数.将该值转换为十六进制(基数 16)的无前导 0 的 ASCII 数字字符串.如果无符号数的大小值为零,则用一个零字符 '0' ('\u0030') 表示它:否则,无符号数大小的表示形式中的第一个字符将不是零字符.用以下字符作为十六进制数字: 0123456789abcd
javascript深入理解js闭包

一.变量的作用域要理解闭包,首先必须理解Javascript特殊的变量作用域. 变量的作用域无非就是两种:全局变量和局部变量. Javascript语言的特殊之处,就在于函数内部可以直接读取全局变量. Js代码 var n=999; function f1(){ alert(n); } f1(); // 999 另一方面,在函数外部自然无法读取函数内的局部变量. Js代码 function f1(){ var n=999; } alert(n); // error 这里有一个地方需要注意,函数
java.net.SocketException: Connection reset 解决方法

自从SEOTcs系统11月份24日更新了一下SEO得分算法以来,一直困扰我的一个问题出现了,java的数据job任务,在执行过程中会经常报以下的错误: "2011-12-03 18:00:32 DefaultHttpClient [INFO] I/O exception (java.net.SocketException) caught when processing request: Connection reset by peer: socket write error2011-12-03
Java环境变量的设置方法(图文教程)

安装JDK 向导进行相关参数设置.如图: 正在安装程序的相关功能,如图: 选择安装的路径,可以自定义,也可以默认路径.如图: 成功安装之后,进行测试是否真的成功安装,点击[开始]----[运行]----输入 CMD,在命令提示符里面输入"Java -version"并按回车键,出现下图,即为安装成功.如图: 下面开始配置环境变量,右击[我的电脑]---[属性]-----[高级]---[环境变量],如图: 选择[新建系统变量]--弹出"新建系统变量"对话框,在&quo
JAVA正则表达式 Pattern和Matcher

1.简介: java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包. 它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表现模式. Matcher 一个Matcher对象是一个状态机器,它依据Pattern对象做为匹配模式对字符串展开匹配检查. 首先一个Pattern实例订制了一个所用语法与PERL的类似的正则表达式经编译后的模式,然后一个Matcher实例在这个给定的Pattern实例的模式控制下进行字
java 读写Parquet格式的数据的示例代码

本文介绍了java 读写Parquet格式的数据,分享给大家,具体如下: import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.Random; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; im
Java 使用geotools读取tiff数据的示例代码

Java中如果要解析tiff,其实很多时候,我们都选择gdal的Java库来实现,毫无疑问,gdal确实在GIS数据处理方面非常的强悍,其实Geotools中很多有关栅格数据的解析,也是基于Gdal进行的封装,今天就简单了解使用GeoTools来解析Tiff数据. package com.dudu.gis; import org.geotools.gce.geotiff.GeoTiffReader; import org.geotools.geometry.GeneralEnvelope; im
Java多线程文件分片下载实现的示例代码

多线程下载介绍多线程下载技术是很常见的一种下载方案,这种方式充分利用了多线程的优势,在同一时间段内通过多个线程发起下载请求,将需要下载的数据分割成多个部分,每一个线程只负责下载其中一个部分,然后将下载后的数据组装成完整的数据文件,这样便大大加快了下载效率.常见的下载器,迅雷,QQ旋风等都采用了这种技术. 分片下载所谓分片下载就是要利用多线程的优势,将要下载的文件一块一块的分配到各个线程中去下载,这样就极大的提高了下载速度. 技术难点并不能说是什么难点,只能说没接触过不知道罢了. 1.如何请
Java调用微信支付功能的方法示例代码

Java 使用微信支付前言百度搜了一下微信支付,都描述的不太好,于是乎打算自己写一个案例,希望以后拿来直接改造使用. 因为涉及二维码的前端显示,所以有前端的内容一. 准备工作所需微信公众号信息配置 APPID:绑定支付的APPID(必须配置) MCHID:商户号(必须配置) KEY:商户支付密钥,参考开户邮件设置(必须配置) APPSECRET:公众帐号secert(仅JSAPI支付的时候需要配置) 我这个案例用的是尚硅谷一位老师提供的,这里不方便提供出来,需要大家自己找,或者公司提供二
Java基于IDEA实现http编程的示例代码

http开发前言之为什么要有应用层我们已经学过TCP/IP , 已经知道目前数据能从客户端进程经过路径选择跨网络传送到服务器端进程 [ IP+Port ],可是,仅仅把数据从A点传送到B点就完了吗?这就好比,在淘宝上买了一部手机,卖家[ 客户端 ]把手机通过顺丰[ 传送+路径选择 ] 送到买家 [ 服务器 ] 手里就完了吗?当然不是,买家还要使用这款产品,还要在使用之后,给卖家打分评论.所以,我们把数据从A端传送到B端, TCP/IP 解决的是顺丰的功能,而两端还要对数据进行加工处理或者使用,
Java实现将CSV转为Excel的示例代码

目录一.程序环境二.将CSV转为Excel 补充 CSV(Comma Separated Values)文件是一种纯文本文件,包含用逗号分隔的数据,常用于将数据从一个应用程序导入或导出到另一个应用程序.通过将CSV文件转为EXCEL,可执行更多关于数据编辑.格式设置等操作.下面,将通过Java代码展示如何来实现转换. 一.程序环境可通过以下途径来导入jar: 1. 从 Maven 仓库下载安装,需在pom.xml中配置如下内容: <repositories> <repository
Java利用File类创建文件的示例代码

只需要调用该类的一个方法createNewFile(),但是在实际操作中需要注意一些事项,如判断文件是否存在,以及如何向新建文件中写入数据等. import java.io.*; public class CreateNewFile{ //该方法用于创建文件,参数分别是文件路径和文件名.文件内容,如:myfile.doc HelloJava! public void createNewFile(String fileDirectoryAndName,String fileContent){ tr
Java利用Redis实现消息队列的示例代码

本文介绍了Java利用Redis实现消息队列的示例代码,分享给大家,具体如下: 应用场景为什么要用redis? 二进制存储.java序列化传输.IO连接数高.连接频繁一.序列化这里编写了一个java序列化的工具,主要是将对象转化为byte数组,和根据byte数组反序列化成java对象; 主要是用到了ByteArrayOutputStream和ByteArrayInputStream; 注意:每个需要序列化的对象都要实现Serializable接口; 其代码如下: package Utils
通过Mybatis实现单表内一对多的数据展示示例代码

表: 需求: 将表中的数据,按照一级二级分类返回给前端json数据代码实现: java代码: public class ResultIndustry { private String industryFirst;//一级行业 private List<String> industrySecondList;//二级行业 mybatis代码: <select id="getResultIndustryList" resultMap="resultIndustr
Java使用sftp定时下载文件的示例代码

sftp简介 sftp是Secure File Transfer Protocol的缩写,安全文件传送协议.可以为传输文件提供一种安全的网络的加密方法.sftp 与 ftp 有着几乎一样的语法和功能.SFTP 为 SSH的其中一部分,是一种传输档案至 Blogger 伺服器的安全方式.其实在SSH软件包中,已经包含了一个叫作SFTP(Secure File Transfer Protocol)的安全文件信息传输子系统,SFTP本身没有单独的守护进程,它必须使用sshd守护进程(端口号默认是22)

java 读写Parquet格式的数据的示例代码

相关推荐

随机推荐