hadoop 详解如何实现数据排序

2025-04-02 09:35:11

前言

在hadoop的MapReduce中，提供了对于客户端的自定义排序的功能相关API

MapReduce排序

默认情况下，MapTask 和ReduceTask均会对数据按照key进行排序
默认的排序按照字典序，且实现排序的方法是快排

MapReduce排序分类

1、部分排序

MapReduce根据输入记录的键值对数据集总体排序，确保输出的文件内部数据有序

2、全排序

最终的输出结果只有一个文件，且内部有序，实现方式是只设置一个ReduceTask，但是这种做法在处理的某个文件特别大的时候，效率会非常低，这也就丧失了MapReduce提供的并行处理任务的能力

3、辅助排序

在Reduce端对key进行分组，比如说，在接收的key为bean对象的时候，想让一个或多个字段相同的key进入到同一个reduce方法时，可以采用分组排序

4、二次排序

在自定义排序中，compareto的判断条件为两个或者多个时即为二次排序

自定义排序案例

还记得在序列化一篇中，那个针对手机号的峰值流量和峰谷流量的例子吧，我们直接以该案例的输出结果为输入数据，对这个结果文件中按照总流量进行排序

期望输出数据的格式如：

1、自定义一个Bean对象，实现WritableComparable 接口

实现该接口后，重写compareTo方法，需要排序的字段逻辑就在compareTo中编写

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class PhoneSortBean implements WritableComparable<PhoneSortBean> {

    //峰值流量
    private long upFlow;
    //低谷流量
    private long downFlow;
    //总流量
    private long sumFlow;

    @Override
    public int compareTo(PhoneSortBean o) {
        if (this.sumFlow > o.sumFlow) {
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            return 0;
        }
    }

    //提供无参构造
    public PhoneSortBean() {
    }

    //提供三个参数的getter和setter方法
    public long getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(long upFlow) {
        this.upFlow = upFlow;
    }

    public long getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(long downFlow) {
        this.downFlow = downFlow;
    }

    public long getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(long sumFlow) {
        this.sumFlow = sumFlow;
    }

    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

    //实现序列化和反序列化方法,注意顺序一定要保持一致
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    @Override
    public void readFields(DataInput dataInput) throws IOException {
        this.upFlow = dataInput.readLong();
        this.downFlow = dataInput.readLong();
        this.sumFlow = dataInput.readLong();
    }

    //重写ToString方法
    @Override
    public String toString() {
        return upFlow + "\t" + downFlow + "\t" + sumFlow;
    }
}

2、自定义Mapper

设想一下，既然数据能排序，Map阶段输出的key应该为自定义的可比较的对象，即为上面的这个bean，value为手机号

import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.LinkedList;

public class SortPhoneMapper extends Mapper<LongWritable, Text, PhoneSortBean,Text> {

    private Text outV = new Text();

    private PhoneSortBean outK = new PhoneSortBean();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        //分割数据
        String[] splits = line.split("\t");
        LinkedList<String> linkedList = new LinkedList<>();
        for(String str:splits){
            if(StringUtils.isNotEmpty(str)){
                linkedList.add(str.trim());
            }
        }
        //抓取需要的数据:手机号,上行流量,下行流量
        String phone = linkedList.get(0);
        String max =  linkedList.get(1);
        String mine = linkedList.get(2);
        //封装outK outV
        outV.set(phone);

        outK.setUpFlow(Long.parseLong(max));
        outK.setDownFlow(Long.parseLong(mine));
        outK.setSumFlow();

        //写出outK outV
        context.write(outK, outV);
    }
}

3、自定义Reducer

Reduce阶段的输出结果仍然以手机号为key，而value为排序后的自定义的bean

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class SortPhoneReducer extends Reducer<PhoneSortBean,Text , Text, PhoneSortBean> {

    @Override
    protected void reduce(PhoneSortBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value : values) {
            context.write(value,key);
        }
    }
}

4、自定义Driver类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SortPhoneJob {

    public static void main(String[] args) throws Exception {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setJarByClass(SortPhoneJob.class);

        //3 设置Map端输出KV类型
        job.setReducerClass(SortPhoneReducer.class);
        job.setMapperClass(SortPhoneMapper.class);

        //4 关联Mapper和Reducer
        job.setMapOutputKeyClass(PhoneSortBean.class);
        job.setMapOutputValueClass(Text.class);

        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(PhoneSortBean.class);

        //6 设置程序的输入输出路径
        String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";
        String outPath = "F:\\网盘\\csv\\phone_out_sort";
        FileInputFormat.setInputPaths(job, new Path(inPath));
        FileOutputFormat.setOutputPath(job, new Path(outPath));

        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

运行上面的程序，观察输出结果，可以看到，总流量按照从大到小的顺序进行了排序

可以看到，最后的3行数据中，总流量相同，如果这时候又提出一个需求，当总流量相同时，再按照峰值流量进行排序，该怎么做呢？

其实只需要在自定义的bean中的compareto方法里面继续添加排序逻辑即可

public int compareTo(PhoneSortBean o) {
        if (this.sumFlow > o.sumFlow) {
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            //如果总流量相同的情况下，再按照峰值流量排序
            if(this.upFlow > o.upFlow){
                return -1;
            }else if(this.upFlow < o.upFlow){
                return 1;
            }else {
                return 0;
            }
        }
    }

分区内排序案例

业务需求，上面的案例中，我们进一步提出新的需求，针对不同的手机号最终写到不同的文件中，那么在上面的基础上，还需要结合自定义分区的逻辑

需要改造的包括2点：

添加一个自定义分区器，按照业务规则指定分区号
改造Driver类，添加自定义分区器，设置MapReduceTask任务个数

1、添加自定义分区

public class MyPartioner extends Partitioner<MyPhoneBean, Text> {

    @Override
    public int getPartition(MyPhoneBean myPhoneBean, Text text, int partion) {
        String phone = text.toString();
        if(phone.startsWith("135")){
            return 0;
        }else if(phone.startsWith("136")){
            return 1;
        }else if(phone.startsWith("137")){
            return 2;
        }else {
            return 3;
        }
    }

}

2、改造Driver类

其他的逻辑和上面的保持一致即可

public class MyDriver {

    public static void main(String[] args) throws Exception {

        //1 获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        //2 关联本Driver类
        job.setJarByClass(MyDriver.class);

        //3 设置Map端输出KV类型
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);

        //4 关联Mapper和Reducer
        job.setMapOutputKeyClass(MyPhoneBean.class);
        job.setMapOutputValueClass(Text.class);

        //5 设置程序最终输出的KV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(MyPhoneBean.class);

        //6、设置输出文件为2个
        job.setNumReduceTasks(4);
        job.setPartitionerClass(MyPartioner.class);

        //7、 设置程序的输入输出路径
        String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";
        String outPath = "F:\\网盘\\csv\\phone_out_sort";
        FileInputFormat.setInputPaths(job, new Path(inPath));
        FileOutputFormat.setOutputPath(job, new Path(outPath));

        //7 提交Job
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

运行上面的程序，然后随机打开其中的两个文件检查下是否满足上面的需求，可以看到，文件最终输出到4个分区文件下，并且每个分区文件内的总流量也是按照从高到低的顺序

到此这篇关于hadoop 详解如何实现数据排序的文章就介绍到这了,更多相关hadoop 数据排序内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

hadoop 切片机制分析与应用

前言上面是一张MapReduce读取一个文本数据的逻辑顺序处理图.我们知道,不管是本地运行还是集群模式下,最终以job的任务调度形式运行,主要分为两个阶段 Map阶段,开启MapTask处理数据的读取 Reduce阶段,开启ReduceTask对数据做聚合比如在wordcount案例中,一段文本数据,在map阶段首先被解析,拆分成一个个的单词,其实对hadoop来说,这项工作的完成,是由背后开启的一个MapTask进行处理的,等job处理完成,看到在目标文件夹下,生成了对应的单词统计结果如
hadoop 全面解读自定义分区

分区概念分区这个词对很多同学来说并不陌生,比如Java很多中间件中,像kafka的分区,mysql的分区表等,分区存在的意义在于将数据按照业务规则进行合理的划分,方便后续对各个分区数据高效处理 Hadoop分区 hadoop中的分区,是把不同数据输出到不同reduceTask ,最终到输出不同文件中 hadoop 默认分区规则 hash分区按照key的hashCode % reduceTask 数量 = 分区号默认reduceTask 数量为1,当然也可以在driver 端设置以下是Pa
深入了解Hadoop如何实现序列化

目录前言为什么要序列化为什么不使用Java序列化 Hadoop序列化特点 Hadoop序列化业务场景案例业务描述编码实现前言序列化想必大家都很熟悉了,对象在进行网络传输过程中,需要序列化之后才能传输到客户端,或者客户端的数据序列化之后送达到服务端序列化的标准解释如下: 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输对应的反序列化为序列化的逆向过程反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内
Hadoop环境配置之hive环境配置详解

1.将下载的hive压缩包拉到/opt/software/文件夹下安装包版本:apache-hive-3.1.2-bin.tar.gz 2.将安装包解压到/opt/module/文件夹中,命令: cd /opt/software/ tar -zxvf 压缩包名 -C /opt/module/ 3.修改系统环境变量,命令: vi /etc/profile 在编辑面板中添加如下代码: export HIVE_HOME=/opt/module/apache-hive-3.1.2-bin expor
hadoop 详解如何实现数据排序

目录前言 MapReduce排序 MapReduce排序分类 1.部分排序 2.全排序 3.辅助排序 4.二次排序自定义排序案例 1.自定义一个Bean对象,实现WritableComparable接口 2.自定义Mapper 3.自定义Reducer 4.自定义Driver类分区内排序案例 1.添加自定义分区 2.改造Driver类前言在hadoop的MapReduce中,提供了对于客户端的自定义排序的功能相关API MapReduce排序默认情况下,MapTask 和Reduce
详解R语言数据合并一行代码搞定

数据的合并需要的函数 cbind(),rbind(),bind_rows(),merge() 准备数据我们先构造一组数据,以便下面的演示 > data1<-data.frame( + namea=c("海波","立波","秀波"), + value=c("一波","接","一波") + ) > data1 namea value 1 海波一波 2 立波接 3 秀
详解Java实现拓扑排序算法

目录一.介绍二.拓扑排序算法分析三.拓扑排序代码实现一.介绍百科上这么定义的: 对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,若边<u,v>∈E(G),则u在线性序列中出现在v之前.通常,这样的线性序列称为满足拓扑次序(Topological Order)的序列,简称拓扑序列.简单的说,由某个集合上的一个偏序得到该集合上的一个全序,这个操作称之为拓扑排序. 为什么会有拓扑排序?拓
详解Python进行数据相关性分析的三种方式

目录相关性实现 NumPy 相关性计算 SciPy 相关性计算 Pandas 相关性计算线性相关实现线性回归:SciPy 实现等级相关排名:SciPy 实现等级相关性:NumPy 和 SciPy 实现等级相关性:Pandas 实现相关性的可视化带有回归线的 XY 图相关矩阵的热图 matplotlib 相关矩阵的热图 seaborn 相关性实现统计和数据科学通常关注数据集的两个或多个变量(或特征)之间的关系.数据集中的每个数据点都是一个观察值,特征是这些观察值的属性或属性.
详解vue的数据binding绑定原理

自从angular火了以后,各种mvc框架喷涌而出,angular虽然比较火,但是他的坑还是蛮多的,还有许多性能问题被人们吐槽.比如坑爹的脏检查机制,数据binding是受人喜爱的,脏检查就有点-性能低下了.有时候改了一个地方,脏循环要循环多次来保证数据是不是真的变了和是否停止变化了.这样性能就很低了.于是人们开始钻研新的双向数据binding的方法.尤大的vue binding就是本人蛮喜欢的一种实现方式,本文跟随尤大的一个例子来详解vue的数据binding的原理. 数据binding,一般
详解MySQL的数据行和行溢出机制

一.行有哪些格式? 你可以像下面这样看一下你的MySQL行格式设置. 其实MySQL的数据行有两种格式,一种就是图中的 Compact格式,还有一种是Redundant格式. Compact是一种紧凑的行格式,设计的初衷就是为了让一个数据页中可以存放更多的数据行. 你品一品,让一个数据页中可以存放更多的数据行是一个多么激动人心的事,MySQL以数据页为单位从磁盘中读数据,如果能做到让一个数据页中有更多的行,那岂不是使用的空间变少了,且整体的效率直线飙升? 官网介绍:Compact能比Redun
详解mysql插入数据后返回自增ID的七种方法

引言 mysql 和 oracle 插入的时候有一个很大的区别是: oracle 支持序列做 id: mysql 本身有一个列可以做自增长字段. mysql 在插入一条数据后,如何能获得到这个自增 id 的值呢? 一:使用 last_insert_id() SELECT LAST_INSERT_ID(); 1. 每次 mysql 的 query 操作在 mysql 服务器上可以理解为一次"原子"操作, 写操作常常需要锁表, 这里的锁表是 mysql 应用服务器锁表不是我们的应用程序锁表
详解Python小数据池和代码块缓存机制

前言本文除"总结"外,其余均为认识过程:3.7.5:这部分官方文档不知道在哪里找,目前没有找到,有谁知道的可以麻烦留言吗? 谢谢了! 总结: 如果在同一代码块下,则采用同一代码块下的缓存机制: 如果是不同代码块,则采用小数据池的驻留机制: 需要注意的是,交互式输入时,每个命令都是一个代码块: 实现 Intern 保留机制的方式非常简单,就是通过维护一个字符串储蓄池,这个池子是一个字典结构,编译时,如果字符串已经存在于池子中就不再去创建新的字符串,直接返回之前创建好的字符串对象, 如果
详解C++实现拓扑排序算法

一.拓扑排序的介绍拓扑排序对应施工的流程图具有特别重要的作用,它可以决定哪些子工程必须要先执行,哪些子工程要在某些工程执行后才可以执行.为了形象地反映出整个工程中各个子工程(活动)之间的先后关系,可用一个有向图来表示,图中的顶点代表活动(子工程),图中的有向边代表活动的先后关系,即有向边的起点的活动是终点活动的前序活动,只有当起点活动完成之后,其终点活动才能进行.通常,我们把这种顶点表示活动.边表示活动间先后关系的有向图称做顶点活动网(Activity On Vertex network),简
一文详解MySQL中数据表的外连接

目录为什么要使用外连接外连接简介左连接与右连接外连接练习① 外连接练习② 该章节的内容为多表连接查询的外连接,因为 MySQL 是关系型数据库,数据是拆分重组在多个数据表里面的.所以我们势必要从多个数据表中提取数据,通过 SQL 语句的内连接与外连接就能够实现多表查询了.这部分内容是需要我们重点学习的,学习的过程中会穿插多种的案例来强化对表连接的语法的运用. 为什么要使用外连接在解释为什么使用 “外连接” 之前,先来看一个记录.(如下:) 针对表中的张三没有所属的部门编号,我们暂且将他