Writable,WritableComparable,WritableComparator区别

Writable,WritableComparable,WritableComparator区别Hadoop 中 Writable WritableComp WritableComp 之间有什么区别 先上图大致理解一下这都是什么 一 Writable 接口 其实 Java

大家好,欢迎来到IT知识分享网。

Hadoop中Writable,WritableComparable,WritableComparator之间有什么区别?

先上图大致理解一下

Writable,WritableComparable,WritableComparator区别

这都是什么?

一、Writable(接口):

    其实Java用的是一套重量级的序列化框架(Serializable),一个类实现了序列化之后此类对象会附带各类校验啊、继承体啊、header等额外信息,更多的信息使得此种序列化机制不便于在网络中高效传输,对于本就是用来传输大数据的hadoop框架更不合适 。所以Hadoop使用自己的序列化机制,就是Writable,它不像Serializable这么复杂,Writable大致特点如下:

     1.紧凑:紧凑的格式能让我们充分利用网络带宽,而带宽是数据中心最稀缺的资源

     2.快速:进程通信形成了分布式系统的骨架,所以需要尽量减少序列化和反序列化的性能开销,这是基本的

     3.可扩展:协议为了满足新的需求变化,所以控制客户端和服务器过程中,需要直接引进相应的协议,这些是新协议,原序列化方式能支持新的协议报文

     4.交互操作: 能支持不同语言写的客户端和服务端进行交互

     简单来说,加入我自定义了一个bean类,加入涉及到此对象在mapper、reducer等这种数据传输,都要实现Writable接口

 

 

 

二、WritableComparable排序(接口):

首先,

    WritableComparable是Hadoop的排序方式之一,而排序是MapReduce框架中最重要的操作之一,它就是用来给数据排序的(按照Key排好),常发生在MapTask与ReduceTask的传输过程中(就是数据从map方法写到reduce方法之间)

    任何应用程序中的数据均会被排序,不管逻辑上是否需要,都排序

    Map Task和Reduce Task均会对数据(按照key)进行排序,此操作属于Hadoop的默认行为

    默认排序是按照字典顺序排序,且实现该排序的方法是快速排序,例如环形缓冲区中将数据写入分区后会进行区内的局部排序,使用的就是快排

 

其次,

    实现接口后通常重写 compareTo() ,write(),readFields()方法来实现自定义排序和序列化

    查看WritableComparable,原来它同时实现了Writable和java中的Comparable这两个接口

 

此外,

    对于Map Task,它会将处理的结果暂时放到一个缓冲区中,当缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次排序(部分排序-,每个分区内部进行,方式为快速排序),并将这些有序数据写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行一次合并,以将这些文件合并成一个大的有序文件(全排序,方式为归并)

    Mapreduce框架在记录到达reducer之前按键对记录排序(GroupingComparator分组),但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。

    对于Reduce Task,它从每个Map Task上远程拷贝相应的数据文件,如果文件大小超过一定值,则放到磁盘上(这个过程就是环形缓冲区的溢写功能),否则放到内存中。如果磁盘上文件数目达到一定值,则进行一次合并以生成一个更大文件;如果内存中文件大小或者数目超过一定值,则进行一次合并后将数据写到磁盘上。当所有数据拷贝完毕后,Reduce Task统一对内存和磁盘上的所有数据进行一次合并。

 

二、WritableComparator排序(类):

    它是用来给Key分组的

    它在ReduceTask中进行,默认的类型是GroupingComparator也可以自定义

    WritableComparator为辅助排序手段提供基础(继承它),用来应对不同的业务需求

    比如GroupingComparator会在ReduceTask将文件写入磁盘并排序后按照Key进行分组,判断下一个key是否相同,将同组的Key传给reduce()执行

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/152336.html

(0)
上一篇 2025-03-08 22:25
下一篇 2025-03-08 22:26

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信