百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

Hadoop系列——如何在MapReduce中使用SequenceFile数据格式?

liebian365 2024-10-24 14:39 10 浏览 0 评论

本文作为《Hadoop从入门到精通》大型专题的第三章第三节,主要介绍如何在MapReduce中使用SequenceFile数据格式。我们在上一篇文章中提到了许多可与MapReduce大数据处理匹配的数据格式,本节将首先介绍SequenceFile数据格式。(往期文章可自行查看文末链接)

3.3.2 SequenceFile

因为SequenceFile是为与MapReduce一起使用而创建的,所以这种格式可以说是与MapReduce、Pig和Hive一起提供最高级别集成支持的数据格式。SequenceFile是一种可拆分的二进制文件格式,以Key/value形式存储数据。所有SequenceFiles共享相同的头格式,如图3.8所示。

SequenceFiles有三种类型,根据应用压缩的方式而有所不同,每种类型都有自己对应的Writer类。

Uncompressed

Uncompressed SequenceFiles是使用SequenceFile.Writer类编写的,其对比压缩格式并没有任何优势,因为压缩通常会减少存储占用空间,并且对读取和写入更有效,如图3.9所示。

Record-compressed

Record-compressed SequenceFiles是使用SequenceFile.RecordCompressWriter类编写的。记录添加到SequenceFile后会立即被压缩并写入该文件。这种方法的缺点是与块压缩相比,压缩比略有不同。该文件格式与uncompressed SequenceFiles基本相同,如图3.9所示。

Block-compressed(块压缩)

Block-compressed SequenceFiles是使用SequenceFile.BlockCompressWriter类编写的。默认情况下,块大小与HDFS块大小相同,但可以覆盖它,这种压缩的优势在于压缩程度更容易达到理想状态。整个块被压缩,而不是在记录级别压缩。直到达到块大小才写入数据,此时整个块被压缩,从而产生良好的整体压缩状态。如图3.10所示。

你只需要一个Reader类(SequenceFile.Reader)读取所有三种类型的SequenceFiles。甚至Writer也是抽象的,因为你可以调用SequenceFile.createWriter决定首选格式,并且返回一个基类,无论如何压缩都可以用于写入。

SequenceFiles具有可插入的序列化框架,写入的key和value必须具有相关的org.apache.hadoop.io.serializer.Serializer和Deserializer,用于编组和解组。Hadoop附带了四个序列化程序:Avro,Java,Tether(用于TetherData类中包含的二进制数据)和Writable(默认序列化程序)。

自定义SequenceFile序列化

如果希望SequenceFile包含可序列化对象,则需要实现自己的Serializer并注册,可以通过更新core-site.xml并将自定义序列化实现的类名追加到io.serializations属性来注册。

SequenceFiles是可拆分的,因为对于 record-based文件而言,每个文件大约每6 KiB(1 kibibyte = 1024字节)就会写入一个同步标记,并且在每个块之前写入基于块的文件。

现在让我们看一下如何在MapReduce中使用SequenceFiles。

如何使用SequenceFiles?

当必须支持复杂类型数据时,使用MapReduce中的文本会变得很棘手,这些数据可能包括nonscalar的数据类型,如列表或词典。此外,如果MapReduce的数据位置属性很重要,那么大型压缩文本文件需要一些额外的考虑,但使用SequenceFile等文件格式可以克服这些挑战。

问题

希望在MapReduce中使用结构化文件格式,可以使用该格式模拟复杂数据结构,并且支持压缩和可拆分输入。

解决方案

该技术着眼于如何从独立应用程序和MapReduce中使用SequenceFile文件格式。

讨论

SequenceFile格式提供与MapReduce等工具的高度集成,还可以对复杂数据结构进行建模。我们将研究如何读取和编写SequenceFiles,以及如何将它们与MapReduce、Pig和Hive一起使用。

我们将使用此技术的库存数据。与SequenceFiles一起使用的最常见序列化方法是Writable,因此需要创建一个Writable来表示stock数据。编写复杂Writable的关键元素是扩展Writable类并定义序列化和反序列化方法,如下所示。

现在有了Writable,你需要编写一些代码来创建SequenceFile。我们可以从本地磁盘读取stocks文件,创建StockWritable,并使用stock price作为密钥将其写入SequenceFile:

如何读并创建写文件?

现在需要通过写和读文件来证明其工作原理:

我们将如何在MapReduce中处理此SequenceFile?幸运的是,SequenceFileInputFormat和SequenceFileOutputFormat都与MapReduce很好地集成。因为Writable是MapReduce中的本机数据格式,所以使用带有MapReduce的SequenceFiles是完全透明的。以下代码显示了带有mapper和reducer的MapReduce作业:

现在,你可以针对先前创建的stocks SequenceFile运行MapReduce作业:

因为我们所做的只是回显输出的输入,所以应该在两个文件中看到相同的内容,可以通过读取作业输出文件来确保这种情况。至于如何验证输出是否为SequenceFile,很简单,SequenceFile输出的前三个字节是SEQ,然后是包含SequenceFile版本的第四个字节,然后是key和value类:

现在尝试使用之前编写的SequenceFile读取器代码将其转储到标准输出:

因为SequenceFiles是基于key/value的,并且SequenceFiles的默认序列化数据格式是可写的,所以使用SequenceFiles对于map和reduce完全透明。我们通过使用MapReduce的内置map和 reduce类并使用SequenceFile作为输入证明了这一点。 我们唯一需要做的就是告诉MapReduce使用特定于SequenceFile的输入和输出格式类,这些类都构建在MapReduce中。

在Pig中读取SequenceFiles

如果自己编写Writable,可以使用非MapReduce工具(如Pig)创建更多工作。Pig适用于Hadoop的内置scalar Writable,如Text和IntWritable,但不支持自定义Writable。 你需要编写自己的LoadFunc来支持StockPriceWritable。这适用于MapReduce,但Pig的SequenceFileLoader不能与自定义Writable一起使用,这意味着需要编写自己的Pig加载程序来处理文件。LoadFunc for Pig非常简单,如下所示:


现在可以尝试在Pig中加载和转储stock SequenceFile:

Hive

Hive包含对SequenceFiles的内置支持,但它有两个限制。首先,它忽略了每条记录的关键部分。其次,开箱即用只适用于可写的SequenceFile值,通过执行toString()将值转换为Text形式来支持。

如果有自定义Writable,则必须编写一个Hive SerDe,它将Writable反序列化为Hive可以理解的形式。生成的DDL语句如下:


总结

SequenceFiles非常有用,因为其解决了MapReduce最具挑战性的问题——其本身可拆分且具有内置压缩支持,这使得它对用户完全透明。当然,它们也可用作其他文件格式的容器,如果这些格式不能集成到MapReduce中。SequenceFiles比较棘手的是缺乏多语言支持,限制了与数据互操作的工具范围。但是,如果数据大部分保留在HDFS中并使用MapReduce(或Hive / Pig)进行处理,那么SequenceFiles可能是你所需要的。

SequenceFiles的另一个挑战是在使用Writable时缺乏模式演变 - 对Writable进行更改不会向后或向前兼容,除非将其构建到实现中。这可以通过使用Protocol Buffers作为key/value类型来解决。

该技术研究了如何将SequenceFiles与Writable一起使用,SequenceFile知道如何在其文件格式内进行编码和解码。如何通过SequenceFiles使用Writables以外的数据?

使用SequenceFiles编码Protocol Buffers

Writable是SequenceFiles中的一等公民,并且API具有读取和写入Writable实例的特定方法,这并不意味着SequenceFiles仅限于使用Writables。事实上,只要有一个插入Hadoop序列化框架的数据类型的序列化实现,就可以使用任何数据类型。

Protocol Buffers是Google开源的复杂数据格式,提供了模式演变和高效数据编码功能。 (有关Protocol Buffers的更多详细信息,请参见之后的第3.3.3节)。在这种技术中,我们可以实现Protocol Buffers序列化,并了解如何在MapReduce中使用本机Protocol Buffers对象。

问题

希望在MapReduce中使用Protocol Buffers数据。

解决方案

编写Protocol Buffers序列化程序,使能够在SequenceFiles中编码Protocol Buffers序列化数据。

讨论

出于性能考虑,Hadoop使用自己的框架来序列化和反序列化数据。此框架的一个示例用法是将map输出作为shuffle阶段的一部分写入磁盘,所有map输出必须具有相应的Hadoop序列化类,该类知道如何读取和写入数据流。Writable是MapReduce中最常用的数据类型,有一个WritableSerialization类且使用Writable接口上的readFields和writeFields方法执行序列化。

SequenceFiles使用相同的序列化框架来序列化和反序列化其key/value记录中的数据,这就是SequenceFiles开箱即用支持Writable的原因。因此,将数据类型编码到SequenceFile只是编写自己的Hadoop序列化实例问题。

Protocol Buffers与SequenceFiles一起使用的第一步是编写自己的序列化类。每个序列化类都必须支持序列化和反序列化,所以从序列化器开始,其作用是将记录写到输出流。

以下代码使用MessageLite类作为type,是所有生成的Protocol Buffers类的超类。MessageLite接口提供了将Protocol Buffers写入输出流并从输入流中读取它们的方法,如下面的代码所示:

接下来是解串器,其作用是从输入流填充Protocol Buffers对象。与序列化相比,Protocol Buffers对象只能通过其 builder类进行构建:



现在,我们需要配置Hadoop序列化框架以使用新的序列化程序。这是通过将新的序列化程序附加到io.serializations属性来完成的。编写辅助方法通常可以使客户端变得容易。以下示例显示了与Hadoop 2捆绑在一起的标准序列化程序,它们附加了刚刚创建的序列化类。这里没有显示ProtobufSerialization的源代码,它只是返回ProtobufSerializer和ProtobufDeserializer实例:



接下来,需要生成一个新的Protocol Buffers编码的SequenceFile。这里的关键项是在使用SequenceFile writer之前调用register方法(如前面的代码所示):


关于MapReduce代码,新的序列化程序的优点是map和reduce类可以直接使用Protocol Buffers对象。同样,关键在于如何配置作业以使Protocol Buffers序列化程序可用。在下面的示例中,使用标识函数来演示如何在SequenceFiles中编码:



现在,你可以编写具有Protocol Buffers值的SequenceFile,对该数据运行标识MapReduce作业,然后转储作业输出内容:


以上是本章节的所有内容,在下一章节,我们将研究可以将Protocol Buffers集成到MapReduce中的其他方法。

相关推荐

快递查询教程,批量查询物流,一键管理快递

作为商家,每天需要查询许许多多的快递单号,面对不同的快递公司,有没有简单一点的物流查询方法呢?小编的回答当然是有的,下面随小编一起来试试这个新技巧。需要哪些工具?安装一个快递批量查询高手快递单号怎么快...

一键自动查询所有快递的物流信息 支持圆通、韵达等多家快递

对于各位商家来说拥有一个好的快递软件,能够有效的提高自己的工作效率,在管理快递单号的时候都需要对单号进行表格整理,那怎么样能够快速的查询所有单号信息,并自动生成表格呢?1、其实方法很简单,我们不需要一...

快递查询单号查询,怎么查物流到哪了

输入单号怎么查快递到哪里去了呢?今天小编给大家分享一个新的技巧,它支持多家快递,一次能查询多个单号物流,还可对查询到的物流进行分析、筛选以及导出,下面一起来试试。需要哪些工具?安装一个快递批量查询高手...

3分钟查询物流,教你一键批量查询全部物流信息

很多朋友在问,如何在短时间内把单号的物流信息查询出来,查询完成后筛选已签收件、筛选未签收件,今天小编就分享一款物流查询神器,感兴趣的朋友接着往下看。第一步,运行【快递批量查询高手】在主界面中点击【添...

快递单号查询,一次性查询全部物流信息

现在各种快递的查询方式,各有各的好,各有各的劣,总的来说,还是有比较方便的。今天小编就给大家分享一个新的技巧,支持多家快递,一次能查询多个单号的物流,还能对查询到的物流进行分析、筛选以及导出,下面一起...

快递查询工具,批量查询多个快递快递单号的物流状态、签收时间

最近有朋友在问,怎么快速查询单号的物流信息呢?除了官网,还有没有更简单的方法呢?小编的回答当然是有的,下面一起来看看。需要哪些工具?安装一个快递批量查询高手多个京东的快递单号怎么快速查询?进入快递批量...

快递查询软件,自动识别查询快递单号查询方法

当你拥有多个快递单号的时候,该如何快速查询物流信息?比如单号没有快递公司时,又该如何自动识别再去查询呢?不知道如何操作的宝贝们,下面随小编一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号若干...

教你怎样查询快递查询单号并保存物流信息

商家发货,快递揽收后,一般会直接手动复制到官网上一个个查询物流,那么久而久之,就会觉得查询变得特别繁琐,今天小编给大家分享一个新的技巧,下面一起来试试。教程之前,我们来预览一下用快递批量查询高手...

简单几步骤查询所有快递物流信息

在高峰期订单量大的时候,可能需要一双手当十双手去查询快递物流,但是由于逐一去查询,效率极低,追踪困难。那么今天小编给大家分享一个新的技巧,一次能查询多个快递单号的物流,下面一起来学习一下,希望能给大家...

物流单号查询,如何查询快递信息,按最后更新时间搜索需要的单号

最近有很多朋友在问,如何通过快递单号查询物流信息,并按最后更新时间搜索出需要的单号呢?下面随小编一起来试试吧。需要哪些工具?安装一个快递批量查询高手快递单号若干怎么快速查询?运行【快递批量查询高手】...

连续保存新单号功能解析,导入单号查询并自动识别批量查快递信息

快递查询已经成为我们日常生活中不可或缺的一部分。然而,面对海量的快递单号,如何高效、准确地查询每一个快递的物流信息,成为了许多人头疼的问题。幸运的是,随着科技的进步,一款名为“快递批量查询高手”的软件...

快递查询教程,快递单号查询,筛选更新量为1的单号

最近有很多朋友在问,怎么快速查询快递单号的物流,并筛选出更新量为1的单号呢?今天小编给大家分享一个新方法,一起来试试吧。需要哪些工具?安装一个快递批量查询高手多个快递单号怎么快速查询?运行【快递批量查...

掌握批量查询快递动态的技巧,一键查找无信息记录的两种方法解析

在快节奏的商业环境中,高效的物流查询是确保业务顺畅运行的关键。作为快递查询达人,我深知时间的宝贵,因此,今天我将向大家介绍一款强大的工具——快递批量查询高手软件。这款软件能够帮助你批量查询快递动态,一...

从复杂到简单的单号查询,一键清除单号中的符号并批量查快递信息

在繁忙的商务与日常生活中,快递查询已成为不可或缺的一环。然而,面对海量的单号,逐一查询不仅耗时费力,还容易出错。现在,有了快递批量查询高手软件,一切变得简单明了。只需一键,即可搞定单号查询,一键处理单...

物流单号查询,在哪里查询快递

如果在快递单号多的情况,你还在一个个复制粘贴到官网上手动查询,是一件非常麻烦的事情。于是乎今天小编给大家分享一个新的技巧,下面一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号怎么快速查询?...

取消回复欢迎 发表评论: