如何在MapReduce中使用SequenceFile数据格式?
liebian365 2024-10-24 14:39 30 浏览 0 评论
本文作为《Hadoop从入门到精通》大型专题的第三章第三节,主要介绍如何在MapReduce中使用SequenceFile数据格式。我们在上一篇文章中提到了许多可与MapReduce大数据处理匹配的数据格式,本节将首先介绍SequenceFile数据格式。(往期文章可自行查看文末链接)
3.3.2 SequenceFile
因为SequenceFile是为与MapReduce一起使用而创建的,所以这种格式可以说是与MapReduce、Pig和Hive一起提供最高级别集成支持的数据格式。SequenceFile是一种可拆分的二进制文件格式,以Key/value形式存储数据。所有SequenceFiles共享相同的头格式,如图3.8所示。
SequenceFiles有三种类型,根据应用压缩的方式而有所不同,每种类型都有自己对应的Writer类。
Uncompressed
Uncompressed SequenceFiles是使用SequenceFile.Writer类编写的,其对比压缩格式并没有任何优势,因为压缩通常会减少存储占用空间,并且对读取和写入更有效,如图3.9所示。
Record-compressed
Record-compressed SequenceFiles是使用SequenceFile.RecordCompressWriter类编写的。记录添加到SequenceFile后会立即被压缩并写入该文件。这种方法的缺点是与块压缩相比,压缩比略有不同。该文件格式与uncompressed SequenceFiles基本相同,如图3.9所示。
Block-compressed(块压缩)
Block-compressed SequenceFiles是使用SequenceFile.BlockCompressWriter类编写的。默认情况下,块大小与HDFS块大小相同,但可以覆盖它,这种压缩的优势在于压缩程度更容易达到理想状态。整个块被压缩,而不是在记录级别压缩。直到达到块大小才写入数据,此时整个块被压缩,从而产生良好的整体压缩状态。如图3.10所示。
你只需要一个Reader类(SequenceFile.Reader)读取所有三种类型的SequenceFiles。甚至Writer也是抽象的,因为你可以调用SequenceFile.createWriter决定首选格式,并且返回一个基类,无论如何压缩都可以用于写入。
SequenceFiles具有可插入的序列化框架,写入的key和value必须具有相关的org.apache.hadoop.io.serializer.Serializer和Deserializer,用于编组和解组。Hadoop附带了四个序列化程序:Avro,Java,Tether(用于TetherData类中包含的二进制数据)和Writable(默认序列化程序)。
自定义SequenceFile序列化
如果希望SequenceFile包含可序列化对象,则需要实现自己的Serializer并注册,可以通过更新core-site.xml并将自定义序列化实现的类名追加到io.serializations属性来注册。
SequenceFiles是可拆分的,因为对于 record-based文件而言,每个文件大约每6 KiB(1 kibibyte = 1024字节)就会写入一个同步标记,并且在每个块之前写入基于块的文件。
现在让我们看一下如何在MapReduce中使用SequenceFiles。
如何使用SequenceFiles?
当必须支持复杂类型数据时,使用MapReduce中的文本会变得很棘手,这些数据可能包括nonscalar的数据类型,如列表或词典。此外,如果MapReduce的数据位置属性很重要,那么大型压缩文本文件需要一些额外的考虑,但使用SequenceFile等文件格式可以克服这些挑战。
问题
希望在MapReduce中使用结构化文件格式,可以使用该格式模拟复杂数据结构,并且支持压缩和可拆分输入。
解决方案
该技术着眼于如何从独立应用程序和MapReduce中使用SequenceFile文件格式。
讨论
SequenceFile格式提供与MapReduce等工具的高度集成,还可以对复杂数据结构进行建模。我们将研究如何读取和编写SequenceFiles,以及如何将它们与MapReduce、Pig和Hive一起使用。
我们将使用此技术的库存数据。与SequenceFiles一起使用的最常见序列化方法是Writable,因此需要创建一个Writable来表示stock数据。编写复杂Writable的关键元素是扩展Writable类并定义序列化和反序列化方法,如下所示。
现在有了Writable,你需要编写一些代码来创建SequenceFile。我们可以从本地磁盘读取stocks文件,创建StockWritable,并使用stock price作为密钥将其写入SequenceFile:
如何读并创建写文件?
现在需要通过写和读文件来证明其工作原理:
我们将如何在MapReduce中处理此SequenceFile?幸运的是,SequenceFileInputFormat和SequenceFileOutputFormat都与MapReduce很好地集成。因为Writable是MapReduce中的本机数据格式,所以使用带有MapReduce的SequenceFiles是完全透明的。以下代码显示了带有mapper和reducer的MapReduce作业:
现在,你可以针对先前创建的stocks SequenceFile运行MapReduce作业:
因为我们所做的只是回显输出的输入,所以应该在两个文件中看到相同的内容,可以通过读取作业输出文件来确保这种情况。至于如何验证输出是否为SequenceFile,很简单,SequenceFile输出的前三个字节是SEQ,然后是包含SequenceFile版本的第四个字节,然后是key和value类:
现在尝试使用之前编写的SequenceFile读取器代码将其转储到标准输出:
因为SequenceFiles是基于key/value的,并且SequenceFiles的默认序列化数据格式是可写的,所以使用SequenceFiles对于map和reduce完全透明。我们通过使用MapReduce的内置map和 reduce类并使用SequenceFile作为输入证明了这一点。 我们唯一需要做的就是告诉MapReduce使用特定于SequenceFile的输入和输出格式类,这些类都构建在MapReduce中。
在Pig中读取SequenceFiles
如果自己编写Writable,可以使用非MapReduce工具(如Pig)创建更多工作。Pig适用于Hadoop的内置scalar Writable,如Text和IntWritable,但不支持自定义Writable。 你需要编写自己的LoadFunc来支持StockPriceWritable。这适用于MapReduce,但Pig的SequenceFileLoader不能与自定义Writable一起使用,这意味着需要编写自己的Pig加载程序来处理文件。LoadFunc for Pig非常简单,如下所示:
现在可以尝试在Pig中加载和转储stock SequenceFile:
Hive
Hive包含对SequenceFiles的内置支持,但它有两个限制。首先,它忽略了每条记录的关键部分。其次,开箱即用只适用于可写的SequenceFile值,通过执行toString()将值转换为Text形式来支持。
如果有自定义Writable,则必须编写一个Hive SerDe,它将Writable反序列化为Hive可以理解的形式。生成的DDL语句如下:
总结
SequenceFiles非常有用,因为其解决了MapReduce最具挑战性的问题——其本身可拆分且具有内置压缩支持,这使得它对用户完全透明。当然,它们也可用作其他文件格式的容器,如果这些格式不能集成到MapReduce中。SequenceFiles比较棘手的是缺乏多语言支持,限制了与数据互操作的工具范围。但是,如果数据大部分保留在HDFS中并使用MapReduce(或Hive / Pig)进行处理,那么SequenceFiles可能是你所需要的。
SequenceFiles的另一个挑战是在使用Writable时缺乏模式演变 - 对Writable进行更改不会向后或向前兼容,除非将其构建到实现中。这可以通过使用Protocol Buffers作为key/value类型来解决。
该技术研究了如何将SequenceFiles与Writable一起使用,SequenceFile知道如何在其文件格式内进行编码和解码。如何通过SequenceFiles使用Writables以外的数据?
使用SequenceFiles编码Protocol Buffers
Writable是SequenceFiles中的一等公民,并且API具有读取和写入Writable实例的特定方法,这并不意味着SequenceFiles仅限于使用Writables。事实上,只要有一个插入Hadoop序列化框架的数据类型的序列化实现,就可以使用任何数据类型。
Protocol Buffers是Google开源的复杂数据格式,提供了模式演变和高效数据编码功能。 (有关Protocol Buffers的更多详细信息,请参见之后的第3.3.3节)。在这种技术中,我们可以实现Protocol Buffers序列化,并了解如何在MapReduce中使用本机Protocol Buffers对象。
问题
希望在MapReduce中使用Protocol Buffers数据。
解决方案
编写Protocol Buffers序列化程序,使能够在SequenceFiles中编码Protocol Buffers序列化数据。
讨论
出于性能考虑,Hadoop使用自己的框架来序列化和反序列化数据。此框架的一个示例用法是将map输出作为shuffle阶段的一部分写入磁盘,所有map输出必须具有相应的Hadoop序列化类,该类知道如何读取和写入数据流。Writable是MapReduce中最常用的数据类型,有一个WritableSerialization类且使用Writable接口上的readFields和writeFields方法执行序列化。
SequenceFiles使用相同的序列化框架来序列化和反序列化其key/value记录中的数据,这就是SequenceFiles开箱即用支持Writable的原因。因此,将数据类型编码到SequenceFile只是编写自己的Hadoop序列化实例问题。
Protocol Buffers与SequenceFiles一起使用的第一步是编写自己的序列化类。每个序列化类都必须支持序列化和反序列化,所以从序列化器开始,其作用是将记录写到输出流。
以下代码使用MessageLite类作为type,是所有生成的Protocol Buffers类的超类。MessageLite接口提供了将Protocol Buffers写入输出流并从输入流中读取它们的方法,如下面的代码所示:
接下来是解串器,其作用是从输入流填充Protocol Buffers对象。与序列化相比,Protocol Buffers对象只能通过其 builder类进行构建:
现在,我们需要配置Hadoop序列化框架以使用新的序列化程序。这是通过将新的序列化程序附加到io.serializations属性来完成的。编写辅助方法通常可以使客户端变得容易。以下示例显示了与Hadoop 2捆绑在一起的标准序列化程序,它们附加了刚刚创建的序列化类。这里没有显示ProtobufSerialization的源代码,它只是返回ProtobufSerializer和ProtobufDeserializer实例:
接下来,需要生成一个新的Protocol Buffers编码的SequenceFile。这里的关键项是在使用SequenceFile writer之前调用register方法(如前面的代码所示):
关于MapReduce代码,新的序列化程序的优点是map和reduce类可以直接使用Protocol Buffers对象。同样,关键在于如何配置作业以使Protocol Buffers序列化程序可用。在下面的示例中,使用标识函数来演示如何在SequenceFiles中编码:
现在,你可以编写具有Protocol Buffers值的SequenceFile,对该数据运行标识MapReduce作业,然后转储作业输出内容:
以上是本章节的所有内容,在下一章节,我们将研究可以将Protocol Buffers集成到MapReduce中的其他方法。
相关推荐
- “版本末期”了?下周平衡补丁!国服最强5套牌!上分首选
-
明天,酒馆战棋就将迎来大更新,也聊了很多天战棋相关的内容了,趁此机会,给兄弟们穿插一篇构筑模式的卡组推荐!老规矩,我们先来看10职业胜率。目前10职业胜率排名与一周前基本类似,没有太多的变化。平衡补丁...
- VS2017 C++ 程序报错“error C2065:“M_PI”: 未声明的标识符"
-
首先,程序中头文件的选择,要选择头文件,在文件中是没有对M_PI的定义的。选择:项目——>”XXX属性"——>配置属性——>C/C++——>预处理器——>预处理器定义,...
- 东营交警实名曝光一批酒驾人员名单 88人受处罚
-
齐鲁网·闪电新闻5月24日讯酒后驾驶是对自己和他人生命安全极不负责的行为,为守护大家的平安出行路,东营交警一直将酒驾作为重点打击对象。5月23日,东营交警公布最新一批饮酒、醉酒名单。对以下驾驶人醉酒...
- Qt界面——搭配QCustomPlot(qt platform)
-
这是我第一个使用QCustomPlot控件的上位机,通过串口精确的5ms发送一次数据,再将读取的数据绘制到图表中。界面方面,尝试卡片式设计,外加QSS简单的配了个色。QCustomPlot官网:Qt...
- 大话西游2分享赢取种族坐骑手办!PK趣闻录由你书写
-
老友相聚,仗剑江湖!《大话西游2》2021全民PK季4月激燃打响,各PK玩法鏖战齐开,零门槛参与热情高涨。PK季期间,不仅各种玩法奖励丰厚,参与PK趣闻录活动,投稿自己在PK季遇到的趣事,还有机会带走...
- 测试谷歌VS Code AI 编程插件 Gemini Code Assist
-
用ClaudeSonnet3.7的天气测试编码,让谷歌VSCodeAI编程插件GeminiCodeAssist自动编程。生成的文件在浏览器中的效果如下:(附源代码)VSCode...
- 顾爷想知道第4.5期 国服便利性到底需优化啥?
-
前段时间DNF国服推出了名为“阿拉德B计划”的系列改版计划,截至目前我们已经看到了两项实装。不过关于便利性上,国服似乎还有很多路要走。自从顾爷回归DNF以来,几乎每天都在跟我抱怨关于DNF里面各种各样...
- 掌握Visual Studio项目配置【基础篇】
-
1.前言VisualStudio是Windows上最常用的C++集成开发环境之一,简称VS。VS功能十分强大,对应的,其配置系统较为复杂。不管是对于初学者还是有一定开发经验的开发者来说,捋清楚VS...
- 还嫌LED驱动设计套路深?那就来看看这篇文章吧
-
随着LED在各个领域的不同应用需求,LED驱动电路也在不断进步和发展。本文从LED的特性入手,推导出适合LED的电源驱动类型,再进一步介绍各类LED驱动设计。设计必读:LED四个关键特性特性一:非线...
- Visual Studio Community 2022(VS2022)安装图文方法
-
直接上步骤:1,首先可以下载安装一个VisualStudio安装器,叫做VisualStudioinstaller。这个安装文件很小,很快就安装完成了。2,打开VisualStudioins...
- Qt添加MSVC构建套件的方法(qt添加c++11)
-
前言有些时候,在Windows下因为某些需求需要使用MSVC编译器对程序进行编译,假设我们安装Qt的时候又只是安装了MingW构建套件,那么此时我们该如何给现有的Qt添加一个MSVC构建套件呢?本文以...
- Qt为什么站稳c++GUI的top1(qt c)
-
为什么现在QT越来越成为c++界面编程的第一选择,从事QT编程多年,在这之前做C++界面都是基于MFC。当时为什么会从MFC转到QT?主要原因是MFC开发界面想做得好看一些十分困难,引用第三方基于MF...
- qt开发IDE应该选择VS还是qt creator
-
如果一个公司选择了qt来开发自己的产品,在面临IDE的选择时会出现vs或者qtcreator,选择qt的IDE需要结合产品需求、部署平台、项目定位、程序猿本身和公司战略,因为大的软件产品需要明确IDE...
- Qt 5.14.2超详细安装教程,不会来打我
-
Qt简介Qt(官方发音[kju:t],音同cute)是一个跨平台的C++开库,主要用来开发图形用户界面(GraphicalUserInterface,GUI)程序。Qt是纯C++开...
- Cygwin配置与使用(四)——VI字体和颜色的配置
-
简介:VI的操作模式,基本上VI可以分为三种状态,分别是命令模式(commandmode)、插入模式(Insertmode)和底行模式(lastlinemode),各模式的功能区分如下:1)...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- “版本末期”了?下周平衡补丁!国服最强5套牌!上分首选
- VS2017 C++ 程序报错“error C2065:“M_PI”: 未声明的标识符"
- 东营交警实名曝光一批酒驾人员名单 88人受处罚
- Qt界面——搭配QCustomPlot(qt platform)
- 大话西游2分享赢取种族坐骑手办!PK趣闻录由你书写
- 测试谷歌VS Code AI 编程插件 Gemini Code Assist
- 顾爷想知道第4.5期 国服便利性到底需优化啥?
- 掌握Visual Studio项目配置【基础篇】
- 还嫌LED驱动设计套路深?那就来看看这篇文章吧
- Visual Studio Community 2022(VS2022)安装图文方法
- 标签列表
-
- wireshark怎么抓包 (75)
- qt sleep (64)
- cs1.6指令代码大全 (55)
- factory-method (60)
- sqlite3_bind_blob (52)
- hibernate update (63)
- c++ base64 (70)
- nc 命令 (52)
- wm_close (51)
- epollin (51)
- sqlca.sqlcode (57)
- lua ipairs (60)
- tv_usec (64)
- 命令行进入文件夹 (53)
- postgresql array (57)
- statfs函数 (57)
- .project文件 (54)
- lua require (56)
- for_each (67)
- c#工厂模式 (57)
- wxsqlite3 (66)
- dmesg -c (58)
- fopen参数 (53)
- tar -zxvf -c (55)
- 速递查询 (52)