百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

hex,base64,urlencode编码方案对比

liebian365 2024-10-24 14:34 7 浏览 0 评论

原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。

简介

在工作过程中,我们慢慢会了解到hex、base64、urlencode这3种常见的字节编码方案,它们是如此的熟悉,可是经常我们自己也说不清为啥要使用它们,下面我会详细解释下。

hex编码

hex编码,又称十六进制编码(也称base16),一般用于方便人们查看二进制文件内容,它将字节数据中的每4个bit使用数字(0-9)、字母(A-F)共16个字符等效表示,由于一个字节有8个bit,所以一个字节会被编码为2个hex字符,具体规则如下:

Linux中可使用xxd来做hex编解码,如下:

# abc这3个英文字符会被echo编码为3个字节,然后被xxd编码为6个hex字符
$ echo -n abc|xxd -ps
616263 
# 解码hex数据
$ echo 616263|xxd -ps -r
abc

base64编码

base64编码,它将字节数据中的每6个bit使用字母(a-zA-Z)、数字(0-9)、+、/总共64个字符等效表示,故每3个字节(8bit)会被编码为4个base64中的字符。 由于数据中的字节数不一定是3的整数倍,当字节数对3求模后,多1个字节时,那个字节会被编码为2个字符加2个=号(填充字符),多2个字节时,这2个字节会被编码为3个字符加1个=号(填充字符),刚好整除时,则不需要=号填充,具体规则如下:


Linux下可以使用base64这个命令做base64编解码

# 3个字母等于3个字节,所以会编码为4个base64字符,并没有=号
$ echo -n abc | base64
YWJj 
# 1个字节会被编码为2个base64字符,另加2个=号填充
$ echo -n a | base64
YQ==
# 2个字节会被编码为3个base64字符,另加1个=号填充
$ echo -n ab|base64
YWI=
# 解码base64数据
$ echo YWI= | base64 -d
ab

另外,base64编码有一些常见的变种,以下3种是常见的:

  1. MimeBase64 每76个字符后会添加换行符\r\n,便于阅读。
  2. UrlBase64 由于Base64编码使用了+ /两个字符,这与url命名规则冲突(/在url中是路径分隔符,+会被urldecode为空格字符),这个变种将+ /这两个字符更换为- _,如下:
  3. NoPaddingBase64 由于Base64编码是对6bit进行编码,数据以8bit存储,当字节数不是3的整数倍时需要=号填充,这种方案就是去掉了=号,从上面的编码示例中也可以看出,加=号填充纯粹是为了保持base64编码字符串长度为4的整数倍,去掉=号其实不影响解析。

urlencode编码

urlencode编码,看名字就知道是设计用来给url编码的,对于a-zA-Z0-9.-_ ,urlencode都不会做任何处理原样输出,而其它字节会被编码为%xx(16进制)的形式,其中xx就是这个字节对应的hex编码。

Linux下gridsite-clients包实现了urlencode命令,如下:

$ sudo apt install gridsite-clients
$ urlencode 'a b'
a%20b
$ urlencode -d a%20b
a b

使用python也很容易实现urlencode,可将其定义为 Linux 命名别名,方便使用,如下:

alias urlencode='python -c "import sys, urllib as ul; print ul.quote_plus(sys.argv[1])"'
alias urldecode='python -c "import sys, urllib as ul; print ul.unquote_plus(sys.argv[1])"'

另外,不同的urlencode实现上也有些差异,比如某些urlencode会将空格编码为+(W3C标准规定),而另外一些实现中,空格会被编码为%20(RFC 2396)。

注:java中的URLEncoder、javascript中的encodeURIComponent、html表单提交中的application/x-www-form-urlencode,这些都会将空格编码为+,而一些web服务器在进行某些urldecode时会不认识+号,所以在使用这些函数进行urlencode编码时,最好将编码后的+替换为%20,如URLEncoder.encode(bytes, "UTF-8").replace("+", "%20")

两次urlencode解决乱码

在最开始遇到乱码问题时,在网上搜到一种 “客户端两次urlencode,服务端一次urldecode” 的乱码解决方案,并声称这样能彻底解决乱码。 然后很长一段时间我都是这样实践的,但一直不知道为什么,直到有一次我调试乱码问题调试到tomcat里面去才发现真相,原来web服务器对url都会自动做一次urldecode,urldecode后的字节使用server.xml中配置的uri-encoding字符编码转换成字符串,而如果uri-encoding这个字符编码配置与客户端使用的不同,就会出现乱码,下面用2个示例模拟一下:

  1. 客户端使用UTF-8进行一次urlencode,服务端tomcat使用uri-encoding的默认编码ISO-8859-1为例:
String sendParam = "好";
// 使用UTF-8进行urlencode,'好'编码为 %E5%A5%BD
String urlencodeSendParam = URLEncoder.encode(sendParam, "UTF-8");

//....这里表示数据从客户端传至服务端
String urlencodeReceivedParam = urlencodeSendParam;
// 使用ISO-8859-1进行urldecode后,%E5%A5%BD解码为乱码 ?¥? ,注意这个解码是web服务器自动进行的
String receivedParam = URLDecoder.decode(urlencodeReceivedParam, "ISO-8859-1");
// 会输出乱码 ?¥?
System.out.println(receivedParam);
  1. 如果客户端做两次urlencode,服务端做一次urldecode,过程如下:
String sendParam = "好";
// 使用UTF-8进行urlencode,'好'编码为%E5%A5%BD
String urlencodeSendParam = URLEncoder.encode(sendParam, "UTF-8");
// 再使用UTF-8进行urlencode,%E5%A5%BD 编码为 %25E5%25A5%25BD
String urlencodeSendParam2 = URLEncoder.encode(urlencodeSendParam, "UTF-8");

//....这里表示数据从客户端传至服务端
String urlencodeReceivedParam2 = urlencodeSendParam2;
// 使用ISO-8859-1进行urldecode后,%25E5%25A5%25BD 解码为%E5%A5%BD,注意这个解码是web服务器自动进行的
String urlencodeReceivedParam = URLDecoder.decode(urlencodeReceivedParam2, "ISO-8859-1");
// 使用UTF-8进行urldecode后,%E5%A5%BD解码为'好'
String receivedParam = URLDecoder.decode(urlencodeReceivedParam, "UTF-8");
// 会输出正确的'好'字
System.out.println(receivedParam);

从上面的两个示例中,应该不难看出,之所以前端2次编码,后端1次解码不会出现乱码,是因为前端在第1次urlencode后,数据就已经变成了纯英文,而纯英文先使用UTF-8的urlencode编码,再使用ISO-8859-1的urldecode解码,是可以完全还原数据的。另外,由于服务端的第二次urldecode是你自己写的,字符编码当然会和前端使用一致的UTF-8,故字被无误的还原回来了。

为什么说英文可以先使用UTF-8的urlencode编码,再使用ISO-8859-1的urldecode解码呢?原因是java中的URLEncoder类其实是做了两件事,先使用字符编码将字符串转换为字节,然后对字节进行urlencode编码,因为urlencode算法本质作用就是将字节数据编码为等效的英文字符表示,只不过URLEncoder类将其封装为一步了,等效代码如下:

// 1. 使用字符编码,将字符串转换为字节串,因为urlencode是用来处理字节数据的
byte[] bytes=str.getBytes(charset);
// 2. 将字节数据,使用urlencode算法,编码为英文字符串
String urlencodeStr = urlencode(bytes);

而对于UTF-8与ISO-8859-1来说,它们都是兼容ASCII码的,所以对于纯英文的urlencode编解码,编码数据是可以正确解码的,不信你可以把ISO-8859-1变成UTF-16试试,由于UTF-16是不兼容ASCII的,所以上面的方案处理后依然为乱码。

ps,虽然这种方案基本可以完美解决乱码(基于大多数主流字符编码兼容ASCII),但由于第二次urlencode编码又会将%编码为%25,使得数据体积增大不少,所以非必要情况下,还是不要滥用比较好,能都用UTF-8就都用UTF-8吧。我以前经历过的项目都比较奇葩,多种编码混搭,才导致我要如此了解编码机制[-_-]

这些编码有啥用?

这些编码的本质作用都是将字节数据转换为等效的纯英文形式,主要用在那些不方便查看、存储或传输原始字节数据的地方。
比如在html中,因为html本身就是纯文本的,不能直接放入原始字节数据,这时,我们可以将一些小图标(非文本数据)通过base64编码的方式内嵌到html中,以使得html页面与图标数据能在一次网络交互中返回,这种方案也称Data URI。

对比

  1. hex编码
    就算原文件是纯英文内容,编码后内容也和原文完全不一样,普通人难以阅读,但由于只有16个字符,听说一些程序员大牛能够记下他们的映射关系,从而达到读hex编码和读原文一样的效果。另外,数据在经过hex编码后,空间占用变成了原来的2倍。
  2. base64编码
    由64个字符组成,比hex编码更难阅读,但由于每3个字节会被编码为4个字符,所以,空间占用会是原来的4/3,比hex要节省空间。另外要注意的是,虽然Base64编码后的数据难以阅读,但不能将其做为加密算法使用,因为它解码都不需要你提供密钥啊。
  3. urlencode编码
    由于英文字符原样保留,对于以英文为主的内容,可读性最好,空间占用几乎不变,而对于非英文内容,每个字节会被编码为%xx的3个字符,空间占用是原来的3倍,所以urlencode是一个对英文友好的编码方案。

总结

除了hex,base64,urlencode编码之外,其实还有base32,base58这样的编码,但它们只是编码方式不同罢了,本质作用是相同的,即将字节数据转换为等效的纯英文表示,方便传输与存储

相关推荐

快递查询教程,批量查询物流,一键管理快递

作为商家,每天需要查询许许多多的快递单号,面对不同的快递公司,有没有简单一点的物流查询方法呢?小编的回答当然是有的,下面随小编一起来试试这个新技巧。需要哪些工具?安装一个快递批量查询高手快递单号怎么快...

一键自动查询所有快递的物流信息 支持圆通、韵达等多家快递

对于各位商家来说拥有一个好的快递软件,能够有效的提高自己的工作效率,在管理快递单号的时候都需要对单号进行表格整理,那怎么样能够快速的查询所有单号信息,并自动生成表格呢?1、其实方法很简单,我们不需要一...

快递查询单号查询,怎么查物流到哪了

输入单号怎么查快递到哪里去了呢?今天小编给大家分享一个新的技巧,它支持多家快递,一次能查询多个单号物流,还可对查询到的物流进行分析、筛选以及导出,下面一起来试试。需要哪些工具?安装一个快递批量查询高手...

3分钟查询物流,教你一键批量查询全部物流信息

很多朋友在问,如何在短时间内把单号的物流信息查询出来,查询完成后筛选已签收件、筛选未签收件,今天小编就分享一款物流查询神器,感兴趣的朋友接着往下看。第一步,运行【快递批量查询高手】在主界面中点击【添...

快递单号查询,一次性查询全部物流信息

现在各种快递的查询方式,各有各的好,各有各的劣,总的来说,还是有比较方便的。今天小编就给大家分享一个新的技巧,支持多家快递,一次能查询多个单号的物流,还能对查询到的物流进行分析、筛选以及导出,下面一起...

快递查询工具,批量查询多个快递快递单号的物流状态、签收时间

最近有朋友在问,怎么快速查询单号的物流信息呢?除了官网,还有没有更简单的方法呢?小编的回答当然是有的,下面一起来看看。需要哪些工具?安装一个快递批量查询高手多个京东的快递单号怎么快速查询?进入快递批量...

快递查询软件,自动识别查询快递单号查询方法

当你拥有多个快递单号的时候,该如何快速查询物流信息?比如单号没有快递公司时,又该如何自动识别再去查询呢?不知道如何操作的宝贝们,下面随小编一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号若干...

教你怎样查询快递查询单号并保存物流信息

商家发货,快递揽收后,一般会直接手动复制到官网上一个个查询物流,那么久而久之,就会觉得查询变得特别繁琐,今天小编给大家分享一个新的技巧,下面一起来试试。教程之前,我们来预览一下用快递批量查询高手...

简单几步骤查询所有快递物流信息

在高峰期订单量大的时候,可能需要一双手当十双手去查询快递物流,但是由于逐一去查询,效率极低,追踪困难。那么今天小编给大家分享一个新的技巧,一次能查询多个快递单号的物流,下面一起来学习一下,希望能给大家...

物流单号查询,如何查询快递信息,按最后更新时间搜索需要的单号

最近有很多朋友在问,如何通过快递单号查询物流信息,并按最后更新时间搜索出需要的单号呢?下面随小编一起来试试吧。需要哪些工具?安装一个快递批量查询高手快递单号若干怎么快速查询?运行【快递批量查询高手】...

连续保存新单号功能解析,导入单号查询并自动识别批量查快递信息

快递查询已经成为我们日常生活中不可或缺的一部分。然而,面对海量的快递单号,如何高效、准确地查询每一个快递的物流信息,成为了许多人头疼的问题。幸运的是,随着科技的进步,一款名为“快递批量查询高手”的软件...

快递查询教程,快递单号查询,筛选更新量为1的单号

最近有很多朋友在问,怎么快速查询快递单号的物流,并筛选出更新量为1的单号呢?今天小编给大家分享一个新方法,一起来试试吧。需要哪些工具?安装一个快递批量查询高手多个快递单号怎么快速查询?运行【快递批量查...

掌握批量查询快递动态的技巧,一键查找无信息记录的两种方法解析

在快节奏的商业环境中,高效的物流查询是确保业务顺畅运行的关键。作为快递查询达人,我深知时间的宝贵,因此,今天我将向大家介绍一款强大的工具——快递批量查询高手软件。这款软件能够帮助你批量查询快递动态,一...

从复杂到简单的单号查询,一键清除单号中的符号并批量查快递信息

在繁忙的商务与日常生活中,快递查询已成为不可或缺的一环。然而,面对海量的单号,逐一查询不仅耗时费力,还容易出错。现在,有了快递批量查询高手软件,一切变得简单明了。只需一键,即可搞定单号查询,一键处理单...

物流单号查询,在哪里查询快递

如果在快递单号多的情况,你还在一个个复制粘贴到官网上手动查询,是一件非常麻烦的事情。于是乎今天小编给大家分享一个新的技巧,下面一起来试试。需要哪些工具?安装一个快递批量查询高手快递单号怎么快速查询?...

取消回复欢迎 发表评论: