百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

PostgreSQL系列(三):字符串类型操作(一)

liebian365 2024-11-05 11:45 17 浏览 0 评论

上次关于数值类型的介绍太简短了点,介绍几个有意思的操作

  • 幂(^)

注意:计算出来的结果是一个float8的浮点数,也就是double

  • 平方根(|/)

设计者是一个有趣的灵魂,尽可能地在模拟数学当中的平方根符号

注意:这里得到的也是一个float8的浮点数,也就是double

  • 绝对值(@)

我以为会是|值|来表示,没想到直接一个@符号就解决了

注意:@和数值之间至少要留一个空格

还有几个常用的操作,位运算&、|,以及左移<<和右移>>

好了,就补充这么多吧,还有许多函数后面再研究介绍。

接下来看下字符串和日期

字符串

字符串分3种,前面大致介绍过

  • character

简称char,最大存储1个G的数据,定长

  • character varying

简称varchar,最大存储1个G的数据,长度可变

  • text

跟MYSQL中的text是一样的

举一个示例:

默认情况下,字符串会被存储为text类型,我们可以强制转换成其它字符串类型

这里我们可以看到text和varchar的最大存储长度,2147483647。这个值其实可以存储最大2G(准确地说,还有1个字节才到2G),而一般网上说的都是1G,我的PG版本是14,所以大家在学习和工作过程中要尽量自己亲自实践去了解下具体的情况。当然,正常情况下,我们设计系统,单个值存储不到这么大,如果有这么大,我们首先考虑的是能否从业务和系统设计2方面思考优化。

再看下转char

问题来了,1234567变成了1,再看数据类型变成了bpchar,长度为1。那思考一下,char不指定长度,默认长度就是1,那指定长度呢,再看2个测试:

取5个长度

取9个长度

当字符串长度超过char设定长度时,会自动从开头截取指定长度的字符串存储,当字符串长度小于char设定长度时,会在尾部自动补齐缺少的长度个空格

好,接下来再看下与字符串相关的函数,我们在官网上可以查到PG与字符串相关的操作函数和操作符:

首先放上链接,函数和操作符太多,先有个整体浏览:

https://www.postgresql.org/docs/current/functions-string.html

我们只取其中不太好理解的几个函数试下,未详细介绍的基本上跟Java或者C#这些开发语言中字符串提供的功能类似,类比理解一下即可。

  • text || text → text

输入:2个文本

输出:合并后的文本


  • text || anynonarray → text

输入:1个文本和一个非文本

输出:合并后的文本

和日期做拼接:

日期后面再详细介绍,这里了解一下其输出格式即可


  • btrim ( string text [, characters text ] ) → text

输入:第1个为要进行抽取的字符串,第2个为要从第1个字符串中移除的字符串。注意:字符串只去开头和结尾,如果开头和结尾找不到该字符串,则不会移除任何字符串

输出:移除开头和结尾匹配第2个参数后的字符串


  • text IS [NOT] [form] NORMALIZED → boolean

判断一个字符串是不是已经做了特定编码

输入:一个字符串,后面 is normalized是必须的,可以加上not和form表示的特定的编码格式

输出:如果与指定的编码匹配,则返回true,否则返回false

注意: 这个操作只有在服务器编码为UTF-8的情况下才有用,其它情况下返回值没有任何参考意义

说明:form表示的标准化形式有NFC、NFD、NFKC、NFKD,是Unicode 标准化形式的四种不同形式,便于在比较、搜索和其他文本处理任务中能够准确地识别等价字符串。NFC和NFD是一对,NFKC和NFKD是一对,C表示组合,D表示分解,带K表示兼容,这部分需要详细阐述,有机会可以再单独发一篇记录一下

举几个例子先有个印象:


  • bit_length ( text ) → integer

输入:1个文本

输出:文本中包含的位数,注意是位的个数

abc是3个字符,一个字符用8位表示,因此是24位

张三是中文字符,一个字符在PG里面用unicode表示要用3个字节,也就是3*8=24个字节表示,因此总共占用48个位


  • char_length ( text ) → integer

也叫character_length ( text ) → integer

输入:1个文本

输出:字符的个数,不区分中文和字母

包括特殊符号,如@等,也是当作一个字符处理


  • lpad ( string text, length integer [, fill text ] ) → text

输入:第1个为原始文本,第2个为填充后的文本长度,第3个为要填充的文本

输出:长度为第2个参数表示的长度的文本

情形一:如果长度和第1个原始文本的长度要相等,则不做填充操作

情形二:如果长度比原始文本长度小,则将原始文本从右边开始截取,保留长度为第2个参数的字符串

情形三:如果长度比原始文本长,则用第3个填充字符串填充

填充字符串按从左至右的顺序依次循环填充到原始字符串的开头,直到达到第2个参数指定的长度要求,如果要填充的个数不是填充字符串的整数倍,填充方式是从填充字符串的左边开始取满足长度要求的字符串即可

不太好理解,举个例子就明白了

原始长度为2,填充后长度为3,只需要填充一个字符,因此从填充字符串中从左至右取1个字符填充即可,即在开头加一个n


  • ltrim ( string text [, characters text ] ) → text

输入:第1个表示原始文本,第2个表示要从原始文本中抠除的字符集合

输出:抠除原始文本中出现的第2个文本后得到的文本。注意,这里只抠除原始字符串开头的文本,可以和btrim对比看下


  • normalize ( text [, form ] ) → text、

输入:第1个参数表示原始文本,第2个参数表示4个Unicode标准形式(NFC、NFD、NFKC、NFKD),先不详述,与上面的text IS [NOT] [form] NORMALIZED → boolean是一对

输出:转换后标准形式的字符串编码

同样要注意PG服务器的编码是Unicode这个前提


  • octet_length ( text ) → integer

输入:原始文本

输出:文本包含的字节数。与bit_length对比着看下。2个函数的关系就是octet_length * 8 = bit_length


  • octet_length ( character ) → integer

注意与octet_length ( text )在数据类型上的区别,因为character默认是1个字符,我们也只可以指定长度

输入:转换成char类型的原始文本

输出:转换后的文本长度

这里注意:默认时候转换只保留了1个字符,而转换成5个字符的时候,我们前面说过会在尾部填充直到有5个为止.octet_length会识别文本参数的类型是text还是char来决定调用哪个形参的方法


  • overlay ( string text PLACING newsubstring text FROM start integer [ FOR count integer ] ) → text

输入:第1个参数为原始文本,第2个表示原始文本中要进行替换的起始位置,从1开始计算而不是0,第2个表示从替换的起始位置开始要替换的字符个数,第4个表示进行替换的字符串

输出:从开始位置删除指定长度的字串,用填充串替换后得到的新字符串

看示例:

同样,如果填充的个数不是填充字符串的整数倍,会发生什么情况

所以这里不存在lpad的问题,这个函数意思就是,你告诉我原始文本从哪开始,截几个,我把这段文本删除了,换成填充字符串即可


  • position ( substring text IN string text ) → integer

输入:第1个表示要查找的子串,第2个表示原始文本

输出:子串第一次出现的位置,从1开始,如果找不到,返回值为0


  • rpad ( string text, length integer [, fill text ] ) → text

与lpad类似,这文档组织还可以优化,放到lpad下面,读者会更方便看一点。西方的思维方式确实和东方的不太一样。

输入:第1个参数是原始文本,第2个是填充后的文本长度,第3个是填充字符串,

输出:填充后达到指定长度的新字符串,原理参照lpad,这里只举例子:


  • rtrim ( string text [, characters text ] ) → text

与ltrim类似,只不过这里是从后面开始截取

输入:第1个参数表示原始文本,第2个表示要截取的字符串

输出:截取完后的字符串

直接用官方提供的示例,很直接

好了,今天先写这么多,还有不少函数,难倒不是多难,只不过细节多,这也是做软件工程里面特别要注意的一个方面,往往找不到问题的原因就是漏掉或者不清楚某个细节

相关推荐

4万多吨豪华游轮遇险 竟是因为这个原因……

(观察者网讯)4.7万吨豪华游轮搁浅,竟是因为油量太低?据观察者网此前报道,挪威游轮“维京天空”号上周六(23日)在挪威近海发生引擎故障搁浅。船上载有1300多人,其中28人受伤住院。经过数天的调...

“菜鸟黑客”必用兵器之“渗透测试篇二”

"菜鸟黑客"必用兵器之"渗透测试篇二"上篇文章主要针对伙伴们对"渗透测试"应该如何学习?"渗透测试"的基本流程?本篇文章继续上次的分享,接着介绍一下黑客们常用的渗透测试工具有哪些?以及用实验环境让大家...

科幻春晚丨《震动羽翼说“Hello”》两万年星间飞行,探测器对地球的最终告白

作者|藤井太洋译者|祝力新【编者按】2021年科幻春晚的最后一篇小说,来自大家喜爱的日本科幻作家藤井太洋。小说将视角放在一颗太空探测器上,延续了他一贯的浪漫风格。...

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

作者:麦子KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。你需要了解你的分子目前已有哪些...

知存科技王绍迪:突破存储墙瓶颈,详解存算一体架构优势

智东西(公众号:zhidxcom)编辑|韦世玮智东西6月5日消息,近日,在落幕不久的GTIC2021嵌入式AI创新峰会上,知存科技CEO王绍迪博士以《存算一体AI芯片:AIoT设备的算力新选择》...

每日新闻播报(September 14)_每日新闻播报英文

AnOscarstatuestandscoveredwithplasticduringpreparationsleadinguptothe87thAcademyAward...

香港新巴城巴开放实时到站数据 供科技界研发使用

中新网3月22日电据香港《明报》报道,香港特区政府致力推动智慧城市,鼓励公私营机构开放数据,以便科技界研发使用。香港运输署21日与新巴及城巴(两巴)公司签署谅解备忘录,两巴将于2019年第3季度,开...

5款不容错过的APP: Red Bull Alert,Flipagram,WifiMapper

本周有不少非常出色的app推出,鸵鸟电台做了一个小合集。亮相本周榜单的有WifiMapper's安卓版的app,其中包含了RedBull的一款新型闹钟,还有一款可爱的怪物主题益智游戏。一起来看看我...

Qt动画效果展示_qt显示图片

今天在这篇博文中,主要实践Qt动画,做一个实例来讲解Qt动画使用,其界面如下图所示(由于没有录制为gif动画图片,所以请各位下载查看效果):该程序使用应用程序单窗口,主窗口继承于QMainWindow...

如何从0到1设计实现一门自己的脚本语言

作者:dong...

三年级语文上册 仿写句子 需要的直接下载打印吧

描写秋天的好句好段1.秋天来了,山野变成了美丽的图画。苹果露出红红的脸庞,梨树挂起金黄的灯笼,高粱举起了燃烧的火把。大雁在天空一会儿写“人”字,一会儿写“一”字。2.花园里,菊花争奇斗艳,红的似火,粉...

C++|那些一看就很简洁、优雅、经典的小代码段

目录0等概率随机洗牌:1大小写转换2字符串复制...

二年级上册语文必考句子仿写,家长打印,孩子照着练

二年级上册语文必考句子仿写,家长打印,孩子照着练。具体如下:...

一年级语文上 句子专项练习(可打印)

...

亲自上阵!C++ 大佬深度“剧透”:C++26 将如何在代码生成上对抗 Rust?

...

取消回复欢迎 发表评论: