百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

X语言解析器C++实现(不知所言篇)

liebian365 2025-03-07 20:34 7 浏览 0 评论

一、为什么不知所言

纠结了很久,要不要写这一篇文章,因为最近一直在写解析AST代码,距离写完解析AST代码还需要一小段时间,没有成果输出,也不知道说些什么好。可最近确实也遇到一些问题,也多了一些思考,如果不把这些问题、思考记录下来,等时间过了,我怕我会忘记。虽然是问题,但却是宝贵的。

二、X语言关键字

编号

分类

关键字

说明


1


package

声明包

import

导入包


2


条件

if

判断语句

else

判断语句

else if

判断语句



3



循环

for

循环语句

continue

跳过当前到下一次循环执行

break

跳出整个循环

in

增强for循环遍历for in


4


分支

switch

分支语句

case

匹配分支条件

break

跳出分支条件

default

默认分支


5


变量修饰

const

不可变常量声明

let

变量声明

static

静态成员(变量/常量/函数)

private

仅内部可访问(包内/引用类型内)





6





引用类型

class

定义类型

interface

接口

implement

实现接口

this

对象自身

function

成员函数定义

trait

组合composition


7


并发

go

并发入口定义

wait

等待并发完成

三、X语言包管理

首先,X语言支持包,比如一个项目目录结构如下:

project

项目名,root根包所在,每个项目都有一个root根包


package.meta

包声明文件,每个包下面都必须有一个包声明文件


main.x

包入口文件,每个包都必须有一个main.x包入口文件,入口文件可声明包内变量、常量和函数,包含始化执行代码


package_a

目录,包含package.meta包声明文件,即为一个包



package.meta

包声明文件



main.x

包入口文件



class_a.x

除main.x外,其他包内.x文件均为类型定义文件,不允许包含包含始化执行代码,所有加载包时立即执行的代码都应在main.x中定义



class_b.x

其他类定义



...

更多类定义


package_x

更多包定义

四、X语言操作符

优先级

操作符

说明




1

.

点,主要用于访问对象的成员(如属性和方法)、调用类的方法或静态成员、以及用于包和子包的分隔

[]

顺序容器下标访问

()

函数调用或括号提升优先级



2

~

按位取反

!

逻辑非

++

前缀/后缀自增

--

前缀/后缀自减



3

*

/

%

求余


4

+

-


5

<<

左移动

>>

右移动



6

>

大于

>=

大于等于

<

小于

<=

小于等于


7

==

等于

!=

不等于

8

&

按位与

9

^

按位异或

10

|

按位或

11

&&

逻辑与

12

||

逻辑或

13

=

+=

-=

*=

/=

...

赋值及复合形式

不支持C语言中的`(type)`, `*`, `&`, `sizeof`,`?:`,`,`,即类型转换、解引用、取地址、求大小、三目条件操作符、逗号操作符,另外也不支持++或--操作出现在组合表达式中,即只能单独x++,++x,x--,--xx耽于语句。

五、遇到的问题

第一个问题:

目前边写代码边重构代码,其中重构最大的就是需要把原来的函数支持递归操作。在整个解析过程中,最复杂的部分在于表达式的解析。先看一段国际C语言混乱代码大赛的混乱代码:

#include                                     
 #include                                   <sys/time.h>
 #include                                   <X11/Xlib.h>
 #include                                  <X11/keysym.h>
                                           double L ,o ,P
                                          ,_=dt,T,Z,D=1,d,
                                          s[999],E,h= 8,I,
                                          J,K,w[999],M,m,O
                                         ,n[999],j=33e-3,i=
                                         1E3,r,t, u,v ,W,S=
                                         74.5,l=221,X=7.26,
                                         a,B,A=32.2,c, F,H;
                                         int N,q, C, y,p,U;
                                        Window z; char f[52]
                                     ; GC k; main(){ Display*e=
  XOpenDisplay( 0); z=RootWindow(e,0); for (XSetForeground(e,k=XCreateGC (e,z,0,0),BlackPixel(e,0))
 ; scanf("%lf%lf%lf",y +n,w+y, y+s)+1; y ++); XSelectInput(e,z= XCreateSimpleWindow(e,z,0,0,400,400,
 0,0,WhitePixel(e,0) ),KeyPressMask); for(XMapWindow(e,z); ; T=sin(O)){ struct timeval G={ 0,dt*1e6}
 ; K= cos(j); N=1e4; M+= H*_; Z=D*K; F+=_*P; r=E*K; W=cos( O); m=K*W; H=K*T; O+=D*_*F/ K+d/K*E*_; B=
 sin(j); a=B*T*D-E*W; XClearWindow(e,z); t=T*E+ D*B*W; j+=d*_*D-_*F*E; P=W*E*B-T*D; for (o+=(I=D*W+E
 *T*B,E*d/K *B+v+B/K*F*D)*_; p<y; ){ T=p[s]+i; E=c-p[w]; D=n[p]-L; K=D*m-B*T-H*E; if(p [n]+w[ p]+p[s
 ]== 0|K  K)N=1e4; else{ q=W/K *4E2+2e2; C= 2E2+4e2/ K
  *D; N-1E4&& XDrawLine(e ,z,k,N ,U,q,C); N=q; U=C; } ++p; } L+=_* (X*t +P*M+m*l); T=X*X+ l*l+M *M;
   XDrawString(e,z,k ,20,380,f,17); D=v/l*15; i+=(B *l-M*r -X*Z)*_; for(; XPending(e); u *=CS!=N){
                                    XEvent z; XNextEvent(e ,&z);
                                        ++*((N=XLookupKeysym
                                          (&z.xkey,0))-IT?
                                          N-LT? UP-N?& E:&
                                          J:& u: &h); --*(
                                          DN -N? N-DT ?N==
                                          RT?&u: & W:&h:&J
                                           ); } m=15*F/l;
                                           c+=(I=M/ l,l*H
                                           +I*M+a*X)*_; H
                                           =A*r+v*X-F*l+(
                                           E=.1+X*4.9/l,t
                                           =T*m/32-I*T/24
                                            )/S; K=F*M+(
                                            h* 1e4/l-(T+
                                            E*5*T*E)/3e2
                                            )/S-X*d-B*A;
                                            a=2.63 /l*d;
                                            X+=( d*l-T/S
                                             *(.19*E +a
                                             *.64+J/1e3
                                             )-M* v +A*
                                             Z)*_; l +=
                                             K *_; W=d;
                                             sprintf(f,
                                             "%5d  %3d"
                                             "%7d",p =l
                                            /1.7,(C=9E3+
                               O*57.3)%0550,(int)i); d+=T*(.45-14/l*
                              X-a*130-J* .14)*_/125e2+F*_*v; P=(T*(47
                              *I-m* 52+E*94 *D-t*.38+u*.21*E) /1e2+W*
                              179*v)/2312; select(p=0,0,0,0,&G); v-=(
                               W*F-T*(.63*m-I*.086+m*E*19-D*25-.11*u
                                )/107e2)*_; D=cos(o); E=sin(o); } }

通过分析以上混乱代码,除了不方便阅读外,一部分一部分解析,会发现,最难解析的部分在于表达式,为什么呢?因为表达式中可包含所有的操作符,是所有的操作符,特别还包括函数调用、数组下标访问、自增/自减++--加号减号可以无限长,这意味这在解析过程中,按从字符串开始到字符串结束一次遍历就能得出AST,变得不可能。

所以,不能一次遍历得出AST,这不符合我的初衷,所以要简化特性,我就把右结合性的操作尽量去掉了,包括:

1、三元条件运算符 (?:)

2、单目操作符自增/自减,必须独立语句

然后,我突然意识到Go也是做了这两个限制,真的只有在写具体解析器代码,才深刻意识到别人为什么要做某件事情的意图所在,因为别人遇到问题了,然后可能想用最简单的办法来解决了。

第二个问题:

泛型支持,目前我还没真正写到这部分,但稍微思考了下,一方面,我不想像Java那种把类型擦除,但我也不想像C++那样如此复杂,C++甚至还支持元编程,我的想法是参考Java,但不要像Java那样类型擦除,Java的泛型类型擦除,在我看来就是一个失败的设计,虽然简单,但牺牲了细微性能和未来拓展型。

第三个问题:

AST解析完成后,采用何种方案执行代码,我想过这几种:

1、直接调用C++对应函数执行

2、根据AST生成对应的c++源代码,再调用gcc编译c++源代码

3、根据AST生成自定义的字节码,采用有栈式解析调用, 后期加上JIT

4、根据AST生成汇编代码,提供运行时汇编,运行时汇编调用内核提供的系统调用

其中,1/2/4的方案,我都是有思路可以写下去的,3的话,JIT部分目前没思路如何实现。

我最倾向,第一个版本采用1,先用来验证一些问题,然后第2个版本可以使用2或4,这是我最想做的。对于方案2,我发现竟然Nim语言也是这种思路,至于4的话,Go就是这种思路,3的话,python就是这种思路,java应该也是。反正第1种思路,不是常见解决方案,但我认为第1种勉强可接受,可用于第一个版本,用来验证一些问题。

最后想说的是,大家姑且就听听我以上的啰嗦,听听有哪些问题,提出哪些解决方案,总结哪些知识等等就好了。希望一如既往得到您们的关注、点赞、订阅和评论,谢谢。

相关推荐

看黑客是如何获取你电脑最高权限的,一定要看

在渗透过程中,通过各种方式获取到一枚cmdshell,但是这个shell的权限比较低,无法让我们做我们想要做的一些操作,比如说获取系统密码,获取数据库信息,又或者比如说拿到服务器中的另一个站点的权限,...

是50个常用的Visual Basic代码示例:

以下是50个常用的VisualBasic代码示例:1.声明变量```vb...

电脑系统型号怎么看版本(如何看电脑系统型号)

有时候我们会需要进行查看电脑上安装的windows系统版本及系统版本号,但对于不懂电脑知识的小白来说要怎么查看电脑系统版本信息呢?别着急,有小编在接下来,就将查看电脑系统版本的教程来分享给你们,希望对...

dos命令systeminfo,查看系统启动时间。电脑卡慢,win10怎么了?

最近一段时间,有几个反应电脑卡慢的,都是windows10的系统。询问得知每天电脑有关机,打开任务管理器,内存使用量达到百分之九十多,而程序只打开微信、wps、360浏览器。cmd窗口运行命令syst...

systeminfo命令:全面解析系统信息!

你是否曾想过,仅凭一条简单的命令,就能深入了解计算机的"内心世界"?是不是有点不可思议?那么,让我们一起探寻这个神奇的命令,揭开它背后的奥秘吧!它能提供的信息超乎你的想象,从操作系统到硬件配置,再到驱...

电脑序列号怎么查询?只需两行命令一键查询

当我们的电脑出问题需要保修的时候,需要查询到电脑的型号和序列号才更便于进行下一步的操作,有包装盒的朋友还可以在包装盒上查询,笔记本用户可以在电脑底部标签上查询,没有包装盒和标签破损的用户就无从下手了。...

快速显示系统信息:Systeminfo命令详解

Systeminfo命令是windows系统中显示系统信息的命令,此命令可以显示出计算机的操作系统的详细配置信息,包括操作系统配置、安全信息、产品ID和硬件属性(如RAM、磁盘空间和网卡)。使用...

dos命令systeminfo图文教程,显示操作系统配置信息msinfo32

大家好,我是老盖,首先感谢观看本文,本篇文章做的有视频,视频讲述的比较详细,也可以看我发布的视频。今天我们学习systeminfo命令,该工具显示本地或远程机器(包括服务包级别)的操作系统配置的信息,...

基于uniapp+vue3跨端仿制chatgpt实例uniapp-chatgpt

#夏日生活打卡季#...

原创新作uniapp+vue3+pinia2高仿微信App聊天

前段时间有给大家分享一个flutter3.x桌面端os系统。今天再分享一款最新原创之作uniapp-vue3-wechat聊天实例。uni-vue3-wechat采用...

UniApp开发的设备适配(uniapp服务器配置)

UniApp是一个跨平台开发框架,支持多端应用(如H5、小程序、iOS、Android等)。由于不同设备的屏幕尺寸、分辨率、操作系统等存在差异,设备适配是开发过程中需要重点关注的问题。以下是Uni...

如何用服务器搭建自己的个人网站(自己服务器怎么做网站)

这篇教程主要是告诉大家如何利用TCP和HTTP协议来完成网站的搭建。首先你需要有C/C++语言基础,且有服务器、客户端概念,如果你了解TCP或者HTTP协议的话,那么将会帮助你更快的学会如何搭建个人网...

大话C语言:字符数组(c语言字符数组教学视频)

1字符数组概述C语言中没有字符串这种数据类型,可以通过char的数组来替代。数字0(和字符'\0'等价)结尾的char数组就是一个字符串,字符串是一种特殊的char的数组。...

源码分享:在pdf上加盖电子签章(pdf怎么加电子签章)

在pdf上加盖电子签章,并不是只是加个印章图片,。而是要使用一对密钥中的私钥对文件进行签字。为啥要用私钥呢?很简单,因为公钥是公开的,其他人才可以用公钥为你证明,这个文件是你签的。这就是我们常说的:私...

C语言wcstombs函数详解:宽字符字符串到多字节的「翻译官」

核心定位wcstombs是C语言中用于将宽字符字符串转换为多字节字符串的「翻译官」,它能将宽字符(wchar_t)转换为多字节字符(如UTF-8编码的中文)。就像一位翻译官,它能将一种语言(宽字符...

取消回复欢迎 发表评论: