类C语言词法分析器设计
一、问题描述
词法分析器是编译工作的第一个阶段,主要完成对源程序的扫描,从而将源程序转换成单词序列,作为第二阶段语法分析的输入。
二、需求分析
预处理:过滤掉跳格符、回车符、换行符等编辑性字符。将多个连续的空格合并成一个空格。过滤注释。
单词符号的识别,将每个单词符号进行不同类别的划分。单词符号可划分成5种。
关键字:如if、else、while、int、float等。
标识符:用户自己定义的名字,常量名、变量名和过程名。
常数:各种类型的常数
运算符:如+、-、*、<、>、>=等。
届符:如逗号、分号、括号等。
最后将所有的单词符号转化为便于计算机处理的机内码形式
用户界面使用图形化界面
三、概要设计
1、 字符集说明:本词法分析演示的是C语言的一个子集,字符集如下:
(1) 关键字:int,long,float,double,char,short,void,if,else,for,while,do,break,switch,
continue,case,default,return,static,struct
(2) 运算符:+,-,*,/,%,>,<,=,!=,==,<=,>=,++,--,!,&,&&,||,[]
(3) 界符:,,;,{,},(,),:,’,”,#
(4) 标识符:以字母开头的字母数字串。
(5) 常数:整型或浮点型。
2、 字符集的内编码形式:
字符 机内编码 字符 机内编码
int 1 = 26
long 2 > 27
char 3 < 28
if 4 ! 29
else 5 == 30
for 6 != 31
while 7 >= 32
return 8 <= 33
break 9 ++ 34
continue 10 -- 35
switch 11 & 36
case 12 && 37
default 13 || 38
float 14 [ 39
double 15 ] 40
void 16 , 41
struct 17 ; 42
static 18 ( 43
do 19 ) 44
short 20 { 45
+ 21 } 46
- 22 ‘ 47
* 23 “ 48
/ 24 : 49
% 25 # 50
如果是用户自己定义的标识符则机内码为51;
如果是常数,则机内码为52。
错误则用0表示机内码。
3、 相关变量说明:
(1) keyword[]:{"int","long","char","if","else","for","while","return","break",
"continue","switch","case","default","float","double","void","struct","static","do","short"};
(2) operater[]:{"+","-","*","/","%","=",">","<","!","==","!=",">=","<=","++","--",
"&","&&","||","[","]"};
(3) delimeter[]:{",",";","(",")","{","}","\'","\"",":","#"};
(4) 说明:1--20号为关键字,可直接用下标表示,i+1就是其机内码,21--40为运算符,间接下标:i+21就是其机内码, 41--50为界符,直接下标:i+41就是其机内码;
如果是用户自己定义的标识符,则其机内码为51;如果是常数,则其机内码是52;如果是
错误,则机内码为0.
4、 主要类说明:
(1) Analysis类:接收源程序,进行词法分析工作,再将分析结果传到用户界面。
(2) UserFrame类:不参与词法分析工作,只提供用户操作界面。接收用户的输入,并产生输出。
5、 主要方法说明:
(1)preTreat():预处理,消除跳格符、换行符和回车符,合并空格并消除注释。
(2)doAnalysis():主分析函数,通过调用一系列子函数,完成分析工作并输出结果。
(3)divide():完成字符的分解,返回一个独立的字符串(可能是关键字、标识符、运算符、界符或者数字串)。
(4)check():对divide()返回的字符串进行检查,判断其是数字串、单个字符还是字符串,返回不同标志。1:数字;2:单个字符;3:多个字符
(5)checkDigit():如果check()返回的是数字串,则调用该函数判断其是整型还是浮点型,返回不同标志。是正常的数字类型则返回常数对应的机内码,否则,返回错误的机内码。
(6)checkChar():如果check()返回的是单个字符,则调用该函数判断其是标识符、运算符还是界符,返回其对应的机内码。
(7)checkString():如果check()返回的是字符串,则调用该函数判断其是关键字、标识符还是运算符,返回其机内码。