為什么要學(xué)習(xí)編譯器和解釋器呢?文中的作者給出的答案有下面幾個(gè):
- 為了深入理解計(jì)算機(jī)是如何工作的:一個(gè)顯而易見的道理就是,如果你不懂編譯器和解釋器是如何工作的那么你就不明白計(jì)算機(jī)是如何工作的
- 編譯器和解釋器用到的一些原理和編程技巧以及算法在其他地方也可以用到。學(xué)習(xí)編譯器和解釋器能夠?qū)W到并強(qiáng)化這些技巧的運(yùn)用
- 為了方便日后能編寫自己的編程語(yǔ)言或者專用領(lǐng)域的特殊語(yǔ)言
接下來(lái)我們就從0開始一步一步的構(gòu)建自己的解釋器。跟著教程先制作一個(gè)簡(jiǎn)單的加法計(jì)算器,為了保證簡(jiǎn)單,這個(gè)加法計(jì)算器能夠解析的表達(dá)式需要滿足下面幾點(diǎn):
- 目前只支持加法運(yùn)算
- 目前只支持兩個(gè)10以內(nèi)的整數(shù)的計(jì)算
- 表達(dá)式之間不能有空格
- 只能計(jì)算一次加法
舉一個(gè)例子來(lái)說(shuō),它可以計(jì)算諸如"1+2"、"5+6" 這樣的表達(dá)式,但是不能計(jì)算像 "11+20"(必須是10以內(nèi))、"1.1+2"(需要兩個(gè)數(shù)都是整數(shù))、"1 + 2"(中間不能有空格)、"1+2+3"(只能計(jì)算一次加法)
有了這些限制,我們很容易就能實(shí)現(xiàn)出來(lái)。
實(shí)現(xiàn)的算法
假設(shè)我們要計(jì)算表達(dá)式 5+6
。這里主要的步驟是通過(guò)字符串保存表達(dá)式,然后通過(guò)索引依次訪問(wèn)每個(gè)字符,分別找到兩個(gè)整數(shù)和加法運(yùn)算符,最后實(shí)現(xiàn)兩個(gè)整數(shù)相加的操作。
第一步,我們的索引在表達(dá)式字符串的開始位置,解析得到當(dāng)前位置的字符是一個(gè)整數(shù),我們給它打上標(biāo)記,類型為整形,值為5。
第二步,索引向前推進(jìn),解析當(dāng)前位置的字符是一個(gè)+
。還是給它打上標(biāo)記,類型為plus
,值為+
。
第三步,索引繼續(xù)前進(jìn),解析到當(dāng)前位置的字符是一個(gè)整數(shù),我們給它打上標(biāo)記,類型為整形,值為6
最后一步,根據(jù)得到的兩個(gè)整數(shù)以及要執(zhí)行的算術(shù)運(yùn)算,我們將兩個(gè)數(shù)直接進(jìn)行相加得到最終結(jié)果
具體的代碼
首先我們定義這個(gè)標(biāo)記的類型,目前支持整數(shù)以及加法的標(biāo)記
typedef enum e_TokenType
{
CINT = 0, //整型
PLUS //加法運(yùn)算符
}ETokenType;
// 這里因?yàn)橹恢С?0以內(nèi)的整數(shù),所以表示計(jì)算數(shù)字的字符只有一個(gè),加上字符串最后的結(jié)束標(biāo)記,字符數(shù)組只需要兩個(gè)即可
typedef struct Token
{
ETokenType type; //類型
char value[2]; //值
}Token, *LPTOKEN;
接著定義一些全局變量來(lái)保存算術(shù)運(yùn)算的表達(dá)式和當(dāng)前指針的索引
char* g_pszUserBuf = NULL;
char* g_pPosition = NULL;
接著我們定義一個(gè)函數(shù)來(lái)模擬上述說(shuō)到的不斷解析每一個(gè)字符的過(guò)程
bool get_next_token(LPTOKEN pToken)
{
char* sz = g_pPosition;
g_pPosition++;
pToken->value[0] = '\0';
if (*sz >= '0' && *sz <= '9')
{
pToken->type = CINT;
pToken->value[0] = *sz;
return true;
}
else if (*sz == '+')
{
pToken->type = PLUS;
pToken->value[0] = *sz;
return true;
}
else
{
pToken->value[0] = '\0';
return false;
}
}
最后我們定義一個(gè)函數(shù)來(lái)執(zhí)行獲取每個(gè)標(biāo)記并最終計(jì)算結(jié)果的操作
int expr()
{
int val1 = 0, val2 = 0;
Token token = { 0 };
if (get_next_token(&token) && token.type == CINT)
{
val1 = atoi(token.value);
}
else
{
printf("首個(gè)字符必須是整數(shù)");
return -1;
}
if (get_next_token(&token) && token.type == PLUS)
{
}
else
{
printf("第二個(gè)字符必須是操作符,并且當(dāng)前只支持 + 運(yùn)算");
return -1;
}
if (get_next_token(&token) && token.type == CINT)
{
val2 = atoi(token.value);
}
printf("%d+%d=%d\n", val1, val2, val1 + val2);
}
在main
函數(shù)里面我們只需要建立一個(gè)緩沖來(lái)保存字符,并且在循環(huán)中不斷等待用戶輸入,完成解析并輸出結(jié)果即可
// 重制當(dāng)前解析環(huán)境
void reset()
{
memset(g_pszUserBuf, 0x00, 16 * sizeof(char));
scanf_s("%s", g_pszUserBuf);
g_pPosition = g_pszUserBuf;
}
int main()
{
g_pszUserBuf = (char*)malloc(16 * sizeof(char));
while (1)
{
printf(">>>");
reset();
if (strcmp(g_pszUserBuf, "exit") == 0)
{
break;
}
expr();
}
return 0;
}
最終執(zhí)行的結(jié)果如下
最后的總結(jié)
程序我們已經(jīng)寫完了,你可能覺(jué)得這個(gè)程序太簡(jiǎn)單了,只能做這點(diǎn)事情。別著急,后面將會(huì)逐步的去完善這個(gè)程序。以便它能實(shí)現(xiàn)更加復(fù)雜的運(yùn)算。
最后我們來(lái)引入一些概念性的東西:
- 我們將輸入內(nèi)容按照一定規(guī)則打上的標(biāo)記被稱之為Token
- 上述get_next_token函數(shù)體現(xiàn)的將一段字符串分割并打上有意義的標(biāo)簽的過(guò)程被稱為詞法分析。
- 解釋器工作的第一步就是將輸入的字符串按照一定的規(guī)則轉(zhuǎn)換為一系列有意義的標(biāo)記。完成這個(gè)工作的組件被稱之為詞法分析器,也可以被稱為掃描器或者分詞器