mal 是 GitHub 上的一個開源項目,這是關于它的簡單的介紹:使用75種語言編寫一個 Lisp 解釋器。
這是 mal 語言的語法簡介和由 JS 實現的一個在線 repl。
在這篇文章中,我們會依托 mal 提供的步驟說明,講講如何實現一個簡單的 Lisp 解釋器。在步驟說明中介紹的內容,我們不會過多重復。
簡單了解解釋器
解釋器是將一種編程語言的代碼逐句解釋執行的軟件。要實現解釋器的功能,至少要實現以下的功能:
輸入
讀取輸入字符串:程序代碼是以字符串的形式輸入的。
預處理
- 詞法解析:把字符串轉化為 token,類似于自然語言中的分詞、斷句。例如把
(+ 1 2)
轉化為(
,+
,1
,2
和)
。 - 語法解析:把 token 的序列轉化為解釋器內部能夠理解的數據結構,即抽象語法樹(AST)。例如,把由
( def a ( - (+ 1 2 ) 3 ) )
組成的序列轉化為:
// 示意:
( def a
( -
(+ 1 2 )
3 ))
當然,上面的形式只是個示意,假如實現解釋器的語言是 Java,數據結構可能會是一個嵌套的數組,每層數組可能會表示一個運算(例如 def, - 或者 +)。
解釋執行
解釋器的核心,將抽象語法樹解釋為目標語言(在本項目里就是你用來實現解釋器的語言)的程序,并執行。
輸出
將程序運行的結果(可能是字符串、數值或者其他的數據形式)轉化為字符串的形式輸出。
相比其它語言的解釋器,Lisp 解釋器的優勢是詞法解析和語法解析的過程非常簡單,因為一個 Lisp 程序本身幾乎就是一個抽象語法樹了,而像 Java、Swift 之類語法更復雜的語言,詞法解析和語法解析的過程會復雜的多。這樣,從學習的角度出發,實現一個 Lisp 解釋器可以更專注于解釋器的核心功能上。
第0步:搭建框架
建立 READ, EVAL, PRINT 三個主要模塊,以及把他們連起來的 rep()。
只是搭建一個骨架而已,編碼毫無難度。
問題有可能出現在命令行操作和寫 Makefile 上,好在用到的也都是基本操作,可以簡單看一下教學,如果你用的語言已經由別人實現過,也可以借用別人寫好的 Makefile。
參考資料:
The Linux Command Line (英文版)
The Linux Command Line (中文版)
跟我一起寫 Makefile
Make 命令教程
第1步:讀取和打印
前面講了解釋器的四項工作:輸入、預處理、解釋執行、輸出。這一步完成輸入、預處理、和輸出部分,其中預處理部分包含在輸入中。
tokenizer() 函數負責詞法分析。
read_form() 函數負責語法分析。
可能遇到的問題:正則表達式。這個我沒有網上資源推薦給你,你可以自己找一下;我使用的是實體書《精通正則表達式》。注意:正則表達式有不同流派,項目 guide 中使用的是 PCRE 。
注意:
項目中的任務有的被標識為 optional 或者 deferable。
跳過 optional(可選的)任務不會影響后續任務,但有可能導致單元測試中出現錯誤。
跳過 deferable (可推遲)的任務可能會導致后面的步驟執行不暢,而且將來返工可能會更麻煩一點,所以建議盡最大努力完成,如果確定要跳過,也請盡早回頭補上。
這一步中的 deferable 任務可能顯得難一點,如果你要跳過,至少看一眼這項任務都是什么,心理先有個數。
第2步:求值
Lisp 程序需要遞歸地執行兩個相互調用的步驟:求值 eval 和應用 apply。解釋器對一個列表(List)求值,首先要對這個列表的每個元素求值,然后將操作符(第一個元素)應用到被操作數(其它元素)上。
例如,對于列表 (+ a ( + 1 2 ))
求值:
- 需要先分別求值
+
,a
,( + 1 2 )
,然后將+
的值應用到a
和( + 1 2 )
的值上。 -
+
的求值結果為 "將操作數加到一起的操作";a
如果有定義,它的求值結果就是變量 a 綁定的值;而( + 1 2 )
并不能直接得到,需要將求值應用循環對( + 1 2 )
執行一次。 - 求值:分別求出
+
,1
,2
的值,+
的值已經知道了,1
,2
作為整數是自求值對象,對它們求值的結果是它們本身。這樣,所有的值都得到了。 - 應用:將
+
應用到1
,2
上,得到 3。 - 回到外層的 List ,假設 a 的值為 5。那么 將
+
應用到5
,3
上,得到 8。 - 8 就是這個 List 求值的結果。
在 mal 項目中,基本上 EVAL()
函數負責的是應用的部分,eval_ast()
函數負責的是求值的部分。
第3步:環境
在上一步的例子中,有個未解決的問題。解釋器是怎么知道變量a的值?更進一步,解釋器是怎么知道 +
代表求和的運算的?
在上一步中定義的 repl_env
就相當于一個全局的環境 Environment。解釋器如果想知道任何變量(包括函數名)的值,都可以在 repl_env
中查找。但在大多數真實存在的編程語言中,并不是所有的變量都是全局變量,變量是有自己的作用域的。例如:
function foo() {
var x = 1
{
var y = 0
print(x)
}
print(y)
}
上面的實例語言和很多真實的語言一樣,使用大括號作為作用域的開始和結束。
對于大多數語言,print(x)
會打印 1
,因為第一個 print()
在自己的作用域中找不到 x
的值,它會繼續逐級向上層尋找,在上一層找到 x = 1
;而print(y)
很可能會報錯,因為它找不到 y
的定義。
在 mal 中 let*
會生成新的環境,而 def!
會修改當前的環境。除了全局環境外,每個環境都有它的外層環境。大多數其他語言的工作原理也是類似的,只不過它們實現環境的方法一般會高效的多。
第4步:函數定義和控制流
之前實現的求值和環境組成了一個解釋器最核心的部分,而有了這一步實現函數定義和控制流功能后,mal 看起來已經像一個能用的真正的編程語言了。
如何實現定義函數閉包略微有一點燒腦:
以當前環境為外層環境,創建一個新的環境。在新的環境中,函數的每個形參作為鍵,調用函數使用的實參作為值。將函數體在這個新的環境中求得的值作為返回值。
而上面說的的這一切不是即刻執行的,而是定義在一個閉包之中,直到對這個閉包求值時才會執行。
通過一個簡單的例子想一下:
function bar (left, right) {
return left * right + left
}
上面定義了一個將兩個數相乘再加上第一個數的函數,并給這個函數起名字叫 bar
,相當于 mal 中的 :
(def! (fn (left right)
(函數體...) )
bar)
定義一個函數會保存兩個信息:參數列表(left, right)
和函數體 { return left * right + left }
。除了這些數據,還要告訴函數的執行者使用函數時怎么繼續操作:
- 在函數體中,把所有形參
(left, right)
替換為實參,例如當執行bar (3, 5)
時,就是把函數體變成{ return 3 * 5 + 3 }
。 - 對替換后的函數體求值就得到了想要的值。
第5步:尾調用優化
遞歸和迭代是程序設計領域中兩個重要的概念。一般來說遞歸程序更容易設計,但由于大量的遞歸調用會消耗更多的棧空間,所以在執行時時間和空間效率往往低于程序的迭代版本,而且有可能導致棧溢出。
尾調用優化(尾遞歸優化)可以將符合特定條件的遞歸過程轉化為迭代過程,這樣可以提高程序的性能。
尾調用優化的條件是,外層函數執行的最后一步是調用內層函數,符合這種條件時,解釋器可以自動執行尾調用優化。
例子(來源:阮一峰的博客):
寫一個求階乘的函數
function factorial (n) {
if (n == 1) return 1;
return n * factorial(n - 1);
}
factorial(5) // 120
上面的函數是一個遞歸函數,但不是尾遞歸,因為它的最后一步不是調用factorial(n - 1)
,而是一個乘法。
把它改寫成尾遞歸的形式:
function factorial(n, total) {
if (n === 1) return total;
return factorial(n - 1, n * total);
}
factorial(5, 1) // 120
這樣它就變成了一個可以優化的尾遞歸函數了。
總結一下,這個求遞歸函數的核心就是反復地使用 n 和部分積相乘,在第一個例子中是 n * factorial(n - 1)
,在第二個例子中是 n * total
。程序的其他部分都是用于保證相乘能正確地繼續執行和恰當地停止。
按著這個思路,手動把尾遞歸變成迭代過程:
function factorial(n, total) {
while ( n > 1 ) {
total = n * total
n = n - 1
}
return total;
}
factorial(5, 1) // 120
把函數的核心部分用一個 while 循環包裹起來,在合適的時候結束迭代。mal 解釋器實現的尾調用優化,大致也是這個原理。
待續。