使用 mal ,寫一個 Lisp 解釋器(上)

mal 是 GitHub 上的一個開源項目,這是關于它的簡單的介紹:使用75種語言編寫一個 Lisp 解釋器
這是 mal 語言的語法簡介和由 JS 實現的一個在線 repl。

在這篇文章中,我們會依托 mal 提供的步驟說明,講講如何實現一個簡單的 Lisp 解釋器。在步驟說明中介紹的內容,我們不會過多重復。

簡單了解解釋器

解釋器是將一種編程語言的代碼逐句解釋執行的軟件。要實現解釋器的功能,至少要實現以下的功能:

輸入

讀取輸入字符串:程序代碼是以字符串的形式輸入的。

預處理

  • 詞法解析:把字符串轉化為 token,類似于自然語言中的分詞、斷句。例如把 (+ 1 2)轉化為 (+12)
  • 語法解析:把 token 的序列轉化為解釋器內部能夠理解的數據結構,即抽象語法樹(AST)。例如,把由 ( def a ( - (+ 1 2 ) 3 ) ) 組成的序列轉化為:
// 示意:
( def a 
  ( - 
    (+ 1 2 )
    3 ))

當然,上面的形式只是個示意,假如實現解釋器的語言是 Java,數據結構可能會是一個嵌套的數組,每層數組可能會表示一個運算(例如 def, - 或者 +)。

解釋執行

解釋器的核心,將抽象語法樹解釋為目標語言(在本項目里就是你用來實現解釋器的語言)的程序,并執行。

輸出

將程序運行的結果(可能是字符串、數值或者其他的數據形式)轉化為字符串的形式輸出。

相比其它語言的解釋器,Lisp 解釋器的優勢是詞法解析和語法解析的過程非常簡單,因為一個 Lisp 程序本身幾乎就是一個抽象語法樹了,而像 Java、Swift 之類語法更復雜的語言,詞法解析和語法解析的過程會復雜的多。這樣,從學習的角度出發,實現一個 Lisp 解釋器可以更專注于解釋器的核心功能上。

第0步:搭建框架

建立 READ, EVAL, PRINT 三個主要模塊,以及把他們連起來的 rep()。
只是搭建一個骨架而已,編碼毫無難度。

問題有可能出現在命令行操作和寫 Makefile 上,好在用到的也都是基本操作,可以簡單看一下教學,如果你用的語言已經由別人實現過,也可以借用別人寫好的 Makefile。

參考資料:
The Linux Command Line (英文版)
The Linux Command Line (中文版)
跟我一起寫 Makefile
Make 命令教程

第1步:讀取和打印

前面講了解釋器的四項工作:輸入、預處理、解釋執行、輸出。這一步完成輸入、預處理、和輸出部分,其中預處理部分包含在輸入中。
tokenizer() 函數負責詞法分析。
read_form() 函數負責語法分析。

可能遇到的問題:正則表達式。這個我沒有網上資源推薦給你,你可以自己找一下;我使用的是實體書《精通正則表達式》。注意:正則表達式有不同流派,項目 guide 中使用的是 PCRE 。

注意
項目中的任務有的被標識為 optional 或者 deferable。
跳過 optional(可選的)任務不會影響后續任務,但有可能導致單元測試中出現錯誤。
跳過 deferable (可推遲)的任務可能會導致后面的步驟執行不暢,而且將來返工可能會更麻煩一點,所以建議盡最大努力完成,如果確定要跳過,也請盡早回頭補上。
這一步中的 deferable 任務可能顯得難一點,如果你要跳過,至少看一眼這項任務都是什么,心理先有個數。

第2步:求值

Lisp 程序需要遞歸地執行兩個相互調用的步驟:求值 eval應用 apply。解釋器對一個列表(List)求值,首先要對這個列表的每個元素求值,然后將操作符(第一個元素)應用到被操作數(其它元素)上。

例如,對于列表 (+ a ( + 1 2 ))求值:

  • 需要先分別求值 +a( + 1 2 ),然后將 + 的值應用a( + 1 2 )的值上。
  • + 的求值結果為 "將操作數加到一起的操作";a 如果有定義,它的求值結果就是變量 a 綁定的值;而( + 1 2 )并不能直接得到,需要將求值應用循環( + 1 2 )執行一次。
  • 求值:分別求出 +12 的值,+ 的值已經知道了,12作為整數是自求值對象,對它們求值的結果是它們本身。這樣,所有的值都得到了。
  • 應用:將 + 應用到 12 上,得到 3。
  • 回到外層的 List ,假設 a 的值為 5。那么 將 + 應用到 53 上,得到 8。
  • 8 就是這個 List 求值的結果。

在 mal 項目中,基本上 EVAL() 函數負責的是應用的部分,eval_ast()函數負責的是求值的部分。

第3步:環境

在上一步的例子中,有個未解決的問題。解釋器是怎么知道變量a的值?更進一步,解釋器是怎么知道 + 代表求和的運算的?
在上一步中定義的 repl_env 就相當于一個全局的環境 Environment。解釋器如果想知道任何變量(包括函數名)的值,都可以在 repl_env 中查找。但在大多數真實存在的編程語言中,并不是所有的變量都是全局變量,變量是有自己的作用域的。例如:

function foo() {
  var x = 1
  {
    var y = 0
    print(x)
  }
  print(y)
}

上面的實例語言和很多真實的語言一樣,使用大括號作為作用域的開始和結束。
對于大多數語言,print(x)會打印 1,因為第一個 print()在自己的作用域中找不到 x 的值,它會繼續逐級向上層尋找,在上一層找到 x = 1 ;而print(y) 很可能會報錯,因為它找不到 y 的定義。

在 mal 中 let* 會生成新的環境,而 def! 會修改當前的環境。除了全局環境外,每個環境都有它的外層環境。大多數其他語言的工作原理也是類似的,只不過它們實現環境的方法一般會高效的多。

第4步:函數定義和控制流

之前實現的求值和環境組成了一個解釋器最核心的部分,而有了這一步實現函數定義和控制流功能后,mal 看起來已經像一個能用的真正的編程語言了。

如何實現定義函數閉包略微有一點燒腦:
以當前環境為外層環境,創建一個新的環境。在新的環境中,函數的每個形參作為鍵,調用函數使用的實參作為值。將函數體在這個新的環境中求得的值作為返回值。
而上面說的的這一切不是即刻執行的,而是定義在一個閉包之中,直到對這個閉包求值時才會執行。
通過一個簡單的例子想一下:

function bar (left, right) {
  return left * right + left
}

上面定義了一個將兩個數相乘再加上第一個數的函數,并給這個函數起名字叫 bar,相當于 mal 中的 :

(def! (fn (left right) 
          (函數體...) ) 
      bar)

定義一個函數會保存兩個信息:參數列表(left, right) 和函數體 { return left * right + left }。除了這些數據,還要告訴函數的執行者使用函數時怎么繼續操作:

  • 在函數體中,把所有形參 (left, right) 替換為實參,例如當執行 bar (3, 5) 時,就是把函數體變成 { return 3 * 5 + 3 }
  • 對替換后的函數體求值就得到了想要的值。

第5步:尾調用優化

遞歸和迭代是程序設計領域中兩個重要的概念。一般來說遞歸程序更容易設計,但由于大量的遞歸調用會消耗更多的棧空間,所以在執行時時間和空間效率往往低于程序的迭代版本,而且有可能導致棧溢出。
尾調用優化(尾遞歸優化)可以將符合特定條件的遞歸過程轉化為迭代過程,這樣可以提高程序的性能。
尾調用優化的條件是,外層函數執行的最后一步是調用內層函數,符合這種條件時,解釋器可以自動執行尾調用優化。
例子(來源:阮一峰的博客):
寫一個求階乘的函數

function factorial (n) {
  if (n == 1) return 1;
  return n * factorial(n - 1);
}

factorial(5) // 120

上面的函數是一個遞歸函數,但不是尾遞歸,因為它的最后一步不是調用factorial(n - 1),而是一個乘法。
把它改寫成尾遞歸的形式:

function factorial(n, total) {
  if (n === 1) return total;
  return factorial(n - 1, n * total);
}

factorial(5, 1) // 120

這樣它就變成了一個可以優化的尾遞歸函數了。
總結一下,這個求遞歸函數的核心就是反復地使用 n 和部分積相乘,在第一個例子中是 n * factorial(n - 1),在第二個例子中是 n * total 。程序的其他部分都是用于保證相乘能正確地繼續執行和恰當地停止。

按著這個思路,手動把尾遞歸變成迭代過程:

function factorial(n, total) {
  while ( n > 1 ) {
    total = n * total
    n = n - 1
  }
  return total;
}
factorial(5, 1) // 120

把函數的核心部分用一個 while 循環包裹起來,在合適的時候結束迭代。mal 解釋器實現的尾調用優化,大致也是這個原理。

待續。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,237評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,957評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,248評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,356評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,081評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,485評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,534評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,720評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,263評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,025評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,204評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,787評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,461評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,874評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,105評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,945評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,205評論 2 375

推薦閱讀更多精彩內容