當然,因為LLVM實在太強大,你會聽到許多其他特性(它可以是個JIT;支持了一大批非類C語言;還是App Store上的一種新的發(fā)布方式等等)。這些都是真的,不過就這篇文章而言,還是上面的定義更重要。
下面是一些讓LLVM與眾不同的原因:
LLVM的“中間表示”(IR)是一項大創(chuàng)新。LLVM的程序表示方法真的“可讀”(如果你會讀匯編)。雖然看上去這沒什么要緊,但要知道,其他編譯器的中間表示大多是種內存中的復雜數據結構,以至于很難寫出來,這讓其他編譯器既難懂又難以實現。
然而LLVM并非如此。其架構遠比其他編譯器要模塊化得多。這種優(yōu)點可能部分來自于它的最初實現者。
盡管LLVM給我們這些狂熱的學術黑客提供了一種研究工具的選擇,它還是一款有大公司做后臺的工業(yè)級編譯器。這意味著你不需要去在“強大的編譯器”和“可玩的編譯器”之間做妥協(xié)——不像你在Java世界中必須在HotSpot和Jikes之間權衡那樣。
為什么人人需要懂點兒LLVM?
是,LLVM是一款酷炫的編譯器,但是如果不做編譯器研究,還有什么理由要管它?
答:只要你和程序打交道,了解編譯器架構就會令你受益,而且從我個人經驗來看,非常有用。利用它,可以分析程序要多久一次來完成某項工作;改造程序,使其更適用于你的系統(tǒng),或者模擬一個新的處理器架構或操作系統(tǒng)——只需稍加改動,而不需要自己燒個芯片,或者寫個內核。對于計算機科學研究者來說,編譯器遠比他們想象中重要。建議你先試試LLVM,而不用hack下面這些工具(除非你真有重要的理由):
架構模擬器;
動態(tài)二進制分析工具,比如Pin;
源代碼變換(簡單的比如sed,復雜一些的比如抽象語法樹的分析和序列化);
修改內核來干預系統(tǒng)調用;
任何和虛擬機管理程序相似的東西。
就算一個編譯器不能完美地適合你的任務,相比于從源碼到源碼的翻譯工作,它可以節(jié)省你九成精力。
下面是一些巧妙利用了LLVM,而又不是在做編譯器的研究項目:
UIUC的Virtual Ghost,展示了你可以用編譯器來保護掛掉的系統(tǒng)內核中的進程。
UW的CoreDet利用LLVM實現了多線程程序的確定性。
在我們的近似計算工作中,我們使用LLVM流程來給程序注入錯誤信息,以模仿一些易出錯的硬件。
重要的話說三遍:LLVM不是只用來實現編譯優(yōu)化的!LLVM不是只用來實現編譯優(yōu)化的!LLVM不是只用來實現編譯優(yōu)化的!
組成部分
LLVM架構的主要組成部分如下(事實上也是所有現代編譯器架構):
前端,流程(Pass),后端
下面分別來解釋:
前端獲取你的源代碼然后將它轉變?yōu)槟撤N中間表示。這種翻譯簡化了編譯器其他部分的工作,這樣它們就不需要面對比如C++源碼的所有復雜性了。作為一個豪邁人,你很可能不想再做這部分工作;可以不加改動地使用Clang來完成。
“流程”將程序在中間表示之間互相變換。一般情況下,流程也用來優(yōu)化代碼:流程輸出的(中間表示)程序和它輸入的(中間表示)程序相比在功能上完全相同,只是在性能上得到改進。這部分通常是給你發(fā)揮的地方。你的研究工具可以通過觀察和修改編譯過程流中的IR來完成任務。
后端部分可以生成實際運行的機器碼。你幾乎肯定不想動這部分了。
雖然當今大多數編譯器都使用了這種架構,但是LLVM有一點值得注意而與眾不同:整個過程中,程序都使用了同一種中間表示。在其他編譯器中,可能每一個流程產出的代碼都有一種獨特的格式。LLVM在這一點上對hackers大為有利。我們不需要擔心我們的改動該插在哪個位置,只要放在前后端之間某個地方就足夠了。
開始
讓我們開干吧。
獲取LLVM
首先需要安裝LLVM。Linux的諸發(fā)行版中一般已經裝好了LLVM和Clang的包,你直接用便是。但你還是需要確認一下機子里的版本,是不是有所有你要用到的頭文件。在OS X系統(tǒng)中,和XCode一起安裝的LLVM就不是那么完整。還好,用CMake從源碼構建LLVM也沒有多難。通常你只需要構建LLVM本身,因為你的系統(tǒng)提供的Clang已經夠用(只要版本是匹配的,如果不是,你也可以自己構建Clang)。
具體在OS X上,Brandon Holt有一個不錯的指導文章。用Homebrew也可以安裝LLVM。
去讀手冊
你需要對文檔有所了解。我找到了一些值得一看的鏈接:
自動生成的Doxygen文檔頁非常重要。要想搞定LLVM,你必須要以這些API的文檔維生。這些頁面可能不太好找,所以我推薦你直接用Google搜索。只要你在搜索的函數或者類名后面加上“LLVM”,你一般就可以用Google找到正確的文檔頁面了。(如果你夠勤奮,你甚至可以“訓練”你的Google,使得在不輸入LLVM的情況下它也可以把LLVM的相關結果推到最前面)雖然聽上去有點逗,不過你真的需要這樣找LLVM的API文檔——反正我沒找到其他的好方法。
《語言參考手冊》也非常有用,如果你曾被LLVM IR dump里面的語法搞糊涂的話。
《開發(fā)者手冊》描述了一些LLVM特有的數據結構的工具,比如高效字符串,vector和map的替代品等等。它還描述了一些快速類型檢查工具isa、cast和dyn_cast),這些你不管在哪都要跑。
?如果你不知道你的流程可以做什么,讀《編寫LLVM流程》。不過因為你只是個研究人員而不是浸淫于編譯器的大牛,本文的觀點可能和這篇教程在一些細節(jié)上有所不同。(最緊急的是,別再用基于Makefile的構建系統(tǒng)了。直接開始用CMake構建你的程序吧,讀讀《“源代碼外”指令》)盡管上面這些是解決流程問題的官方材料,
不過在在線瀏覽LLVM代碼時,這個GitHub鏡像有時會更方便。
原文鏈接:http://adriansampson.net/blog/llvm.html
譯者:張洵愷
覺得很有用,就轉載到這里,但有些地方不太明白,望高手進行深入解讀!!!