目錄:
編譯器和靜態(tài)分析的關(guān)系
AST vs IR
IR:3-地址代碼(3AC)
實際靜態(tài)分析器的3AC—Soot(Java)
SSA-靜態(tài)單賦值
基本塊(BB)
控制流圖(CFG)
1.編譯器和靜態(tài)分析的關(guān)系
源碼->(Scanner - 詞法Lexical分析-Regular Expression)->(Parser- 語法Syntax分析-Context-Free Grammar), 生成AST ->(Type Checker - 語義Semantic分析 - Attribute Grammar),生成 Decorated AST -> Translator,生成IR,進行靜態(tài)分析 -> Code Generator
2.AST vs IR
AST :高級,更接近于語法結(jié)構(gòu),依賴于語言種類,適用于快速類型檢查,缺少控制流信息
IR:低級,更接近于機器碼,不依賴語言種類,壓縮且簡潔,包含控制流信息。是靜態(tài)分析的基礎(chǔ)
3.IR:3-地址代碼(3AC)
// 最多1個操作符
a+b+3 -> t1 = a+b
t2 = t1+3
Address:
Name:a、b
Constant: 3
編譯器的臨時變量:t1、t2
4.實際靜態(tài)分析器的3AC—Soot(Java)
Soot-常用的Java靜態(tài)分析框架
// java IR(Jimple)基本知識
invokespecial:call constructor, call superclass methods, call private methods
invokevirtual: instance methods call (virtual dispatch)
invokeinterface: cannot optimization, checking interface implementation
invokestation:call static methods
Java 7: invokedynamic -> Java static typing, dynamic language runs on JVM
method signature: class name, return type, method name(parameter1 type, parameter2 type)
5.SSA-靜態(tài)單賦值
定義:給每一個定義變量一個新的名字,傳遞到接下來的使用當中,每個變量有1個定義(賦值的目標變量)。
優(yōu)點:唯一的變量名可以間接體現(xiàn)程序流信息,簡化分析過程;清楚的Define-Use信息。
缺點:引入很多變量和phi-function;轉(zhuǎn)換為機器碼時效率變低(引入很多拷貝操作)。
6.基本塊(BB)
定義:只有1個開頭入口和1個結(jié)尾出口的最長3-地址指令序列。
識別基本塊的算法:首先確定入口指令,第一條指令是入口;任何跳轉(zhuǎn)指令的目標地址是入口;任何跟在跳轉(zhuǎn)指令之后的指令是入口。然后構(gòu)造基本塊,任何基本塊包含1個入口指令和其接下來的指令。
我的想法:對于下1條指令,若該指令不是入口,則可以加入;若該指令有多個出口,則停止加入,否則繼續(xù)判斷下一條指令。
7.控制流圖(CFG)
控制流邊:基本塊A的結(jié)尾有跳轉(zhuǎn)指令跳轉(zhuǎn)到基本塊B;原始指令序列中,B緊跟著A,且A的結(jié)尾不是無條件跳轉(zhuǎn)。
添加Entry / Exit:沒有塊跳轉(zhuǎn)到該塊 / 沒有跳轉(zhuǎn)到其他塊。