Mach-O與連接器的一個作用
Mach-o到底是什么?
Mach-O(Mach Object)是macOS、iOS、iPadOS存儲序和庫的文件格式。對應(yīng)系統(tǒng)通過引用二進(jìn)制接口(application binary interface,所寫為ABI)來運(yùn)行該格式的文件。
Mach-O格式用來替代BSD系統(tǒng)的a.out格式。Mach-O文件格式保存了在編譯過程的連接過重產(chǎn)生的機(jī)器代碼和數(shù)據(jù),從而為靜態(tài)連接和動態(tài)連接的代碼提供了單一文件格式。
Mach-O 是iOS系統(tǒng)不同運(yùn)行時期,可執(zhí)行文件類型的統(tǒng)稱。它是一種用于,可執(zhí)行文件、目標(biāo)代碼、動態(tài)庫、內(nèi)核轉(zhuǎn)儲的文件格式。
Mach -O 的三種類型:Executable 、Dylib 、bundle
- 思考一個問題當(dāng)我們項(xiàng)目點(diǎn)擊運(yùn)行那一刻發(fā)生了什么系統(tǒng)到底做了什么?
首先它去加載 ipa包,然后去找到 ipa包里的一個可執(zhí)行文件黑不溜秋的。
其可執(zhí)行文件的調(diào)用過程:
- 1.調(diào)用
fork
函數(shù),創(chuàng)建一個process
- 2.調(diào)用
execve
或其衍生函數(shù),在該進(jìn)程上加載,執(zhí)行我們的Mach-O
文件
當(dāng)我們調(diào)用時execve
(程序加載器),內(nèi)核實(shí)際上在執(zhí)行: - 1.將文件加載到內(nèi)存
- 2.開始分析
Mach-O
中的mach_header
,以確認(rèn)它是有效的Mach-O
文件
對于上面的我們先不了解過深我們先看它到底是怎樣一種格式我們理解
通過下面命令
objdump --macho --private-headers / 黑不溜秋的地址
可以看到里面他有 mach header
有多個 load command
有多個section
,那他們之間的關(guān)系是怎樣的呢?我們先看下面每個字段的含義。
Mach header :指定文件的目標(biāo)體系結(jié)構(gòu),自我描述信息
- magic: ,系統(tǒng)加載器通過該字段快速,判斷當(dāng)前文件
- cputype: 標(biāo)識cpu架構(gòu),比如ARM, X86,i386等等,該字段確保系統(tǒng)可以將合適的二進(jìn)制文件在當(dāng)前架構(gòu)下運(yùn)行。
- cpusubtype: 具體的cpu類型,區(qū)分不同版本的處理器,如arm64,armv7
- filetype: 說明該mach-o文件類型(可執(zhí)行文件,庫文件,核心轉(zhuǎn)儲文件,內(nèi)核擴(kuò)展,DYSM文件,動態(tài)庫)。
- ncmds: loadCommands數(shù)量,每個LoadCommands代表了一種Segment的加載方式 .
- sizeofcmmds:所有Load commands的總字節(jié)大小
- flags:標(biāo)識二進(jìn)制文件支持的功能,主要與系統(tǒng)的加載、連接有關(guān)
- reserved:保留的字段。
Load commands: 在虛擬內(nèi)存中指定文件的邏輯結(jié)構(gòu)和文件的布局。類似書的目錄
- load commands 跟在
mach_header
之后。所有命令的總大小由mach_header中sizeofcmmds字段給出。 - load command必須有前兩個字段 cmd 和 cmdsize. cmd字段以該命令類型的常量填充。每個命令類型都有專門追對它的結(jié)構(gòu)。cmdsize字段是特定加載命令結(jié)構(gòu)的字節(jié)大小加跟隨它的任何一部分,這是加載命令(即節(jié)結(jié)構(gòu)、字符串等)的須是4字節(jié)的倍數(shù),對于64位架構(gòu)必須是8字節(jié)的倍數(shù)(這些永遠(yuǎn)是任何加載命令的最大對齊)。填充的字節(jié)必須為0.
- 目標(biāo)文件中的所有表也必須遵循這些規(guī)則,以便文件可以進(jìn)行內(nèi)容映射。否則,這些表的指針在某些機(jī)器上無法正常工作或根本無法真長工作。所有padding歸零對象
Raw segment data: 包含在加載命令中定義的段的原始數(shù)據(jù)。主要包含代碼、數(shù)據(jù)、符號表等
因?yàn)閙ach -O里面全部都是二進(jìn)制的,我們就可以理解為 配置文件+二進(jìn)制代碼,比如說 為什么我們程序的啟動都是main?就是因?yàn)閙ach- O指定了它的入口函數(shù) 在dyld解析的時候會根據(jù)這個字段來找到入口函數(shù)
通過下面命令 找到 LC_MAIN
objdump --macho --private-headers / 黑不溜秋的地址 | ag 'LC_MAIN' -A 3
總結(jié)
- 比如通過黃色區(qū)域 _TEXT load Command 就可以找到其_TEXT代碼具體的執(zhí)行二進(jìn)制的位置。
- 通過 _DATA Load Command 就可以 找到 _DATA 具體的執(zhí)行位置
- load Command 就向一本書的目錄. 可以通過目錄 來定位 具體的章節(jié)
此圖更能形象的描述出 Mach-O 的結(jié)構(gòu),整個 Mach-O 均為二進(jìn)制文件,它就向一本書,Mach header 就像 書的前言 自描述著,load commands 就像書的目錄 Data 就向是目錄 具體的內(nèi)容。
編譯鏈接過程
對于上面的描述有些生硬,我來實(shí)操一下
看如上代碼只編譯一個mian.m 然后我們通過命令去查看編譯出來的可執(zhí)行文件代碼 段
objdump --macho -d /黑不溜秋的地址。
- 可以看到NSLog變成了一條指令 callq 這個地址
那在編譯的時候?qū)嶋H干了點(diǎn)什么事情呢?
編譯
- 再編譯過程把能變成匯編的盡量變成匯編變成機(jī)器碼
- 不能變成匯編的給其進(jìn)行一個歸類。
比如上面的NSLog 可以callq一個地址,向其他的變量就要進(jìn)行歸類 比如說 數(shù)據(jù),那應(yīng)該放在數(shù)據(jù)段,其他的放在其他地方,比如變成目標(biāo)文件的時候像NSlog在其他的mach-O 中,需要鏈接的時候才能確定一些東西那怎么辦?所以就是,將不能變成機(jī)器碼的符號進(jìn)行一個歸類
下面我們看一下當(dāng)前的重定位符號表 我們先將 main.m 用clang編譯器成 中間代碼.o
$ clang -x objective-c \
> -target x86_64-apple-macos10.15 \
> -fobjc-arc \
> -isysroot /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.15.sdk \
> -c main.m -o main.o
- -x objective-c :指定編譯語言
- -target x86_64-apple-macos10.15 :指定編譯架構(gòu)
- -fobjc-arc : 指定編譯 是arc
- -isysroot 比如<Foundation/Foundation.h> 系統(tǒng)sdk在哪
- 輸出。
編譯出中間代碼.o之后 我們在來看一下 當(dāng)前.o 的重定位符號表
objdump --macho --reloc .o地址
$ objdump --macho --reloc /Users/lh/Desktop/LHObject/symbol/symbol/main.o
/Users/lh/Desktop/LHObject/symbol/symbol/main.o:
Relocation information (__TEXT,__text) 4 entries
address pcrel length extern type scattered symbolnum/value
00000033 True long True BRANCH False _NSLog
00000029 True long True SIGNED False _static_init_value
0000001f True long True SIGNED4 False _static_uninit_value
0000000b True long False SIGNED False 5 (__DATA,__cfstring)
Relocation information (__DATA,__cfstring) 2 entries
address pcrel length extern type scattered symbolnum/value
00000010 False quad False UNSIGND False 4 (__TEXT,__cstring)
00000000 False quad True UNSIGND False ___CFConstantStringClassReference
Relocation information (__LD,__compact_unwind) 1 entries
address pcrel length extern type scattered symbolnum/value
00000000 False quad False UNSIGND False 1 (__TEXT,__text)
對應(yīng)上面的我們看一下都代表什么意思
- 從這里我們就能明白,重定位符號表里 的保存的是當(dāng)前文件你用到的符號,使用了的在這里,沒有使用的不在這里。
總結(jié):
程序編譯過程 就是將.m 變成.o 的過程。里面做了通過詞法分析語法分析展開宏啊清除注釋啊,能變成機(jī)器碼的盡量變成機(jī)器碼。不能變成對符號進(jìn)行歸類,對于當(dāng)前.m文件用到的符號,放在重定向符號表里。
鏈接:
當(dāng)程序被編譯成一個個中間代碼.o, 接下來就需要進(jìn)行一個鏈接過程,處理編譯情況。 把多個目標(biāo)文件合并到一起,之后 也就意味著,重定位符號表,包括 其他符號,就被合并到一張表中,最后生成我們的可執(zhí)行文件 exec
Symbol Table
- symbol Table:用來保存符號
- StringTable: 用來保存符號的名稱
- indrect Symbol Table:間接符號表,保存使用外部符號,更準(zhǔn)確一點(diǎn)就是使用的外部動態(tài)庫的符號,是symbolTable的子集(例如: NSLog)
看到這里在回顧一下上面mach -O
- 一樣通過load Command 來找到 符號表的一個具體的位置。
總結(jié):
- 鏈接過程就是在處理目標(biāo)文件符號的過程。