如何描述一個(gè)文件
文件在內(nèi)存和磁盤上是如何描述的:每個(gè)文件至少要有一個(gè)數(shù)據(jù)結(jié)構(gòu)存放該文件的信息,包括uid、gid、flag、文件長(zhǎng)度、文件內(nèi)容存放位置的數(shù)據(jù)結(jié)構(gòu)等。在Linux中這個(gè)數(shù)據(jù)結(jié)構(gòu)被稱為inode,本來(lái)inode中也應(yīng)該包括文件名稱等信息,但是由于符號(hào)鏈接的存在,導(dǎo)致一個(gè)文件可能存在多個(gè)文件名稱,因此把和文件名稱相關(guān)的信息從inode中提出,專門放到dentry 結(jié)構(gòu)中。dentry通過(guò)其成員變量d_inode 指向?qū)?yīng)的inode數(shù)據(jù)結(jié)構(gòu)。如下圖所示:
另外,inode結(jié)構(gòu)中還包括了成員i_fop,其類型是struct file_operations,其中包括的針對(duì)該文件的一些操作接口。
根據(jù)路徑名尋找目標(biāo)文件
在Linux中目錄也被作為文件看待,只是目錄是一種比較特殊的文件。其 特殊之處在于文件的內(nèi)容是該目錄中文件和子目錄的dentry的描述符,通過(guò)這些dentry的描述符可以找到文件或子目錄的dentry,進(jìn)而找到相應(yīng)的inode。
下面我們看看如果根據(jù)絕對(duì)路徑尋找一個(gè)文件/tmp/temp/abc的。
- 首先找到根文件系統(tǒng)的根目錄文件的 dentry 和 inode
- 由這個(gè) inode 提供的操作接口 i_op->lookup(),找到下一層節(jié)點(diǎn) ‘tmp’ 的 dentry 和 inode
- 由 ‘tmp’ 的 inode 找到 ‘temp’ 的 dentry 和 inode
- 最后由 ‘temp’ 的 inode 找到 ‘a(chǎn)bc’ 的 dentry 和 inode
我們?cè)倏纯慈绾瓮ㄟ^(guò)相對(duì)路徑尋找文件/tmp/temp/abc,假如我們目前的工作目錄為/tmp/temp/dir_a 中,比如我們通過(guò)拷貝命令拷貝該文件:cp ../abc ./
如何通過(guò)相對(duì)路徑尋找文件呢?我們來(lái)看看dentry這個(gè)數(shù)據(jù)結(jié)構(gòu)的成員,其中有一個(gè)是d_parent,數(shù)據(jù)結(jié)構(gòu)定義如下
struct dentry { 刪除了無(wú)關(guān)的成員
struct dentry *d_parent; /* parent directory */
struct inode *d_inode; /* Where the name belongs to - NULL is * negative */
unsigned char d_iname[DNAME_INLINE_LEN]; /* small names */
}
d_parent指向了本目錄的父目錄的dentry,這樣就在通過(guò)“..”時(shí)就是通過(guò)該指針找到的父目錄dentry,找到父母inode,進(jìn)而找到父目錄下的所有文件的信息。
進(jìn)程中打開(kāi)的文件
一個(gè)文件可以被多次打開(kāi),并且多個(gè)進(jìn)程對(duì)一個(gè)文件的訪問(wèn)權(quán)限可能不同,因此打開(kāi)方式就會(huì)不同(只讀、讀寫、可執(zhí)行)。而dentry 和 inode 只能描述一個(gè)物理的文件,無(wú)法描述“打開(kāi)”這個(gè)概念。因此有必要引入 file 結(jié)構(gòu),來(lái)描述一個(gè)“被打開(kāi)的文件”。每打開(kāi)一個(gè)文件,就創(chuàng)建一個(gè) file 結(jié)構(gòu)。
file 結(jié)構(gòu)中包含以下信息:
- 打開(kāi)這個(gè)文件的uid,pid
- 打開(kāi)文件的方式
- 讀寫的方式
- 當(dāng)前在文件中的位置
實(shí)際上,打開(kāi)文件的過(guò)程正是建立file,dentry,inode之間的關(guān)聯(lián)的過(guò)程。如下圖:
在進(jìn)程中如何和打開(kāi)的文件相關(guān)聯(lián)呢,下面來(lái)看一下進(jìn)程的數(shù)據(jù)結(jié)構(gòu)
struct task_struct { 只保留了相關(guān)信息
struct files_struct *files; /* open file information */
}
每一個(gè)進(jìn)程的結(jié)構(gòu)體中包含"files"成員,其類型為files_struct。如下圖:
進(jìn)程中所有打開(kāi)的文件的指針都存在了fd_array[]數(shù)組當(dāng)中。
虛擬文件系統(tǒng)
Linux 通過(guò)虛擬文件系統(tǒng) (VFS) 來(lái)支持不同的具體的文件系統(tǒng),從程序員的角度看, VFS 就是一套代碼框架(framework),它將用戶與具體的文件系統(tǒng)隔離開(kāi)來(lái)。每個(gè)要通過(guò)mount 命令掛接到Linux系統(tǒng)的存儲(chǔ)設(shè)備,如磁盤、光盤等(它們各自對(duì)應(yīng)具體的文件系統(tǒng)),每個(gè)設(shè)備對(duì)應(yīng)的文件系統(tǒng)都要按照VFS的要求提供一套統(tǒng)一的接口。這樣,用戶就可以使用這些統(tǒng)一的接口在不同的文件系統(tǒng)中拷貝數(shù)據(jù)了。參考下圖:
安裝一個(gè)文件系統(tǒng),除了需要“被安裝設(shè)備”外,還要指定一個(gè)“安裝點(diǎn)”。“安裝點(diǎn)”是已經(jīng)存在的一個(gè)目錄節(jié)點(diǎn)。例如把 /dev/sda1 安裝到 /mnt/win 下,那么 /mnt/win 就是“安裝點(diǎn)”。
可是文件系統(tǒng)要先安裝后使用。因此,要使用 /mnt/win 這個(gè)“安裝點(diǎn)”,必然要求它所在文件系統(tǒng)已也經(jīng)被安裝。
也就是說(shuō),安裝一個(gè)文件系統(tǒng),需要另外一個(gè)文件系統(tǒng)已經(jīng)被安裝。
這是一個(gè)雞生蛋,蛋生雞的問(wèn)題:最頂層的文件系統(tǒng)是如何被安裝的?
答案是,最頂層文件系統(tǒng)的時(shí)候是被安裝在“根安裝點(diǎn)”上的,而根安裝點(diǎn)不屬于任何文件系統(tǒng),它對(duì)應(yīng)的 dentry 、inode 是由內(nèi)核在初始化階段憑空構(gòu)造出來(lái)的。
最頂層的文件系統(tǒng)叫做“根文件系統(tǒng)”。Linux 在啟動(dòng)的時(shí)候,要求用戶必須指定一個(gè)“根設(shè)備”,內(nèi)核在初始化階段,將“根設(shè)備”安裝到“根安裝點(diǎn)”上,從而有了根文件系統(tǒng)。這樣,文件系統(tǒng)才算準(zhǔn)備就緒。此后,用戶就可以通過(guò) mount 命令來(lái)安裝新的設(shè)備。
mount設(shè)備(文件系統(tǒng))
我們通過(guò)mount命令向Linux系統(tǒng)mount了一個(gè)設(shè)備。其實(shí)該命令觸發(fā)了兩個(gè)過(guò)程,一個(gè)是文件系統(tǒng)注冊(cè)過(guò)程(當(dāng)然,如果文件系統(tǒng)已注冊(cè)過(guò)的話,就不需要該步驟了),另一個(gè)才是真正意義上的mount設(shè)備的過(guò)程。
文件系統(tǒng)注冊(cè)過(guò)程
Linux內(nèi)核是可加載的,許多模塊是可選的,只有真正需要使用時(shí)才加載他們。文件系統(tǒng)注冊(cè)過(guò)程就是把對(duì)應(yīng)某類型文件系統(tǒng)相關(guān)的模塊加載到內(nèi)核,并創(chuàng)建相關(guān)的數(shù)據(jù)結(jié)構(gòu)。每個(gè)文件系統(tǒng)模塊都有一個(gè)初始化例程,它的作用就是在VFS中進(jìn)行注冊(cè),即填寫一個(gè)叫做file_system_type的數(shù)據(jù)結(jié)構(gòu)。所有已注冊(cè)的文件系統(tǒng)的file_system_type結(jié)構(gòu)形成一個(gè)鏈表,我們把這個(gè)鏈表稱為注冊(cè)鏈表。
每個(gè)設(shè)備在mount時(shí)都要搜索該注冊(cè)鏈表,選擇適合自己設(shè)備文件系統(tǒng)的一項(xiàng),并從中取出read_super()函數(shù)獲取設(shè)備的超級(jí)塊(存儲(chǔ)在具體設(shè)備上,記錄存儲(chǔ)設(shè)備各種信息的一個(gè)存儲(chǔ)塊),并解析其內(nèi)容。因?yàn)槊糠N類型文件系統(tǒng)的超級(jí)塊的格式不同,并且各自有特定的信息,每種文件系統(tǒng)必須使用對(duì)應(yīng)的解析函數(shù),否則內(nèi)核就因?yàn)椴徽J(rèn)識(shí)該文件系統(tǒng)而無(wú)法完成安裝。這就是注冊(cè)文件系統(tǒng)的意義所在。
設(shè)備的真正的mount過(guò)程,總體的數(shù)據(jù)結(jié)構(gòu),參考下圖:
- 創(chuàng)建一個(gè)設(shè)備的 vfsmount
- 為“被安裝設(shè)備”創(chuàng)建一個(gè) super_block,并由具體的文件系統(tǒng)來(lái)設(shè)置這個(gè)super_block。在super_block中包含了該類型設(shè)備操作的各種接口的結(jié)構(gòu)成員s_op,類型為super_operations。
- 為被安裝設(shè)備的根目錄節(jié)點(diǎn)創(chuàng)建 dentry
- 為被安裝設(shè)備的根目錄節(jié)點(diǎn)創(chuàng)建 inode, 并由 super_block->s_op->read_inode() 來(lái)設(shè)置此 inode
- 將 super_block 與“被安裝設(shè)備“根目錄節(jié)點(diǎn) dentry 關(guān)聯(lián)起來(lái)
- 將 super_block中的s_root與“被安裝設(shè)備”的根目錄節(jié)點(diǎn) dentry 關(guān)聯(lián)起來(lái)如圖6所示,在linux2.4.30中有三條鏈表,文件系統(tǒng)類型結(jié)構(gòu)file_system_type的鏈表頭為file_systems,超級(jí)塊結(jié)構(gòu)super_block的鏈表頭為super_blocks,掛接點(diǎn)結(jié)構(gòu)vfsmount的鏈表頭為vfsmntlist。
在Linux3.3.5中只有兩條鏈表結(jié)構(gòu),文件系統(tǒng)類型結(jié)構(gòu)file_system_type的鏈表頭為file_systems,超級(jí)塊結(jié)構(gòu)super_block的鏈表頭為super_blocks。數(shù)據(jù)結(jié)構(gòu)vfsmount 的結(jié)構(gòu)定義還存在,但已經(jīng)沒(méi)有了mnt_list成員了。
掛接設(shè)備中查找文件的過(guò)程
下面的流程參考了linux3.3.5中的數(shù)據(jù)結(jié)構(gòu)。
例如要打開(kāi) /mnt/win/dir1/abc 這個(gè)文件,就是根據(jù)這個(gè)路徑,找到目標(biāo)節(jié)點(diǎn) ‘a(chǎn)bc’ 對(duì)應(yīng)的 dentry ,進(jìn)而得到 inode 的過(guò)程。
尋找過(guò)程大致如下:
- 首先找到根文件系統(tǒng)的根目錄節(jié)點(diǎn) dentry 和 inode
- 由這個(gè) inode 提供的操作接口 i_op->lookup(),找到下一層節(jié)點(diǎn) ‘mnt’ 的 dentry 和inode
- 由 ‘mnt’ 的 inode 找到 ‘win’ 的 dentry 和 inode
- 由于 ‘win’ 是個(gè)“安裝點(diǎn)”,因此需要找到“被安裝設(shè)備”/dev/sda1 根目錄節(jié)點(diǎn)的 dentry 和 inode。“win”的dentry中有d_sb(超級(jí)塊成員),d_sb中有“struct dentry *s_root;”,s_root就是指向“/dev/sda1”的dentry。
- 然后由 /dev/sda1 根目錄節(jié)點(diǎn)的 inode 負(fù)責(zé)找到下一層節(jié)點(diǎn) ‘dir1’ 的 dentry 和 inode
- 由于 dir1 是個(gè)“安裝點(diǎn)”,因此需要借助dir1的dentry->d_sb->s_root找到 /dev/sda2 的根目錄節(jié)點(diǎn) dentry 和 inode
- 最后由這個(gè) inode 負(fù)責(zé)找到 ‘a(chǎn)bc’ 的 dentry 和 inode
可以看到,整個(gè)尋找過(guò)程是一個(gè)遞歸的過(guò)程。