通用塊層

概述

在塊設備上的操作，涉及內核中的多個組成部分，如圖1所示。假設一個進程使用系統
調用read()讀取磁盤上的文件。下面步驟是內核響應進程讀請求的步驟;

linux-kernel-bio.png

系統調用read()會觸發相應的VFS(Virtual Filesystem Switch)函數，傳遞的參數
有文件描述符和文件偏移量。
VFS確定請求的數據是否已經在內存緩沖區中;若數據不在內存中，確定如何執行讀操作。
假設內核必須從塊設備上讀取數據，這樣內核就必須確定數據在物理設備上的位置。這由映射層(Mapping Layer)來完成,主要執行兩步
1. 內核確定該文件所在的文件系統的塊大小，并根據文件塊的大小計算所請求數據的長度。本質上，文件被看作拆分成許多塊，因此內核確定請求數據所在的塊號（文件開始位置的相對索引）。
2. 接下來，映射層調用一個具體的文件系統的函數，它訪問文件的磁盤節點，然后根據邏輯塊號確定所請求數據在磁盤上的位置。事實上，磁盤也被看作分成許多塊，因此內核必須確定存放所請求數據的塊對應的號（磁盤或分區開始位置的相對索引）。由于一個文件可能存儲在磁盤上的不連續塊中，因此存放在磁盤索引節點中的數據結構將每個文件塊號映射為一個邏輯塊號。
內核可以對塊設備發出讀請求。內核利用通用塊層(generic block layer)啟動I/O操作來傳送所請求的數據。一般而言， 每個I/O操作只針對磁盤上一組連續的塊。由于請求的數據不必位于相鄰的塊中，所以通用塊層可能啟動幾次I/O操作。每次I/O操作是由一個“塊I/O”(簡單block io 即bio)的結構來描述，它收集底層組件需要的所有信息以滿足所發出的請求。
通用塊層為所有的塊設備提供了一個抽象的視圖，因而隱藏了硬件塊設備間的差異性。幾乎所有的塊設備都是磁盤。所以通用塊層也提供了一些數據結構來描述“磁盤”或"磁盤分區"
通用塊層的下面“I/O調度程序”根據預定義的內核策略將待處理的I/O數據傳送請求進行歸類。調度程序的作用是把物理介質上相鄰的數據請求聚集在一起。
-最后，塊設備驅動程序向磁盤控制器的三件接口發送適當的命令。從而進行實際的數據傳送。

對于(1)、(2)兩個步驟，在Linux虛擬文件系統中，我們討論了VFS(Virtual Filesystem Switch)主要數據結構和操作，結合相關系統調用(如sys_read()、sys_write()等) 的源碼，我們不難理解VFS層相關的操作和實現。

塊設備中的數據存儲涉及了許多內核的組件；每個組件采用不同長度的塊來管理磁盤數據：

硬件塊設備控制器采用稱為扇區的固定長度的塊來傳遞數據。因此，I/O調度程序和塊驅動程序必須管理數據扇區。
虛擬文件系統、映射層和文件系統將磁盤數據存放在稱為塊的邏輯單元中。一個塊對應文件系統中一個最小的磁盤存儲單元。
塊設備驅動程序應該能夠處理數據的段:一個段就是一個內存頁或內存內的一部分，它們包括磁盤上物理相鄰的數據塊。
磁盤高速緩存作用于磁盤數據的頁上,每頁正好裝在一個頁框中。
通用塊層將所有的上層和下層的組件組合在一起，因此它了解數據的扇區、塊、段以及頁。
注:但是，如果從原始塊設備文件進行讀訪問，映射層就不調用具體文件系統的方法，而是把塊設備文件中的偏移量轉換成磁盤或在對應該設備文件的磁盤分區中的位置。
即使有許多不同的數據塊，它們通常也是共享相同的物理RAM單元。例如：圖2顯示了一個具有4K的頁的構造。上層內核組件將頁看成是由4個1K字節組成的塊緩沖區。塊設備驅動程序正在傳送頁中的后3個塊，因此這3塊被插入到涵蓋了后3K字節的段中。硬盤控制器將段看成由6個512字節的扇區組成。

page-disk-layout.png

通用塊層

通用塊層是一個內核組件，它處理來自系統中的所有塊設備發出的請求。

BIO結構

通用塊層的核心數據結構是一個稱為BIO的描述符，它描述了塊設備的IO操作。每個bio結構都包含一個磁盤存儲區標識符（存儲區中的起始扇區和扇區數目）和一個或多個描述符與IO操作相關的內存區的段。bio由struct bio 數據結構描述，源代碼如下：
struct bio
https://github.com/sparrowzoo/linux/blob/master/include/linux/blk_types.h

bio中的每個段是一個由bio_vec數據結構描述的
源代碼如下:
https://github.com/sparrowzoo/linux/blob/master/include/linux/bvec.h
在塊IO操作期間，bio描述符的內容一直保持更新。例如，果塊設備驅動程序在一次分散-聚集DMA操作中不能完成全部的數據傳送，那么bio中的bi_idx字段會不斷更新來指向待傳送的第一個段。

struct bvec_iter {
    sector_t        bi_sector;  /* device address in 512 byte
                           sectors */
    unsigned int        bi_size;    /* residual I/O count */

    unsigned int        bi_idx;     /* current index into bvl_vec */

    unsigned int            bi_bvec_done;   /* number of bytes completed in
                           current bvec */
};

為了從索引bi_idx指向的當前段開始不斷重復bio中的段，設備驅動程序可以執行宏bio_for_each_segment。
當通用塊層啟動一次新的IO操作時，調用bio_alloc函數分配一個新的bio結構。通常，bio結構是由slab分配器分配的。但是，當內存不足時，內核也會使用一個備用的bio小內存池。內核也為bio_vec結構分配內存池。畢竟，分配一個bio結構而不能分配其中的段描述符也是沒有什么意義的。相應地bio_put函數減少bio中中引用計數器bi_cnt的值，如果該值小于0，則釋放bio結構以及相關的bio_vec結構。

磁盤和磁盤分區的表示
磁盤是一個由通用塊層處理的邏輯塊設備。通常一個磁盤對應一個硬件塊設備，例如硬盤、軟盤或光盤。但是，磁盤也可以是一個虛擬設備，它建立在幾個物理磁盤分區之上或一些RAM專用頁中的內存頁上。在任何情形中，借助通用塊層提供的服務。上層內核組件可以以同樣的方式工作在所有磁盤上。

磁盤由gendisk對象描述源碼注釋
https://github.com/sparrowzoo/linux/blob/master/include/linux/genhd.h

塊設備操作源碼注釋
https://github.com/sparrowzoo/linux/blob/master/include/linux/blkdev.h

通常硬盤被劃分成幾個邏輯分區。每塊塊設備文件要么代表整個磁盤，要么代表磁盤中的某一個分區。例如，一個主設備號為3、次設備號為0的設備文件/dev/had代表的可能是一個主IDE磁盤；該磁盤中的前兩個分區分別由設備文件/dev/hda1和/dev/hda2代表，它們的主設備號都是3，而次設備號分別為1和2。一般而言，磁盤中的分區是由連續的次設備號來區分的。
如果將一個磁盤分成了幾個分區，那么其分區表保存在hd_struct結構數組中，該數的地址存放在gendisk對象的part (struct disk_part_tbl __rcu *part_tbl; 源碼版本不一致)字段中。通過磁盤內分區的相對索引對該數組進行索引。hd_struct數據結構如下:

struct disk_part_tbl {
    struct rcu_head rcu_head;
    int len;
    struct hd_struct __rcu *last_lookup;
    struct hd_struct __rcu *part[];
};

struct hd_struct {
    sector_t start_sect;
    /*
     * nr_sects is protected by sequence counter. One might extend a
     * partition while IO is happening to it and update of nr_sects
     * can be non-atomic on 32bit machines with 64bit sector_t.
     */
    sector_t nr_sects;
    seqcount_t nr_sects_seq;
    sector_t alignment_offset;
    unsigned int discard_alignment;
    struct device __dev;
    struct kobject *holder_dir;
    int policy, partno;
    struct partition_meta_info *info;
#ifdef CONFIG_FAIL_MAKE_REQUEST
    int make_it_fail;
#endif
    unsigned long stamp;
    atomic_t in_flight[2];
#ifdef  CONFIG_SMP
    struct disk_stats __percpu *dkstats;
#else
    struct disk_stats dkstats;
#endif
    struct percpu_ref ref;
    struct rcu_head rcu_head;
};

當內核發現系統中一個新的磁盤時（在啟動階段，或將一個可移動介質插入到一個驅動器中時，或在運行期附加一個外置磁盤時），就調用alloc_disk()函數，該函數分配并初始化一個新的gendisk對象。如果新磁盤被分成了幾個分區，那么alloc_disk還會分配并初始化一個適當的hd_struct類型的數組。然后，內核調用add_disk()函數將gendisk對象插入到通用塊層的數據結構中。

提交請求
我們介紹一下當向通用塊層提交一個IO操作請求時，內核所執行的步驟順序。我們假定(因為上文提到一個IO,如果數據不相鄰會被拆成多個請求)被請求的數據塊在磁盤上是相鄰的，并且內核已經知道了它們的物理位置。

第一步是執行bio_alloc函數分配一個新的bio描述符。然后通過設置一些字段值來初始化bio描述符（bi_sector\bi_size\bi_bdev\bi_io_vec\bi_rw\bi_end_io）
一旦bio描述符被進行了適當的初始化，內核就調用generaic_make_request函數，該函數是通用塊層的主要入口點。
1. 獲取與塊設備相關的請求隊列
2. 調用blk_partition_remap()函數
至此，能用塊層 IO調度程序以及設備驅動程序將忘記磁盤分區的存在，直接作用于整個磁盤。
1. 調用q_make_request_fn方法將bio請求插入到請求隊列中。

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,572評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,071評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,409評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,569評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,360評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,895評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,979評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,123評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,643評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,559評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,742評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,250評論 5贊 356
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,981評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,363評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,622評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,354評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,707評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

通用塊層

通用塊層

概述

相關概念

通用塊層

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

通用塊層

概述

相關概念

通用塊層

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频