高性能索引優化策略(四):聚集索引和非聚集索引數據結構及優劣對比

聚集索引并不是一個單獨的索引類型,實際上是一種數據存儲的方式。聚集索引的實現細節各有不同,在InnoDB引擎中,聚集索引實際上是將索引和數據行使用同樣的結構存儲在一個二叉樹中。

如果數據表中有聚集索引,則數據行實際上是存在所以的葉子節點。“聚集”的形式實際是指相鄰鍵值的數據行是鄰近存儲的。因為一行數據不能存儲在兩個葉子節點上,因此在數據表中只能有一個聚集索引。由于是存儲引擎負責索引的實現,因此并不是全部的存儲引擎都支持聚集索引。在這里我們只討論InnoDB,但支持聚集索引的存儲引擎實現聚集索引的原理都大同小異。

下圖展示了數據記錄在聚集索引的存儲布局。注意,葉子節點包含了完整的數據行,而其他節點僅僅只有索引。在這個圖中,索引列使用的是整數。


聚集索引存儲

有些數據庫服務器允許我們選擇對哪個索引進行聚集,但MySQL的任意內置的存儲引擎都不支持這么做。InnoDB使用主鍵對數據進行聚集,這意味著上圖的索引列實際上是主鍵列。

如果數據表沒有定義主鍵,InnoDB會選擇使用唯一的非空列(Not Null)索引替代。如果沒有這樣的索引,InnoDB會定義一個隱藏的主鍵去完成數據聚集(因此,數據表最好自己定義主鍵)。InnoDB的只能在一個數據頁中進行數據聚集,因此即便是臨近的索引值的數據存儲頁也可能間隔很遠。

一個聚集主鍵能夠提高性能,但同樣也可能導致嚴重的性能問題。因此,你應當謹慎考慮聚集的使用,尤其是當你將一個數據表的存儲引擎從InnoDB改為其他引擎時。

聚集索引具有如下的優勢:

  • 可以將相關聯的數據行保持鄰近存儲。例如,郵箱應用中,你可以使用user_id進行聚集。這種情況下,你可以從磁盤的很少的分頁中獲取用戶的全部消息。而如果不使用聚集索引,每條消息都可能需要單獨占用磁盤I/O。
  • 數據訪問很快:聚集索引將索引和數據同時存儲在二叉樹中,因此從聚集索引中獲取數據行比起非聚集索引的查詢來說快很多。
  • 使用了覆蓋索引的查詢可以利用主鍵中包含在葉子節點的數據值。

如果你在設計數據表和查詢時充分利用這些好處,將能顯著提升性能。然而,聚集索引也有缺點:

  • 聚集能對受限于I/O負載的情況很大改善,但如果數據是在內存而與磁盤無關,那聚集實際上幫不上什么忙。
  • 插入速度嚴重依賴插入次序。按照主鍵順序插入數據是InnoDB表中最快的方式,如果加載數據不是按照主鍵次序,那在完成大量數據的加載后,最好是使用優化表(OPTIMIZE TABLE)功能重新組織一下數據表。
  • 更新聚集索引列的代價很高,因為這會強制InnoDB去移動更新的數據行到一個新的位置。
  • 當新的數據行插入時或行的主鍵更新引起數據行移動,數據表已經構建的聚集索引會分頁(page split)。分頁情況發生在新的數據行需要移入一個放滿數據的存儲頁時。存儲引擎必須將存儲頁分成兩部分去存儲新的行,這會導致數據表占用更多的磁盤空間。
  • 聚集表在全表掃描時可能會更慢,尤其是數據行密集度不高或者是因為分頁導致存儲不連續。
  • 非聚集索引(Secondary Index)會比你預期的存儲要大,這是因為葉子節點包含了主鍵列引用的數據行。
  • 非聚集索引訪問時需要兩次索引查找而不是一次。這個可能感覺有點費解,其原因在于非聚集索引存儲的是數據行指針。記住,葉子節點并并不是存儲引用行的實際物理位置,而是該行的主鍵值。這意味著,使用非聚集索引查詢數據行時,存儲引擎首先通過非聚集索引找到其葉子節點,然后通過葉子節點的主鍵再找到數據行的值。這相當于進行了兩次二叉樹的查找,在InnoDB中,自適應的哈希索引可以減少這種概率。

InnoDB和MyISAM數據布局比較

聚集和非聚集數據布局,以及主鍵和非聚集索引的差別可能讓人困惑和奇怪。我們可以比較一下InnoDB和MyISAM對下面數據表的存儲布局來深入了解一下。

CREATE TABLE layout_test (
  col1 int NOT NULL,
  col2 int NOT NULL,
  PRIMARY KEY(col1),
  KEY(col2)
);

假設這個表產生了主鍵1到10000的數據,采用的是隨機順序插入的,然后在通過OPTIMIZE TABLE進行了優化。換言之,數據在磁盤上是有序排列的,但行可能是隨機順序的。數據列col2使用1-100的隨機值填充,因此存在很多的重復值。

MyISAM的數據布局更簡單些,MyISAM按照插入的順序在磁盤存儲數據,如下圖所示。我們以0開始展示了數據行編號,由于每一行的大小是固定的,MyISAM可以從表最開始的地方根據所需要的字節數來找到任意行(MyISAM內部并不總是使用行號,而是根據行是否固定大小或可變大小使用不同的策略)。


數據次序

這種結構使其很容易構建索引,下圖繪制了一個數據系列,這個圖中,物理的細節(例如存儲頁)被抽象隱藏,在索引中只有節點。每個索引的葉子節點可以簡單地包含對應的行號,在下圖是其主鍵。在這里隱藏了一些細節,例如在前一個節點后有少個內部的二叉樹節點,但這對于理解非聚集存儲引擎基礎的數據布局來說并不重要。


MyISAM聚集索引結構

那對于col2列的索引怎么樣。實際上,它和其他索引一樣。


MyISAM非聚集索引結構

事實上,在MyISAM中,主鍵和其他索引并沒有結構上的區別。主鍵只是一個簡單的唯一、不為空的索引,僅僅是名字命名為主鍵而已。

InnoDB由于聚集索引的組織方式,存儲同樣數據的結構十分不同,如下圖所示。


InnDB聚集索引結構

初看這張圖,感覺似乎和MyISAM的并無太大不同,但是仔細再看一遍,實際上這個圖展示了整張數據表,而不只是索引。由于聚集索引在InnoDB中已經是整張表了,因此這里沒有像在MyISAM中的獨立的行存儲。

InnoDB的聚集索引每個葉子節點都包含主鍵值、事務ID、回滾指針以便進行事務和MVCC(Multi Version Cocurrent Control, 并發多版本控制),以及剩下的其他列(示例數據表就是col2)。如果主鍵作用在一個列的前綴上,InnoDB會在其他列中包含主鍵列的完整值。

同樣,與MyISAM相比,非聚集索引和聚集索引有很大不同。相比于存儲行指針,InnoDB非聚集索引的葉子節點存儲的是主鍵值,由主鍵再指向數據。這個策略在行移動或數據分頁需要維護非聚集索引時,減少了很多工作。使用行主鍵值作為指針意味著索引更大,但也意味著InnoDB可以移動行而不需要去更新非聚集索引的指針。下圖展示了非聚集索引的數據布局,可以看到非聚集索引實際上存儲了主鍵的值。


InnoDB非聚集索引結構

這些圖展示了二叉樹的葉子節點,但是我們隱藏了非葉子節點的細節。InnoDB中非葉子節點的二叉樹的每一個節點都包含索引列,并另外附加了下一個層級的節點的指針(有可能是非葉子節點也可能是葉子節點)。這個對聚集索引和非聚集索引都一樣。下圖展示了InnoDB和MyISAM的索引的抽象結構對比,從中可以看出二者的不同之處。

InnoDB和MyISAM存儲結構對比
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,119評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,382評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,038評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,853評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,616評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,112評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,192評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,355評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,869評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,727評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,928評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,467評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,165評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,570評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,813評論 1 282
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,585評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,892評論 2 372

推薦閱讀更多精彩內容