數據庫學習筆記-索引
[TOC]
索引
本質
索引是數據結構,是一種排好序的快速查找數據結構
數據本身之外,數據庫還維護者一個滿足特定查找算法的數據結構,這些數據結構以某種方式指向數據,這樣就可以在這些數據結構的基礎上實現高級查找算法,這種數據結構就是索引
官方定義
索引(Index)是幫助MySQL高效獲取數據的數據結構
目的
提高查找效率,類比字典
功能
- 排序(影響到order by后的排序條件排序的速度)
- 查找速度(影響到where后面的條件查找速度)
優勢
- 類似大學圖書館建書目錄索引,提高數據檢索的效率,降低數據庫的IO成本
- 通過索引對數據進行排序,降低數據排序的成本,降低了CPU的消耗
劣勢
- 索引也是一張表,表保存了主鍵與索引字段,并指向實體表的記錄,所以索引列也是要占空間的
- 索引大大提高了查詢速度,但是卻會降低更新表的速度,如對表進行insert、update和delete,因為更新表,MySQL不僅要保存數據,還要保存一下索引文件每次更新添加了索引列的字段,都會因為調整因為更新所帶來的鍵值變化后的索引信息
索引分類
- 單值索引-一個索引只包含單個列,一張表可以又多個單值索引
- 唯一索引-索引列值必須唯一,但是允許有空值
- 復合索引,一個索引包含多個列
MySQL索引結構
-
BTree索引
檢索原理:
3層的b+樹可以表示上百萬的數據,查詢一個存在的數據只需要3次數據庫IO
什么時候需要創建索引
- 主鍵自動建立唯一索引
- 頻繁作為查詢條件的字段應該創建索引
- 查詢中與其他表關聯的字段,外鍵關系建立索引
- 頻繁更新的字段不適合創建索引,因為每次更新不單單是更新了記錄還會更新索引文件
- where條件用不到的字段不創建索引
- 高并發下傾向創建組合索引
- 查詢中排序的字段,排序字段如果通過索引去訪問將大大提高排序速度
- 查詢中統計或者分組字段
什么情況不需要創建索引
- 表記錄太少
- 經常增刪改的表
- 數據重復且分布平均的表,索引的選擇性是指列中不同值的數據與總數據的比,重復的內容建立索引的意義不大
性能分析
MySQL Optimizer(MySQL有專門負責優化select語句的優化器模塊,主要功能:通過計算分析系統中收集到的統計信息,客戶端請求的Query提供它認為最優的執行計劃)
-
explain
用法:explain+寫的SQL(explain select * from talbe)
-
explain透露的信息:表的讀取順序、數據讀取操作的操作類型、哪些索引可以使用、哪些索引被實際使用、表之間的引用和每張表有多少行被優化器查詢
-
id - select查詢的序列號,包含一組數字,表示查詢中執行select子句或操作表的順序
- id相同的情況,表示執行的順序由上至下
- id不同的情況,如果是子查詢id值會遞增,id值越大優先級越高,最早被執行,主查詢最后執行
- id相同不同同時存在,id大的先執行,id相同的順序執行
-
select_type
- simple-普通查詢,查詢中不包含子查詢或者union
- primary-主查詢,最后執行的查詢
- subquery-子查詢,包含了子查詢
- derived 在from列表中包含的子查詢被標記為derived(衍生)MySQL會遞歸執行這些子查詢,把結果放在臨時表中
- 若第二個select出現在union后,則被標記為union;若union包含在from子句的子查詢中,外層select將被標記為:derived
- union result 兩種union結果的合并
table
-
type-顯示查詢使用了何種類型
查詢類型優化排序:system>const>eq_ref>ref>range>index>all
system-表只有一行記錄,等于系統表,屬于const的例,平時不會出現,基本可以忽略
const-通過索引一次就查詢到了,const用于比較primary key或者unique索引。因為只匹配一行數據,所以很快。用于直接按主鍵或者唯一索引讀取的情況。
eq_ref-唯一性索引掃描,對于每個索引鍵,表中只有一條記錄與之匹配。常見于主鍵或者唯一索引掃描。用于連表查詢的情況。
ref-非唯一性索引掃描,返回匹配某個單獨值得所有行,本質上也是一種索引訪問,它返回的所有匹配某個單獨值的行,然而,它可能會找到多個符合條件的行,所以他應該屬于查找和掃描的混合體
range-只檢索給定檢索給定范圍的行,使用一個索引來選擇行。一般就是where語句中出現了between、<、>、in等查詢
index-Full Index Scan,index與ALL的區別index類型只遍歷索引樹。通常比ALL快,因為索引文件通常比數據文件小,index從索引中讀,all從硬盤中讀
-
all-Full Table Scan,遍歷全表以找到匹配的行
一般來說,最好能達到range,最好能達到ref
-
possible_keys和key
possible_keys-理論上用到的索引
key-實際上用到的索引
分幾種情況 理論上會用到某索引,實際上用到了某索引。理論上不會用到某索引,實際上用到了某索引。理論上會用到某索引,實際上沒用到某索引
key_len -表示索引中使用的字節數,可通過該列計算查詢中使用的索引的長度。在不損失精確性的情況下,該長度越短越好。key_len顯示的值為索引字段的最大可能長度,并非實際使用長度,即key_len是根據表定義計算而得,不是通過表內檢索出的
ref-顯示索引的哪一列被使用了,如果可能的話,是一個常數。哪些列或者常量用于被查找索引列上的值
rows-大致估算找到所需記錄需要加載的記錄行數
-
extra-包含不適合在其他列中顯示但是十分重要的額外信息
- using filesort-說明mysql會對數據使用一個外部的索引排序,而不是按照表內的索引順序進行讀取。MySQL中無法利用索引完成的排序操作稱為“文件排序”,出現這種說明排序效率很低
- using remporary-為了排序新建了個內部的臨時表保存中間表結果,再刪除臨時表。常見于order by,group by
- using index-相應的select操作使用了覆蓋索引,效率不錯。同時出現了using where 說明用where進行了索引鍵值的查找,沒有出現說明索引用來讀取數據而非查找動作
- using where
- using join buffer -使用連接緩存
- impossible where - where子句的值總是false,不能用來獲取元組
- select tables optimized away
- distinct-優化distinct操作,找到第一個匹配的值就收工
-
-
MySQL常見瓶頸
- CPU:CPU在飽和的時候一般發生在數據裝入內存或者從磁盤上讀取數據的時候
- IO:磁盤IO瓶頸發生在裝入數據遠大于內存容量的時候
- 服務器硬件的性能瓶頸:top,free,iostat和vmstat來查看系統的性能狀態