MySQL（八）｜MySQL中In與Exists的區別（2）

關于In與Exists的比較，先說結論，歸納出IN 和Exists的適用場景：

1）IN查詢在內部表和外部表上都可以使用到索引。
2）Exists查詢僅在內部表上可以使用到索引。
3）當子查詢結果集很大，而外部表較小的時候，Exists的Block Nested Loop(Block 嵌套循環)的作用開始顯現，并彌補外部表無法用到索引的缺陷，查詢效率會優于IN。
4）當子查詢結果集較小，而外部表很大的時候，Exists的Block嵌套循環優化效果不明顯，IN 的外表索引優勢占主要作用，此時IN的查詢效率會優于Exists。
5）網上的說法不準確，即表的規模不是看內部表和外部表，而是外部表和子查詢結果集。
6）最后一點，也是最重要的一點：世間沒有絕對的真理，掌握事物的本質，針對不同的場景進行實踐驗證才是最可靠有效的方法。

以下是原文，之前和我一起討論這個問題的朋友在跟他公司DBA討論并做了幾次實驗之后整理的文章如下：

背景介紹

最近在寫SQL語句時，對選擇IN 還是Exists 猶豫不決，于是把兩種方法的SQL都寫出來對比一下執行效率，發現IN的查詢效率比Exists高了很多，于是想當然的認為IN的效率比Exists好，但本著尋根究底的原則，我想知道這個結論是否適用所有場景，以及為什么會出現這個結果。
網上查了一下相關資料，大體可以歸納為：外部表小，內部表大時，適用Exists；外部表大，內部表小時，適用IN。那我就困惑了，因為我的SQL語句里面，外表只有1W級別的數據，內表有30W級別的數據，按網上的說法應該是Exists的效率會比IN高的，但我的結果剛好相反！！
“沒有調查就沒有發言權”！于是我開始研究IN 和Exists的實際執行過程，從實踐的角度出發，在根本上去尋找原因，于是有了這篇博文分享。

實驗數據

我的實驗數據包括兩張表：t_author表和 t_poetry表。
對應表的數據量：
t_author表，13355條記錄；
t_poetry表，289917條記錄。
對應的表結構如下：

CREATE TABLE `t_poetry` (
`id` bigint(20) NOT NULL AUTO_INCREMENT,
`poetry_id` bigint(20) NOT NULL COMMENT '詩詞id',
`poetry_name` varchar(200) NOT NULL COMMENT '詩詞名稱',
`author_id` bigint(20) NOT NULL COMMENT '作者id'
PRIMARY KEY (`id`),
UNIQUE KEY `pid_idx` (`poetry_id`) USING BTREE,
KEY `aid_idx` (`author_id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=291270 DEFAULT CHARSET=utf8mb4


CREATE TABLE `t_author` (
`id` int(15) NOT NULL AUTO_INCREMENT,
`author_id` bigint(20) NOT NULL,
`author_name` varchar(32) NOT NULL,
`dynasty` varchar(16) NOT NULL,
`poetry_num` int(8) NOT NULL DEFAULT '0'
PRIMARY KEY (`id`),
UNIQUE KEY `authorid_idx` (`author_id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=13339 DEFAULT CHARSET=utf8mb4

執行計劃分析

IN 執行過程

sql示例：select * from tabA where tabA.x in (select x from tabB where y>0 );
其執行計劃：
（1）執行tabB表的子查詢，得到結果集B，可以使用到tabB表的索引y；
（2）執行tabA表的查詢，查詢條件是tabA.x在結果集B里面，可以使用到tabA表的索引x。

Exists執行過程

sql示例：select *from tabA where exists (select *from tabB where y>0);
其執行計劃：
（1）先將tabA表所有記錄取到。
（2）逐行針對tabA表的記錄，去關聯tabB表，判斷tabB表的子查詢是否有返回數據，5.5之后的版本使用Block Nested Loop(Block 嵌套循環)。
（3）如果子查詢有返回數據，則將tabA當前記錄返回到結果集。
tabA相當于取全表數據遍歷，tabB可以使用到索引。

實驗過程

實驗針對相同結果集的IN和Exists 的SQL語句進行分析。
包含IN的SQL語句：

select *from t_author ta where author_id in 
(select author_id from t_poetry tp where tp.poetry_id>3650 );

包含Exists的SQL語句：

select *from t_author ta where exists 
(select * from t_poetry tp where tp.poetry_id>3650 and tp.author_id=ta.author_id);

第一次實驗

數據情況

t_author表，13355條記錄；t_poetry表，子查詢篩選結果集 where poetry_id>293650 ，121條記錄；

執行結果

使用exists耗時0.94S，使用in耗時0.03S，IN 效率高于Exists。

原因分析

對t_poetry表的子查詢結果集很小，且兩者在t_poetry表都能使用索引，對t_poetry子查詢的消耗基本一致。兩者區別在于，使用 in 時，t_author表能使用索引:

MySQL查詢語句中的IN 和Exists 對比分析

使用exists時，t_author表全表掃描:

MySQL查詢語句中的IN 和Exists 對比分析

在子查詢結果集較小時，查詢耗時主要表現在對t_author表的遍歷上。

第二次實驗

數據情況

t_author表，13355條記錄；t_poetry表，子查詢篩選結果集 where poetry_id>3650 ，287838條記錄；

執行時間

使用exists耗時0.12S，使用in耗時0.48S，Exists 效率高于IN。

原因分析

兩者的索引使用情況跟第一次實驗是一致的，唯一區別是子查詢篩選結果集的大小不同，但實驗結果已經跟第一次的不同了。這種情況下子查詢結果集很大，我們看看mysql的查詢計劃：
使用in時，由于子查詢結果集很大，對t_author和t_poetry表都接近于全表掃描，此時對t_author表的遍歷耗時差異對整體效率影響可以忽略，執行計劃里多了一行<auto_key>，在接近全表掃描的情況下，mysql優化器選擇了auto_key來遍歷t_author表：

MySQL查詢語句中的IN 和Exists 對比分析

使用exists時，數據量的變化沒有帶來執行計劃的改變，但由于子查詢結果集很大，5.5以后的MySQL版本在exists匹配查詢結果時使用的是Block Nested-Loop（Block嵌套循環，引入join buffer，類似于緩存功能）開始對查詢效率產生顯著影響，尤其針對<font color=red>子查詢結果集很大</font>的情況下能顯著改善查詢匹配效率：

MySQL查詢語句中的IN 和Exists 對比分析

實驗結論

根據上述兩個實驗及實驗結果，我們可以較清晰的理解IN 和Exists的執行過程，并歸納出IN 和Exists的適用場景：

IN查詢在內部表和外部表上都可以使用到索引；
Exists查詢僅在內部表上可以使用到索引；
當子查詢結果集很大，而外部表較小的時候，Exists的Block Nested Loop(Block 嵌套循環)的作用開始顯現，并彌補外部表無法用到索引的缺陷，查詢效率會優于IN。
當子查詢結果集較小，而外部表很大的時候，Exists的Block嵌套循環優化效果不明顯，IN 的外表索引優勢占主要作用，此時IN的查詢效率會優于Exists。
網上的說法不準確，即表的規模不是看內部表和外部表，而是外部表和子查詢結果集。
最后一點，也是最重要的一點：世間沒有絕對的真理，掌握事物的本質，針對不同的場景進行實踐驗證才是最可靠有效的方法。

實驗過程中發現的問題補充

僅對不同數據集情況下的上述exists語句分析時發現，數據集越大，消耗的時間反而變小，覺得很奇怪。
具體查詢條件為：
where tp.poetry_id>3650，耗時0.13S
where tp.poetry_id>293650，耗時0.46S
可能原因：條件值大，查詢越靠后，需要遍歷的記錄越多，造成最終消耗越多的時間。這個解釋有待進一步驗證后再補充。

原文在MySQL查詢語句中的IN 和Exists 對比分析

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

MySQL（八）｜MySQL中In與Exists的區別（2）

MySQL（八）｜MySQL中In與Exists的區別（2）

背景介紹

實驗數據

執行計劃分析

IN 執行過程

Exists執行過程

實驗過程

第一次實驗

數據情況

執行結果

原因分析

第二次實驗

數據情況

執行時間

原因分析

實驗結論

實驗過程中發現的問題補充

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

MySQL（八）｜MySQL中In與Exists的區別（2）

背景介紹

實驗數據

執行計劃分析

IN 執行過程

Exists執行過程

實驗過程

第一次實驗

數據情況

執行結果

原因分析

第二次實驗

數據情況

執行時間

原因分析

實驗結論

實驗過程中發現的問題補充

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频