Lettuce RedisCommandTimeoutException

偶然看到的問題技術分享：Spring Boot默認Redis Client Lettuce報出RedisCommandTimeoutException，多臺客戶端集群只有一臺出現報錯，無法立即重連，持續15min后自動恢復報錯消失，再次發現又是15min，過程中Redis沒有宕機。

一、排查過程：

從報錯來看，猜測是單純網絡問題，但都是15分鐘后自動恢復，所以猜測并不只是網絡抖動，而且網絡15分鐘以內應該已經恢復，但是客戶端沒有及時重連，所以代碼邏輯上也有問題
報錯前客戶端訪問Redis正常，排除長時間閑置導致客戶端斷開，應該并沒有達到本機Keepalive時間（猜測），如果Keepalive超時斷連，客戶端應該也會觸發重連
分析Lettuce后，發現Lettuce內部Netty觸發ChannelInactived后就會重連，ChannelInactived是客戶端斷開后的回調，所以猜測客戶端15分鐘后才斷連，觸發了重連
然后分析服務端，Redis并沒有重啟，就算進程退出，正常在結束時TCP也會觸發close()，客戶端收到后也會及時退出
猜測網絡抖動服務端因為Keepalive關閉連接，FIN并沒有到達客戶端，導致了TCP半打開，這也能解釋客戶端并沒有及時觸發ChannelInactived
剩下2個問題，為什么是15分鐘，還有重試時為什么客戶會端超時，而不是服務端返回RST（我印象里半打開服務端恢復后客戶端再發消息會返回RST，進而客戶端收到后會斷連?。?/li>
原文分享了一個issue：https://github.com/lettuce-io/lettuce-core/issues/1428

二、相關概念

TCP半打開、半連接、半關閉：

半打開：TCP正常連接下，程序退出會主動斷連，但遇上斷電、斷網等場景，無法發出斷連消息，對方不知道連接已失效的狀態，不發消息的情況下，只能通過KeepAlive等機制探活超時后關閉
半連接：三次握手發起方一直不發起最后一次握手，連接會堆在syns queue時的狀態
半關閉：四次揮手時，發起方發送FIN，對方回復ACK后不發出FIN時的狀態

KeepAlive常用的探活機制：啟用SO_KEEPALIVE進行探活，如果無法返回則認為對方宕機，后續可以采取重連或其他措施

SO_KEEPALIVE：是否開啟KeepAlive
TCP_KEEPIDLE：N秒內連接沒有任何網絡傳輸，就啟動KeepAlive機制
TCP_KEEPINTVL：啟動KeepAlive時，每隔N秒發一次探活包
TCP_KEEPCNT：N次探活包沒有響應，認為對方宕機

這里有個問題，KeepAlive啟動的場景是在一個正常響應后，就是說如果上一個數據包發送沒有響應，這時是超時重試階段，系統并不會啟動KeepAlive進行探活，只是簡單的認為卡了
tcp_retries2：Linux配置，默認15次代表tcp請求重試次數，重試的時間從200ms指數增長，最大120s，總時長15.4min，如果15.4min還是超時則斷開連接，重試次數和時間分布如下圖，這個問題之前竟然沒注意過！

tcp_retries2重試次數和時間
關于服務端閃斷后對客戶端連接的影響（半打開）：

如果客戶端一直沒有數據傳輸：這時客戶端無法知道服務端狀態，沒有其他機制影響會一直保持正常連接
如果客戶端發送了數據，服務端一直沒有恢復：這時因為對端沒有返回ACK所以默認連接會重試15次共15.4min后觸發超時斷開連接，即tcp_retries2
如果客戶端發送了數據，服務端已恢復，或重試過程中恢復：需要確認服務端這個連接還有沒有保持，如果服務端重啟，或服務端KeepAlive等機制導致連接已經丟棄，客戶端重試tcp_retries2后會超時斷開連接！如果服務端還保持連接則恢復正常通信
這里有個誤區！一直以為半打開服務端恢復服務后如果連接已經被清理，發送消息會回復RST！但其實會一直擱置導致超時。這個可能存在爭議，看過一些文章有寫會返回RST，但是問題排查和本地自測結果確實會tcp_retries2超時后斷連，可能問題就在這！

TCP_USER_TIMEOUT：代表數據包N秒沒收到響應，觸發超時，配置后tcp_retries2會失效！

三、代碼調整：

按Git issue建議，減小Keepalive的檢測時間，同時增加TCP_USER_TIMEOUT機制
TCP_USER_TIMEOUT負責請求超時處理，Keepalive負責空閑時心跳檢測

四、總結：

雖然配置能對應報錯，修改后應該也沒有復現Bug，但沒有保留現場無法抓包確認，最直接能確認問題是當時的服務端、客戶端的連接狀態，和服務端是否發出FIN包未到達客戶端，大概率是因為節點網絡問題導致整個節點全部半打開，其他未受影響。

五、后續：

正好同事遇到了這個問題，客戶端Jedis，使用Redis PubSub，并沒有出現超時，因為只是單純收消息并沒有發，發生問題時網絡原因斷網一段時間，因服務端Keepalive時間較短，客戶端Keepalive較長，網絡在服務端Keepalive內沒有恢復，服務端連接斷開，產生半打開，此后客戶端一直收不到消息，直到客戶端Keepalive生效，連接重連，符合上述推測
這個問題也可以發現，半打開導致的bug和Redis客戶端沒有太大關系，是TCP層面的邏輯，完全取決于Keepalive相關的配置

最后編輯于：2023.11.29 09:09:34

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,572評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,071評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 175,409評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,569評論 1贊 307
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,360評論 6贊 404
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,895評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 42,979評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,123評論 0贊 286
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,643評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,559評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,742評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,250評論 5贊 356
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 43,981評論 3贊 346
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,363評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,622評論 1贊 280
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,354評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,707評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Lettuce RedisCommandTimeoutException

Lettuce RedisCommandTimeoutException

一、排查過程：

二、相關概念

三、代碼調整：

四、總結：

五、后續：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Lettuce RedisCommandTimeoutException

一、排查過程：

二、相關概念

三、代碼調整：

四、總結：

五、后續：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

一、排查過程：

二、相關概念

五、后續：