分布式環境下的數據一致性問題的方案討論

由于互聯網目前越來越強調分布式架構，如果是交易類系統，面臨的將會是分布式事務上的挑戰。當然目前有很多開源的分布式事務產品，例如java JTA，但是這種解決方案的成本是非常高的，而且實現起來非常復雜，效率也比較低下。對于極端的情況：例如發布，故障的時候都是沒有辦法保證強一致性的。

首先，在目前的互聯網應用中，我們通過一個比較常見的例子，讓大家更深入的了解一下分布式系統設計中關于數據一致性的問題。拿我們經常使用的功能來考慮吧，最近網購比較熱門，就以京東為例的，我們來看看京東的一個簡單的購物流程

用戶在京東上下了一個訂單，發現自己在京東的賬戶里面有余額，然后使用余額支付，支付成功之后，訂單狀態修改為支付成功，然后通知倉庫發貨。假設訂單系統，支付系統，倉庫系統是三個獨立的應用，是獨立部署的，系統之間通過遠程服務調用。

訂單的有三個狀態：I:初始 P:已支付 W:已出庫，訂單金額100, 會員帳戶余額200

如果整個流程比較順利，正常情況下，訂單的狀態會變為I->P->W，會員帳戶余額100，訂單出庫。

但是如果流程不順利了呢？考慮以下幾種情況

1：訂單系統調用支付系統支付訂單，支付成功，但是返回給訂單系統數據超時，訂單還是I（初始狀態），但是此時會員帳戶余額100,會員肯定會馬上找京東罵京東，為啥不給老子發貨，我都付錢了

2：訂單系統調用支付系統成功，狀態也已經更新成功，但是通知倉庫發貨失敗，這個時候訂單是P（已支付）狀態，此時會員帳戶余額是100,但是倉庫不會發貨。會員也要罵京東。

3：訂單系統調用支付系統成功，狀態也已經更新成功，然后通知倉庫發貨，倉庫告訴訂單系統，沒有貨了。這個時候數據狀態和第二種情況一樣。

對于情況一的問題，我們來分析一下解決方案，能想到的解決方案如下

1 假設調用支付系統支付訂單的時候先不扣錢，訂單狀態更新完成之后，在通知支付系統你扣錢

如果采用這種設計方案，那么在同一時刻，這個用戶，又支付了另外一筆訂單，訂單價格200，順利完成了整個訂單支付流程，由于當前訂單的狀態已經變成了支付成功，但是實際用戶已經沒有錢支付了，這筆訂單的狀態就不一致了。即使用戶在同一個時刻沒有進行另外的訂單支付行為，通知支付系統扣錢這個動作也有可能完不成，因為也有可能失敗，反而增加了系統的復雜性。

2 訂單系統自動發起重試，多重試幾次，例如三次，直到扣款成功為止。

這個看起來也是不錯的考慮，但是和解決方案一樣，解決不了問題，還會帶來新的問題，假設訂單系統第一次調用支付系統成功，但是沒有辦法收到應答，訂單系統又發起調用，完了，重復支付，一次訂單支付了200。

假設支付系統正在發布，你重試多少次都一樣，都會失敗。這個時候用戶在等待，你怎么處理？

3 在第二種方案的基礎上，我們先解決訂單的重復支付行為，我們需要在支付系統上對訂單號進行控制，一筆訂單如果已經支付成功，不能在進行支付。返回重復支付標識。那么訂單系統根據返回的標識，更新訂單狀態。

接下來解決重試問題，我們假設應用上重試三次，如果三次都失敗，先返回給用戶提示支付結果未知。假設這個時候用戶重新發起支付，訂單系統調用支付系統，發現訂單已經支付，那么繼續下面的流程。如果會員沒有發起支付，系統定時（一分鐘一次）去核對訂單狀態，如果發現已經被支付，則繼續后續的流程。

這種方案，用戶體驗非常差，告訴用戶支付結果未知，用戶一定會罵你，你丫咋回事情，我明明支付了，你告訴我未知。假設告訴用戶支付失敗，萬一實際是成功的咋辦。你告訴用戶支付成功，萬一支付失敗咋辦。

4 第三種方案能夠解決訂單和支付數據的一致性問題，但是用戶體驗非常差。當然這種情況比較可能是少數，可以犧牲這一部分的用戶體驗，我們還有沒有更好的解決方案，既能照顧用戶體驗，又能夠保證資金的安全性。

我們再回來看看第一種方案，我們先不扣錢，但是有木有辦法讓這一部分錢不讓用戶使用，對了，我們先把這一部分錢凍結起來。訂單系統先調用支付系統成功的時候，支付系統先不扣錢，而是先把錢凍結起來，不讓用戶給其他訂單支付，然后等訂單系統把訂單狀態更新為支付成功的時候，再通知支付系統，你扣錢吧，這個時候支付系統扣錢，完成后續的操作。

看起來這個方案不錯，我們仔細在分析一下流程，這個方案還存在什么問題，假設訂單系統在調用支付系統凍結的時候，支付系統凍結成功，但是訂單系統超時，這個時候返回給用戶，告知用戶支付失敗，如果用戶再次支付這筆訂單，那么由于支付系統進行控制，告訴訂單系統凍結成功，訂單系統更新狀態，然后通知支付系統，扣錢吧。如果這個時候通知失敗，木有問題，反正錢都已經是凍結的了，用戶不能用，我只要定時掃描訂單和支付狀態，進行扣錢而已。

那么如果變態的用戶重新拍下來一筆訂單,100塊錢，對新的訂單進行支付，這個時候由于先前那一筆訂單的錢被凍結了，這個時候用戶余額剩余100，凍結100，發現可用的余額足夠，那就直接在對用戶扣錢。這個時候余額剩余0，凍結100。先前那一筆怎么辦，一個辦法就是定時掃描，發現訂單狀態是初始的話，就對用戶的支付余額進行解凍處理。這個時候用戶的余額變成100，訂單數據和支付數據又一致了。　　　假設原先用戶余額只有100，被凍結了，用戶重新下單，支付的時候就失敗了啊，的確會發生這一種情況，所以要盡可能的保證在第一次訂單結果不明確的情況，盡早解凍用戶余額，比如10秒之內。但是不管如何快速，總有數據不一致的時刻，這個是沒有辦法避免的。

上面分析解決了第一個的問題以及相應的方案，發現在數據分布的環境下，很難絕對的保證數據一致性（任何一段區間），但是有辦法通過一種補償機制，最終保證數據的一致性。

下面再分析一下第二個問題：訂單系統調用支付系統成功，狀態也已經更新成功，但是通知倉庫發貨失敗，這個時候訂單是P（已支付）狀態，此時會員帳戶余額是100,但是倉庫不會發貨。會員也要罵京東。

通過上面的分析，這個相對來說是比較簡單的，我可以采取重試機制，如果發現通知倉庫發貨失敗，就一致重試，

這里面有兩種方式：

1 異步方式：通過類似MQ（消息通知）的機制，這個是異步的通知

2 同步調用：類似于遠程過程調用

對于同步的調用的方式，比較簡單，我們能夠及時獲取結果；對于異步的通知，就必須采用請求，應答的方式進行，這一點在（關于分布式系統的數據一致性問題(一)）里面有介紹。這里面就不再闡述。

來看看第三個問題：訂單系統調用支付系統成功，狀態也已經更新成功，然后通知倉庫發貨，倉庫告訴訂單系統，沒有貨了。這個時候數據狀態和第二種情況一樣。

我覺得這是一個很有意思的問題，我們還是考慮幾種解決的方案

1 在會員下單的時刻，就告訴倉庫，我要你把貨物留下來，

2 在會員支付訂單時候，在支付之前檢查倉庫有沒有貨，如果沒有貨，就告知會員木有貨物了

3 如果會員支付成功，這個時候沒有貨了，就會退款給用戶或者等待有貨的時候再發貨

正常情況，京東的倉庫一般都是有貨的，所以影響到的會員很少，但是在秒殺和營銷的時候，這個時候就不一定了，我們考慮假設倉庫有10臺iphone

如果采用第一種方案，

1 在會員下單的時候，相當于庫存就減1，那么用戶惡意拍下來，沒有去支付，就影響到了其他用戶的購買。京東可以設置一個訂單超時時間，如果這段時間內沒有支付，就自動取消訂單

2 在會員支付之前，檢查倉庫有貨，這種方案了，對于用戶體驗不好，但是對于京東比較好，至少我東西都賣出去了。那些沒有及時付款的用戶，只能投訴了京東無故取消訂單

3 第三種方案，這個方案體驗更不好，而且用戶感覺受到京東欺詐，但是對于京東來說，比第二種方案更有益，畢竟我還可以多賣出一點東西。

個人覺得，京東應該會采用第二種或者第三種方式來處理這類情況，我在微博上搜索了 “京東無故取消訂單”，發現果真和我預料的處理方式。不過至于這里的無故取消是不是技術上的原因我不知道，如果真的是技術上的原因，我覺得京東可以采用不同的處理方案。對于秒殺和促銷商品，可以考慮第一種方案，大多數人都會直接付款，畢竟便宜啊，如果用戶搶不到便宜的東西，抱怨當然很大了。這樣可以照顧大多數用戶的體驗。對于一般的訂單，可以采用第二種或者第三種方式，這種情況下，發生付款之后倉庫沒有貨的情況會比較少，并且就算發生了，用戶也會覺得無所謂，大不了退錢嗎，這樣就可以實現自己的利益最大化而最低程度的減少用戶體驗。

而鐵道部在這個問題上，采用的是第一種方案，為什么和京東不一樣，就是因為用戶體驗，如果用戶把票都買了，你告訴我木有票了，旅客會殺人的。哈哈，不過鐵道部不擔心票賣不出去，第一種方案對他影響沒有什么。

說了這么多，就是說分布式環境下（數據分布）要任何時刻保證數據一致性是不可能的，只能采取妥協的方案來保證數據最終一致性。這個也就是著名的CAP定理。

在前面的文章中，介紹了關于分布式系統中數據一致性的問題，這一篇主要介紹CAP定理以及自己對CAP定理的了解。

CAP定理是2000年，由 Eric Brewer 提出來的。Brewer認為在分布式的環境下設計和部署系統時，有3個核心的需求，以一種特殊的關系存在。這里的分布式系統說的是在物理上分布的系統，比如我們常見的web系統。

這3個核心的需求是：Consistency，Availability和Partition Tolerance，賦予了該理論另外一個名字－ CAP。

Consistency：一致性，這個和數據庫ACID的一致性類似，但這里關注的所有數據節點上的數據一致性和正確性，而數據庫的ACID關注的是在在一個事務內，對數據的一些約束。

Availability：可用性，關注的在某個結點的數據是否可用，可以認為某一個節點的系統是否可用，通信故障除外。

Partition Tolerance：分區容忍性，是否可以對數據進行分區。這是考慮到性能和可伸縮性。

為什么不能完全保證這個三點了，個人覺得主要是因為一旦進行分區了，就說明了必須節點之間必須進行通信，涉及到通信，就無法確保在有限的時間內完成指定的行文，如果要求兩個操作之間要完整的進行，因為涉及到通信，肯定存在某一個時刻只完成一部分的業務操作，在通信完成的這一段時間內，數據就是不一致性的。如果要求保證一致性，那么就必須在通信完成這一段時間內保護數據，使得任何訪問這些數據的操作不可用。

如果想保證一致性和可用性，那么數據就不能夠分區。一個簡單的理解就是所有的數據就必須存放在一個數據庫里面，不能進行數據庫拆分。這個對于大數據量，高并發的互聯網應用來說，是不可接受的。

我們可以拿一個簡單的例子來說明：假設一個購物系統，賣家A和賣家B做了一筆交易100元，交易成功了，買家把錢給賣家。

這里面存在兩張表的數據：Trade表Account表，涉及到三條數據Trade(100),Account A ,Account B

假設 trade表和account表在一個數據庫，那么只需要使用數據庫的事務，就可以保證一致性，同時不會影響可用性。但是隨著交易量越來越大，我們可以考慮按照業務分庫，把交易庫和account庫單獨分開，這樣就涉及到trade庫和account庫進行通信，也就是存在了分區，那么我們就不可能同時保證可用性和一致性。

我們假設初始狀態

trade(buyer,seller,tradeNo,status) = trade(A,B,20121001,I)

account(accountNo,balance) = account(A,300)

account(accountNo,balance) = account(B,10)

在理想情況下，我們期望的狀態是

trade(buyer,seller,tradeNo,status) = trade(A,B,20121001,S)

account(accountNo,balance) = account(A,200)

account(accountNo,balance) = account(B,110)

但是考慮到一些異常情況

假設在trade(20121001,S)更新完成之后，帳戶A進行扣款之前，帳戶A進行了另外一筆300款錢的交易，把錢消費了，那么就存在一個狀態

trade(buyer,seller,tradeNo,status) = trade(A,B,20121001,S)

account(accountNo,balance) = account(A,0)

account(accountNo,balance) = account(B,10)

產生了數據不一致的狀態

由于這個涉及到資金上的問題，對資金要求比較高，我們必須保證一致性，那么怎么辦，只能在進行trade(A,B,20121001)交易的時候，對于任何A的后續交易請求trade(A,X,X)，必須等到A完成之后，才能夠進行處理，也就是說在進行trade(A,B,20121001)的時候，Account(A)的數據是不可用的。

任何架構師在設計分布式的系統的時候，都必須在這三者之間進行取舍。首先就是是否選擇分區，由于在一個數據分區內，根據數據庫的ACID特性，是可以保證一致性的，不會存在可用性和一致性的問題，唯一需要考慮的就是性能問題。對于可用性和一致性，大多數應用就必須保證可用性，畢竟是互聯網應用，犧牲了可用性，相當于間接的影響了用戶體驗，而唯一可以考慮就是一致性了。

犧牲一致性

對于犧牲一致性的情況最多的就是緩存和數據庫的數據同步問題，我們把緩存看做一個數據分區節點，數據庫看作另外一個節點，這兩個節點之間的數據在任何時刻都無法保證一致性的。在web2.0這樣的業務，開心網來舉例子，訪問一個用戶的信息的時候，可以先訪問緩存的數據，但是如果用戶修改了自己的一些信息，首先修改的是數據庫，然后在通知緩存進行更新，這段期間內就會導致的數據不一致，用戶可能訪問的是一個過期的緩存，而不是最新的數據。但是由于這些業務對一致性的要求不太高，不會帶來太大的影響。

異常錯誤檢測和補償

還有一種犧牲一致性的方法就是通過一種錯誤補償機制來進行，可以拿上面購物的例子來說，假設我們把業務邏輯順序調整一下，先扣買家錢，然后更新交易狀態，在把錢打給賣家

我們假設初始狀態

account(accountNo,balance) = account(A,300)

account(accountNo,balance) = account(B,10)

trade(buyer,seller,tradeNo,status) = trade(A,B,20121001,I)

那么有可能出現

account(accountNo,balance) = account(A,200)

trade(buyer,seller,tradeNo,status) = trade(A,B,20121001,S)

account(accountNo,balance) = account(B,10)

那么就出現了A扣款成功，交易狀態也成功了，但是錢沒有打給B，這個時候可以通過一個時候的異常恢復機制，把錢打給B，最終的情況保證了一致性，在一定時間內數據可能是不一致的，但是不會影響太大。

上面的異常檢測恢復機制（事后補償），這種機制其實還是有限制，首先對于分區檢測操作，不同的業務涉及到的分區操作可能不一樣。所以這只能作為一種思想，不能做一個通用的解決方案。

最后編輯于：2017.12.04 00:44:26

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,797評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,179評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,628評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,642評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,444評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 54,948評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,040評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,185評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,717評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,794評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,418評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,414評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,750評論 2贊 370

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

分布式環境下的數據一致性問題的方案討論

分布式環境下的數據一致性問題的方案討論

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

分布式環境下的數據一致性問題的方案討論

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频