一文講透微服務下如何保證事務的一致性

原文地址:梁桂釗的博客

博客地址:http://blog.720ui.com

歡迎關注公眾號:「服務端思維」。一群同頻者,一起成長,一起精進,打破認知的局限性。

從本地事務到分布式事務的演變

什么是事務?回答這個問題之前,我們先來看一個經典的場景:支付寶等交易平臺的轉賬。假設小明需要用支付寶給小紅轉賬 100000 元,此時,小明帳號會少 100000 元,而小紅帳號會多 100000 元。如果在轉賬過程中系統崩潰了,小明帳號少 100000 元,而小紅帳號金額不變,就會出大問題,因此這個時候我們就需要使用事務了。請參見圖 6-1。

這里,體現了事務一個很重要的特性:原子性。事實上,事務有四個基本特性:原子性、一致性、隔離性、持久性。其中,原子性,即事務內的操作要么全部成功,要么全部失敗,不會在中間的某個環節結束。一致性,即使數據庫在一個事務執行之前和執行之后,數據庫都必須處于一致性狀態。如果事務執行失敗,那么需要自動回滾到原始狀態,換句話說,事務一旦提交,其他事務查看到的結果一致,事務一旦回滾,其他事務也只能看到回滾前的狀態。隔離性,即在并發環境中,不同的事務同時修改相同的數據時,一個未完成事務不會影響另外一個未完成事務。持久性,即事務一旦提交,其修改的數據將永久保存到數據庫中,其改變是永久性的。

本地事務通過 ACID 保證數據的強一致性。ACID是 Atomic(原子性)、Consistency(一致性)、 Isolation(隔離性)和 Durability(持久性)的縮寫 。在實際開發過程中,我們或多或少都有使用到本地事務。例如,MySQL 事務處理使用到 begin 開始一個事務,rollback 事務回滾,commit 事務確認。這里,事務提交后,通過 redo log 記錄變更,通過 undo log 在失敗時進行回滾,保證事務的原子性。筆者補充下,使用 Java 語言的開發者都接觸過 Spring。Spring 使用 @Transactional 注解就可以搞定事務功能。事實上,Spring 封裝了這些細節,在生成相關的 Bean 的時候,在需要注入相關的帶有 @Transactional 注解的 bean 時候用代理去注入,在代理中為我們開啟提交/回滾事務。請參見圖6-2。

隨著業務的高速發展,面對海量數據,例如,上千萬甚至上億的數據,查詢一次所花費的時間會變長,甚至會造成數據庫的單點壓力。因此,我們就要考慮分庫與分表方案了。分庫與分表的目的在于,減小數據庫的單庫單表負擔,提高查詢性能,縮短查詢時間。這里,我們先來看下單庫拆分的場景。事實上,分表策略可以歸納為垂直拆分和水平拆分。垂直拆分,把表的字段進行拆分,即一張字段比較多的表拆分為多張表,這樣使得行數據變小。一方面,可以減少客戶端程序和數據庫之間的網絡傳輸的字節數,因為生產環境共享同一個網絡帶寬,隨著并發查詢的增多,有可能造成帶寬瓶頸從而造成阻塞。另一方面,一個數據塊能存放更多的數據,在查詢時就會減少 I/O 次數。水平拆分,把表的行進行拆分。因為表的行數超過幾百萬行時,就會變慢,這時可以把一張的表的數據拆成多張表來存放。水平拆分,有許多策略,例如,取模分表,時間維度分表等。這種場景下,雖然我們根據特定規則分表了,我們仍然可以使用本地事務。但是,庫內分表,僅僅是解決了單表數據過大的問題,但并沒有把單表的數據分散到不同的物理機上,因此并不能減輕 MySQL 服務器的壓力,仍然存在同一個物理機上的資源競爭和瓶頸,包括 CPU、內存、磁盤 IO、網絡帶寬等。對于分庫拆分的場景,它把一張表的數據劃分到不同的數據庫,多個數據庫的表結構一樣。此時,如果我們根據一定規則將我們需要使用事務的數據路由到相同的庫中,可以通過本地事務保證其強一致性。但是,對于按照業務和功能劃分的垂直拆分,它將把業務數據分別放到不同的數據庫中。這里,拆分后的系統就會遇到數據的一致性問題,因為我們需要通過事務保證的數據分散在不同的數據庫中,而每個數據庫只能保證自己的數據可以滿足 ACID 保證強一致性,但是在分布式系統中,它們可能部署在不同的服務器上,只能通過網絡進行通信,因此無法準確的知道其他數據庫中的事務執行情況。請參見圖6-3。

此外,不僅僅在跨庫調用存在本地事務無法解決的問題,隨著微服務的落地中,每個服務都有自己的數據庫,并且數據庫是相互獨立且透明的。那如果服務 A 需要獲取服務 B 的數據,就存在跨服務調用,如果遇到服務宕機,或者網絡連接異常、同步調用超時等場景就會導致數據的不一致,這個也是一種分布式場景下需要考慮數據一致性問題。請參見圖6-4。

總結一下,當業務量級擴大之后的分庫,以及微服務落地之后的業務服務化,都會產生分布式數據不一致的問題。既然本地事務無法滿足需求,因此分布式事務就要登上舞臺。什么是分布式事務?我們可以簡單地理解,它就是為了保證不同數據庫的數據一致性的事務解決方案。這里,我們有必要先來了解下 CAP 原則和 BASE 理論。CAP 原則是 Consistency(一致性)、Availablity(可用性)和 Partition-tolerance(分區容錯性)的縮寫,它是分布式系統中的平衡理論。在分布式系統中,一致性要求所有節點每次讀操作都能保證獲取到最新數據;可用性要求無論任何故障產生后都能保證服務仍然可用;分區容錯性要求被分區的節點可以正常對外提供服務。事實上,任何系統只可同時滿足其中二個,無法三者兼顧。對于分布式系統而言,分區容錯性是一個最基本的要求。那么,如果選擇了一致性和分區容錯性,放棄可用性,那么網絡問題會導致系統不可用。如果選擇可用性和分區容錯性,放棄一致性,不同的節點之間的數據不能及時同步數據而導致數據的不一致。請參見圖 6-5。

此時,BASE 理論針對一致性和可用性提出了一個方案,BASE 是 Basically Available(基本可用)、Soft-state(軟狀態)和 Eventually Consistent(最終一致性)的縮寫,它是最終一致性的理論支撐。簡單地理解,在分布式系統中,允許損失部分可用性,并且不同節點進行數據同步的過程存在延時,但是在經過一段時間的修復后,最終能夠達到數據的最終一致性。BASE 強調的是數據的最終一致性。相比于 ACID 而言,BASE 通過允許損失部分一致性來獲得可用性。

現在,業內比較常用的分布式事務解決方案,包括強一致性的兩階段提交協議,三階段提交協議,以及最終一致性的可靠事件模式、補償模式,阿里的 TCC 模式。我們會在后面的章節中詳細介紹與實戰。

強一致性解決方案

二階段提交協議

在分布式系統中,每個數據庫只能保證自己的數據可以滿足 ACID 保證強一致性,但是它們可能部署在不同的服務器上,只能通過網絡進行通信,因此無法準確的知道其他數據庫中的事務執行情況。因此,為了解決多個節點之間的協調問題,就需要引入一個協調者負責控制所有節點的操作結果,要么全部成功,要么全部失敗。其中,XA 協議是一個分布式事務協議,它有兩個角色:事務管理者和資源管理者。這里,我們可以把事務管理者理解為協調者,而資源管理者理解為參與者。

XA 協議通過二階段提交協議保證強一致性。

二階段提交協議,顧名思義,它具有兩個階段:第一階段準備,第二階段提交。這里,事務管理者(協調者)主要負責控制所有節點的操作結果,包括準備流程和提交流程。第一階段,事務管理者(協調者)向資源管理者(參與者)發起準備指令,詢問資源管理者(參與者)預提交是否成功。如果資源管理者(參與者)可以完成,就會執行操作,并不提交,最后給出自己響應結果,是預提交成功還是預提交失敗。第二階段,如果全部資源管理者(參與者)都回復預提交成功,資源管理者(參與者)正式提交命令。如果其中有一個資源管理者(參與者)回復預提交失敗,則事務管理者(協調者)向所有的資源管理者(參與者)發起回滾命令。舉個案例,現在我們有一個事務管理者(協調者),三個資源管理者(參與者),那么這個事務中我們需要保證這三個參與者在事務過程中的數據的強一致性。首先,事務管理者(協調者)發起準備指令預判它們是否已經預提交成功了,如果全部回復預提交成功,那么事務管理者(協調者)正式發起提交命令執行數據的變更。請參見圖 6-6。

注意的是,雖然二階段提交協議為保證強一致性提出了一套解決方案,但是仍然存在一些問題。其一,事務管理者(協調者)主要負責控制所有節點的操作結果,包括準備流程和提交流程,但是整個流程是同步的,所以事務管理者(協調者)必須等待每一個資源管理者(參與者)返回操作結果后才能進行下一步操作。這樣就非常容易造成同步阻塞問題。其二,單點故障也是需要認真考慮的問題。事務管理者(協調者)和資源管理者(參與者)都可能出現宕機,如果資源管理者(參與者)出現故障則無法響應而一直等待,事務管理者(協調者)出現故障則事務流程就失去了控制者,換句話說,就是整個流程會一直阻塞,甚至極端的情況下,一部分資源管理者(參與者)數據執行提交,一部分沒有執行提交,也會出現數據不一致性。此時,讀者會提出疑問:這些問題應該都是小概率情況,一般是不會產生的?是的,但是對于分布式事務場景,我們不僅僅需要考慮正常邏輯流程,還需要關注小概率的異常場景,如果我們對異常場景缺乏處理方案,可能就會出現數據的不一致性,那么后期靠人工干預處理,會是一個成本非常大的任務,此外,對于交易的核心鏈路也許就不是數據問題,而是更加嚴重的資損問題。

三階段提交協議

二階段提交協議諸多問題,因此三階段提交協議就要登上舞臺了。三階段提交協議是二階段提交協議的改良版本,它與二階段提交協議不同之處在于,引入了超時機制解決同步阻塞問題,此外加入了預備階段盡可能提早發現無法執行的資源管理者(參與者)并且終止事務,如果全部資源管理者(參與者)都可以完成,才發起第二階段的準備和第三階段的提交。否則,其中任何一個資源管理者(參與者)回復執行,或者超時等待,那么就終止事務。總結一下,三階段提交協議包括:第一階段預備,第二階段準備,第二階段提交。請參見圖 6-7。

三階段提交協議很好的解決了二階段提交協議帶來的問題,是一個非常有參考意義的解決方案。但是,極小概率的場景下可能會出現數據的不一致性。因為三階段提交協議引入了超時機制,如果出現資源管理者(參與者)超時場景會默認提交成功,但是如果其沒有成功執行,或者其他資源管理者(參與者)出現回滾,那么就會出現數據的不一致性。

最終一致性解決方案

TCC 模式

二階段提交協議和三階段提交協議很好的解決了分布式事務的問題,但是在極端情況下仍然存在數據的不一致性,此外它對系統的開銷會比較大,引入事務管理者(協調者)后,比較容易出現單點瓶頸,以及在業務規模不斷變大的情況下,系統可伸縮性也會存在問題。注意的是,它是同步操作,因此引入事務后,直到全局事務結束才能釋放資源,性能可能是一個很大的問題。因此,在高并發場景下很少使用。因此,阿里提出了另外一種解決方案:TCC 模式。注意的是,很多讀者把二階段提交等同于二階段提交協議,這個是一個誤區,事實上,TCC 模式也是一種二階段提交。

TCC 模式將一個任務拆分三個操作:Try、Confirm、Cancel。假如,我們有一個 func() 方法,那么在 TCC 模式中,它就變成了 tryFunc()、confirmFunc()、cancelFunc() 三個方法。

tryFunc();
confirmFunc();
cancelFunc();

在 TCC 模式中,主業務服務負責發起流程,而從業務服務提供 TCC 模式的 Try、Confirm、Cancel 三個操作。其中,還有一個事務管理器的角色負責控制事務的一致性。例如,我們現在有三個業務服務:交易服務,庫存服務,支付服務。用戶選商品,下訂單,緊接著選擇支付方式進行付款,然后這筆請求,交易服務會先調用庫存服務扣庫存,然后交易服務再調用支付服務進行相關的支付操作,然后支付服務會請求第三方支付平臺創建交易并扣款,這里,交易服務就是主業務服務,而庫存服務和支付服務是從業務服務。請參見圖 6-8。

我們再來梳理下,TCC 模式的流程。第一階段主業務服務調用全部的從業務服務的 Try 操作,并且事務管理器記錄操作日志。第二階段,當全部從業務服務都成功時,再執行 Confirm 操作,否則會執行 Cancel 逆操作進行回滾。請參見圖 6-9。

現在,我們針對 TCC 模式說說大致業務上的實現思路。首先,交易服務(主業務服務)會向事務管理器注冊并啟動事務。其實,事務管理器是一個概念上的全局事務管理機制,可以是一個內嵌于主業務服務的業務邏輯,或者抽離出的一個 TCC 框架。事實上,它會生成全局事務 ID 用于記錄整個事務鏈路,并且實現了一套嵌套事務的處理邏輯。當主業務服務調用全部的從業務服務的 try 操作,事務管理器利用本地事務記錄相關事務日志,這個案例中,它記錄了調用庫存服務的動作記錄,以及調用支付服務的動作記錄,并將其狀態設置成“預提交”狀態。這里,調用從業務服務的 Try 操作就是核心的業務代碼。那么, Try 操作怎么和它相對應的 Confirm、Cancel 操作綁定呢?其實,我們可以編寫配置文件建立綁定關系,或者通過 Spring 的注解添加 confirm 和 cancel 兩個參數也是不錯的選擇。當全部從業務服務都成功時,由事務管理器通過 TCC 事務上下文切面執行 Confirm 操作,將其狀態設置成“成功”狀態,否則執行 Cancel 操作將其狀態設置成“預提交”狀態,然后進行重試。因此,TCC 模式通過補償的方式保證其最終一致性。

TCC 的實現框架有很多成熟的開源項目,例如 tcc-transaction 框架。(關于 tcc-transaction 框架的細節,可以閱讀:https://github.com/changmingxie/tcc-transaction)tcc-transaction 框架主要涉及 tcc-transaction-core、tcc-transaction-api、tcc-transaction-spring 三個模塊。其中,tcc-transaction-core 是 tcc-transaction 的底層實現,tcc-transaction-api 是 tcc-transaction 使用的 API,tcc-transaction-spring 是 tcc-transaction 的 Spring 支持。 tcc-transaction 將每個業務操作抽象成事務參與者,每個事務可以包含多個參與者。參與者需要聲明 try / confirm / cancel 三個類型的方法。這里,我們通過 @Compensable 注解標記在 try 方法上,并定義相應的 confirm / cancel 方法。

// try 方法
@Compensable(confirmMethod = "confirmRecord", cancelMethod = "cancelRecord", transactionContextEditor = MethodTransactionContextEditor.class)
@Transactional
public String record(TransactionContext transactionContext, CapitalTradeOrderDto tradeOrderDto) {}

// confirm 方法
@Transactional
public void confirmRecord(TransactionContext transactionContext, CapitalTradeOrderDto tradeOrderDto) {}

// cancel 方法
@Transactional
public void cancelRecord(TransactionContext transactionContext, CapitalTradeOrderDto tradeOrderDto) {}

對于 tcc-transaction 框架的實現,我們來了解一些核心思路。tcc-transaction 框架通過 @Compensable 切面進行攔截,可以透明化對參與者 confirm / cancel 方法調用,從而實現 TCC 模式。這里,tcc-transaction 有兩個攔截器,請參見圖 6-10。

  • org.mengyun.tcctransaction.interceptor.CompensableTransactionInterceptor,可補償事務攔截器。

  • org.mengyun.tcctransaction.interceptor.ResourceCoordinatorInterceptor,資源協調者攔截器。

這里,需要特別關注 TransactionContext 事務上下文,因為我們需要遠程調用服務的參與者時通過參數的形式傳遞事務給遠程參與者。在 tcc-transaction 中,一個事務org.mengyun.tcctransaction.Transaction可以有多個參與者org.mengyun.tcctransaction.Participant 參與業務活動。其中,事務編號 TransactionXid 用于唯一標識一個事務,它使用 UUID 算法生成,保證唯一性。當參與者進行遠程調用時,遠程的分支事務的事務編號等于該參與者的事務編號。通過事務編號的關聯 TCC confirm / cancel 方法,使用參與者的事務編號和遠程的分支事務進行關聯,從而實現事務的提交和回滾。事務狀態 TransactionStatus 包含 : 嘗試中狀態 TRYING(1)、確認中狀態 CONFIRMING(2)、取消中狀態 CANCELLING(3)。此外,事務類型 TransactionType 包含 : 根事務 ROOT(1)、分支事務 BRANCH(2)。當調用 TransactionManager#begin() 發起根事務時,類型為 MethodType.ROOT,并且事務 try 方法被調用。調用 TransactionManager#propagationNewBegin() 方法,傳播發起分支事務。該方法在調用方法類型為 MethodType.PROVIDER 并且 事務 try 方法被調用。調用 TransactionManager#commit() 方法提交事務。該方法在事務處于 confirm / cancel 方法被調用。類似地,調用 TransactionManager#rollback() 方法,取消事務。

此外,對于事務恢復機制,tcc-transaction 框架基于 Quartz 實現調度,按照一定頻率對事務進行重試,直到事務完成或超過最大重試次數。如果單個事務超過最大重試次數時,tcc-transaction 框架不再重試,此時需要手工介入解決。

這里,我們要特別注意操作的冪等性。冪等機制的核心是保證資源唯一性,例如重復提交或服務端的多次重試只會產生一份結果。支付場景、退款場景,涉及金錢的交易不能出現多次扣款等問題。事實上,查詢接口用于獲取資源,因為它只是查詢數據而不會影響到資源的變化,因此不管調用多少次接口,資源都不會改變,所以是它是冪等的。而新增接口是非冪等的,因為調用接口多次,它都將會產生資源的變化。因此,我們需要在出現重復提交時進行冪等處理。那么,如何保證冪等機制呢?事實上,我們有很多實現方案。其中,一種方案就是常見的創建唯一索引。在數據庫中針對我們需要約束的資源字段創建唯一索引,可以防止插入重復的數據。但是,遇到分庫分表的情況是,唯一索引也就不那么好使了,此時,我們可以先查詢一次數據庫,然后判斷是否約束的資源字段存在重復,沒有的重復時再進行插入操作。注意的是,為了避免并發場景,我們可以通過鎖機制,例如悲觀鎖與樂觀鎖保證數據的唯一性。這里,分布式鎖是一種經常使用的方案,它通常情況下是一種悲觀鎖的實現。但是,很多人經常把悲觀鎖、樂觀鎖、分布式鎖當作冪等機制的解決方案,這個是不正確的。除此之外,我們還可以引入狀態機,通過狀態機進行狀態的約束以及狀態跳轉,確保同一個業務的流程化執行,從而實現數據冪等。

補償模式

上節,我們提到了重試機制。事實上,它也是一種最終一致性的解決方案:我們需要通過最大努力不斷重試,保證數據庫的操作最終一定可以保證數據一致性,如果最終多次重試失敗可以根據相關日志并主動通知開發人員進行手工介入。注意的是,被調用方需要保證其冪等性。重試機制可以是同步機制,例如主業務服務調用超時或者非異常的調用失敗需要及時重新發起業務調用。重試機制可以大致分為固定次數的重試策略與固定時間的重試策略。除此之外,我們還可以借助消息隊列和定時任務機制。消息隊列的重試機制,即消息消費失敗則進行重新投遞,這樣就可以避免消息沒有被消費而被丟棄,例如 RocketMQ 可以默認允許每條消息最多重試 16 次,每次重試的間隔時間可以進行設置。定時任務的重試機制,我們可以創建一張任務執行表,并增加一個“重試次數”字段。這種設計方案中,我們可以在定時調用時,獲取這個任務是否是執行失敗的狀態并且沒有超過重試次數,如果是則進行失敗重試。但是,當出現執行失敗的狀態并且超過重試次數時,就說明這個任務永久失敗了,需要開發人員進行手工介入與排查問題。

除了重試機制之外,也可以在每次更新的時候進行修復。例如,對于社交互動的點贊數、收藏數、評論數等計數場景,也許因為網絡抖動或者相關服務不可用,導致某段時間內的數據不一致,我們就可以在每次更新的時候進行修復,保證系統經過一段較短的時間的自我恢復和修正,數據最終達到一致。需要注意的是,使用這種解決方案的情況下,如果某條數據出現不一致性,但是又沒有再次更新修復,那么其永遠都會是異常數據。

定時校對也是一種非常重要的解決手段,它采取周期性的進行校驗操作來保證。關于定時任務框架的選型上,業內比較常用的有單機場景下的 Quartz,以及分布式場景下 Elastic-Job、XXL-JOB、SchedulerX 等分布式定時任務中間件。關于定時校對可以分為兩種場景,一種是未完成的定時重試,例如我們利用定時任務掃描還未完成的調用任務,并通過補償機制來修復,實現數據最終達到一致。另一種是定時核對,它需要主業務服務提供相關查詢接口給從業務服務核對查詢,用于恢復丟失的業務數據。現在,我們來試想一下電商場景的退款業務。在這個退款業務中會存在一個退款基礎服務和自動化退款服務。此時,自動化退款服務在退款基礎服務的基礎上實現退款能力的增強,實現基于多規則的自動化退款,并且通過消息隊列接收到退款基礎服務推送的退款快照信息。但是,由于退款基礎服務發送消息丟失或者消息隊列在多次失敗重試后的主動丟棄,都很有可能造成數據的不一致性。因此,我們通過定時從退款基礎服務查詢核對,恢復丟失的業務數據就顯得特別重要了。

可靠事件模式

在分布式系統中,消息隊列在服務端的架構中的地位非常重要,主要解決異步處理、系統解耦、流量削峰等場景。多個系統之間如果同步通信很容易造成阻塞,同時會將這些系統會耦合在一起。因此,引入了消息隊列,一方面解決了同步通信機制造成的阻塞,另一方面通過消息隊列進行業務解耦。請參見圖 6-12。

可靠事件模式,通過引入可靠的消息隊列,只要保證當前的可靠事件投遞并且消息隊列確保事件傳遞至少一次,那么訂閱這個事件的消費者保證事件能夠在自己的業務內被消費即可。這里,請讀者思考,是否只要引入了消息隊列就可以解決問題了呢?事實上,只是引入消息隊列并不能保證其最終的一致性,因為分布式部署環境下都是基于網絡進行通信,而網絡通信過程中,上下游可能因為各種原因而導致消息丟失。

其一,主業務服務發送消息時可能因為消息隊列無法使用而發生失敗。對于這種情況,我們可以讓主業務服務(生產者)發送消息,再進行業務調用來確保。一般的做法是,主業務服務將要發送的消息持久化到本地數據庫,設置標志狀態為“待發送”狀態,然后把消息發送給消息隊列,消息隊列收到消息后,也把消息持久化到其存儲服務中,但并不是立即向從業務服務(消費者)投遞消息,而是先向主業務服務(生產者)返回消息隊列的響應結果,然后主業務服務判斷響應結果執行之后的業務處理。如果響應失敗,則放棄之后的業務處理,設置本地的持久化消息標志狀態為“結束”狀態。否則,執行后續的業務處理,設置本地的持久化消息標志狀態為“已發送”狀態。

public void doServer(){
    // 發送消息
    send();
    // 執行業務
    exec();
    // 更新消息狀態
    updateMsg();
}

此外,消息隊列發生消息后,也可能從業務服務(消費者)宕機而無法消費。絕大多數消息中間件對于這種情況,例如 RabbitMQ、RocketMQ 等引入了 ACK 機制。注意的是,默認的情況下,采用自動應答,這種方式中消息隊列會發送消息后立即從消息隊列中刪除該消息。所以,為了確保消息的可靠投遞,我們通過手動 ACK 方式,如果從業務服務(消費者)因宕機等原因沒有發送 ACK,消息隊列會將消息重新發送,保證消息的可靠性。從業務服務處理完相關業務后通過手動 ACK 通知消息隊列,消息隊列才從消息隊列中刪除該持久化消息。那么,消息隊列如果一直重試失敗而無法投遞,就會出現消息主動丟棄的情況,我們需要如何解決呢?聰明的讀者可能已經發現,我們在上個步驟中,主業務服務已經將要發送的消息持久化到本地數據庫。因此,從業務服務消費成功后,它也會向消息隊列發送一個通知消息,此時它是一個消息的生產者。主業務服務(消費者)接收到消息后,最終把本地的持久化消息標志狀態為“完成”狀態。說到這里,讀者應該可以理解到我們使用“正反向消息機制”確保了消息隊列可靠事件投遞。當然,補償機制也是必不可少的。定時任務會從數據庫掃描在一定時間內未完成的消息并重新投遞。請參見圖 6-13。

注意的是,因為從業務服務可能收到消息處理超時或者服務宕機,以及網絡等原因導致而消息隊列收不到消息的處理結果,因此可靠事件投遞并且消息隊列確保事件傳遞至少一次。這里,從業務服務(消費者)需要保證冪等性。如果從業務服務(消費者)沒有保證接口的冪等性,將會導致重復提交等異常場景。此外,我們也可以獨立消息服務,將消息服務獨立部署,根據不同的業務場景共用該消息服務,降低重復開發服務的成本。

了解了“可靠事件模式”的方法論后,現在我們來看一個真實的案例來加深理解。首先,當用戶發起退款后,自動化退款服務會收到一個退款的事件消息,此時,如果這筆退款符合自動化退款策略的話,自動化退款服務會先寫入本地數據庫持久化這筆退款快照,緊接著,發送一條執行退款的消息投遞到給消息隊列,消息隊列接受到消息后返回響應成功結果,那么自動化退款服務就可以執行后續的業務邏輯。與此同時,消息隊列異步地把消息投遞給退款基礎服務,然后退款基礎服務執行自己業務相關的邏輯,執行失敗與否由退款基礎服務自我保證,如果執行成功則發送一條執行退款成功消息投遞到給消息隊列。最后,定時任務會從數據庫掃描在一定時間內未完成的消息并重新投遞。這里,需要注意的是,自動化退款服務持久化的退款快照可以理解為需要確保投遞成功的消息,由“正反向消息機制”和“定時任務”確保其成功投遞。此外,真正的退款出賬邏輯在退款基礎服務來保證,因此它要保證冪等性,及出賬邏輯的收斂。當出現執行失敗的狀態并且超過重試次數時,就說明這個任務永久失敗了,需要開發人員進行手工介入與排查問題。請參見圖 6-14。

總結一下,引入了消息隊列并不能保證可靠事件投遞,換句話說,由于網絡等各種原因而導致消息丟失不能保證其最終的一致性,因此,我們需要通過“正反向消息機制”確保了消息隊列可靠事件投遞,并且使用補償機制盡可能在一定時間內未完成的消息并重新投遞。

開源項目的分布式事務實現解讀

開源項目中對分布式事務的應用有很多值得我們學習與借鑒的地方。本節,我們就來對其實現進行解讀。

RocketMQ

Apache RocketMQ 是阿里開源的一款高性能、高吞吐量的分布式消息中間件。在歷年雙 11 中,RocketMQ 都承擔了阿里巴巴生產系統全部的消息流轉,在核心交易鏈路有著穩定和出色的表現,是承載交易峰值的核心基礎產品之一。RocketMQ 同時存在商用版 MQ 可在阿里云上購買(https://www.aliyun.com/product/ons),阿里巴巴對于開源版本和商業版本,主要區別在于:會開源分布式消息所有核心的特性,而在商業層面,尤其是云平臺的搭建上面,將運維管控、安全授權、深度培訓等納入商業重中之重。

Apache RocketMQ 4.3 版本正式支持分布式事務消息。RocketMQ 事務消息設計主要解決了生產者端的消息發送與本地事務執行的原子性問題,換句話說,如果本地事務執行不成功,則不會進行 MQ 消息推送。那么,聰明的你可能就會存在疑問:我們可以先執行本地事務,執行成功了再發送 MQ 消息,這樣不就可以保證事務性的?但是,請你再認真的思考下,如果 MQ 消息發送不成功怎么辦呢?事實上,RocketMQ 對此提供一個很好的思路和解決方案。
RocketMQ 首先會發送預執行消息到 MQ,并且在發送預執行消息成功后執行本地事務。緊接著,它根據本地事務執行結果進行后續執行邏輯,如果本地事務執行結果是 commit,那么正式投遞 MQ 消息,如果本地事務執行結果是 rollback,則 MQ 刪除之前投遞的預執行消息,不進行投遞下發。注意的是,對于異常情況,例如執行本地事務過程中,服務器宕機或者超時,RocketMQ 將會不停的詢問其同組的其他生產者端來獲取狀態。請參見圖 6-15。

至此,我們已經了解了 RocketMQ 的實現思路,如果對源碼實現感興趣的讀者,可以閱讀org.apache.rocketmq.client.impl.producer.DefaultMQProducerImpl#sendMessageInTransaction。

ServiceComb

ServiceComb 基于華為內部的 CSE(Cloud Service Engine) 框架開源而來,它提供了一套包含代碼框架生成,服務注冊發現,負載均衡,服務可靠性(容錯熔斷,限流降級,調用鏈追蹤)等功能的微服務框架。其中,ServiceComb Saga 是一個微服務應用的數據最終一致性解決方案。

Saga 拆分分布式事務為多個本地事務,然后由 Saga 引擎負責協調。如果整個流程正常結束,那么業務成功完成;如果在這過程中實現出現部分失敗,那么Saga 引擎調用補償操作。Saga 有兩種恢復的策略 :向前恢復和向后恢復。其中,向前恢復對失敗的節點采取最大努力不斷重試,保證數據庫的操作最終一定可以保證數據一致性,如果最終多次重試失敗可以根據相關日志并主動通知開發人員進行手工介入。向后恢復對之前所有成功的節點執行回滾的事務操作,這樣保證數據達到一致的效果。

Saga 與 TCC 不同之處在于,Saga 比 TCC 少了一個 Try 操作。因此,Saga 會直接提交到數據庫,然后出現失敗的時候,進行補償操作。Saga 的設計可能導致在極端場景下的補償動作比較麻煩,但是對于簡單的業務邏輯侵入性更低,更輕量級,并且減少了通信次數,請參見圖 6-16。

ServiceComb Saga 在其理論基礎上進行了擴展,它包含兩個組件: alpha 和 omega。alpha 充當協調者,主要負責對事務的事件進行持久化存儲以及協調子事務的狀態,使其得以最終與全局事務的狀態保持一致。omega 是微服務中內嵌的一個 agent,負責對網絡請求進行攔截并向 alpha 上報事務事件,并在異常情況下根據 alpha 下發的指令執行相應的補償操作。在預處理階段,alpha 會記錄事務開始的事件;在后處理階段,alpha 會記錄事務結束的事件。因此,每個成功的子事務都有一一對應的開始及結束事件。在服務生產方,omega 會攔截請求中事務相關的 id 來提取事務的上下文。在服務消費方,omega 會在請求中注入事務相關的 id來傳遞事務的上下文。通過服務提供方和服務消費方的這種協作處理,子事務能連接起來形成一個完整的全局事務。注意的是,Saga 要求相關的子事務提供事務處理方法,并且提供補償函數。這里,添加 @EnableOmega 的注解來初始化 omega 的配置并與 alpha 建立連接。在全局事務的起點添加 @SagaStart 的注解,在子事務添加 @Compensable 的注解指明其對應的補償方法。
使用案例:https://github.com/apache/servicecomb-saga/tree/master/saga-demo

@EnableOmega
public class Application{
  public static void main(String[] args) {
    SpringApplication.run(Application.class, args);
  }
}

@SagaStart
public void xxx() { }


@Compensable
public void transfer() { }

現在,我們來看一下它的業務流程圖,請參見圖 6-17。

更多精彩文章,盡在「服務端思維」!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,428評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,024評論 3 413
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,285評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,548評論 1 307
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,328評論 6 404
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,878評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 42,971評論 3 439
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,098評論 0 286
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,616評論 1 331
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,554評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,725評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,243評論 5 355
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 43,971評論 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,361評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,613評論 1 280
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,339評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,695評論 2 370

推薦閱讀更多精彩內容