原文地址:http://blog.csdn.net/mindfloating/article/details/39473807
原文地址:http://blog.csdn.net/mindfloating/article/details/39474123
近幾年的項目中,服務化和微服務化漸漸成為中大型分布式系統架構的主流方式,而 RPC 在其中扮演著關鍵的作用。在平時的日常開發中我們都在隱式或顯式的使用 RPC,一些剛入行的程序員會感覺 RPC 比較神秘,而一些有多年使用 RPC 經驗的程序員雖然使用經驗豐富,但有些對其原理也不甚了了。缺乏對原理層面的理解,往往也會造成開發中的一些誤用。
本文分上下兩篇《淺出篇》和《深入篇》,其目標就是想嘗試深入淺出的分析下 RPC 本質,我總是這么認為理解了本質才能更好的應用。
RPC 的全稱是 Remote Procedure Call
是一種進程間通信方式。它允許程序調用另一個地址空間(通常是共享網絡的另一臺機器上)的過程或函數,而不用程序員顯式編碼這個遠程調用的細節。即程序員無論是調用本地的還是遠程的,本質上編寫的調用代碼基本相同。
RPC 這個概念術語在上世紀 80 年代由Bruce Jay Nelson提出。這里我們追溯下當初開發 RPC 的原動機是什么?在 Nelson 的論文"Implementing Remote Procedure Calls"中他提到了幾點:
1. 簡單:RPC 概念的語義十分清晰和簡單,這樣建立分布式計算就更容易。
2. 高效:過程調用看起來十分簡單而且高效。
3. 通用:在單機計算中過程往往是不同算法部分間最重要的通信機制。
通俗一點說,就是一般程序員對于本地的過程調用很熟悉,那么我們把 RPC
作成和本地調用完全類似,那么就更容易被接受,使用起來毫無障礙。Nelson 的論文發表于 30 年前,其觀點今天看來確實高瞻遠矚,今天我們使用的
RPC 框架基本就是按這個目標來實現的。
Nelson 的論文中指出實現 RPC 的程序包括 5 個部分:
1. User
2. User-stub
3. RPCRuntime
4. Server-stub
5. Server
這 5 個部分的關系如下圖所示
這里 user 就是 client 端,當 user 想發起一個遠程調用時,它實際是通過本地調用 user-stub。user-stub 負責將調用的接口、方法和參數通過約定的協議規范進行編碼并通過本地的 RPCRuntime 實例傳輸到遠端的實例。遠端 RPCRuntime 實例收到請求后交給 server-stub 進行解碼后發起本地端調用,調用結果再返回給 user 端。
Nelson 論文中給出的這個實現結構也成為后來大家參考的標準范本。大約 10 年前,我最早接觸分布式計算時使用的CORBAR實現結構基本與此類似。CORBAR 為了解決異構平臺的 RPC,使用了 IDL(Interface Definition Language)來定義遠程接口,并將其映射到特定的平臺語言中。后來大部分的跨語言平臺 RPC 基本都采用了此類方式,比如我們熟悉的 Web Service(SOAP),近年開源的 Thrift 等。他們大部分都通過 IDL 定義,并提供工具來映射生成不同語言平臺的 user-stub 和 server-stub,并通過框架庫來提供 RPCRuntime 的支持。不過貌似每個不同的 RPC 框架都定義了各自不同的 IDL 格式,導致程序員的學習成本進一步上升(苦逼啊),Web Service 嘗試建立業界標準,無賴標準規范復雜而效率偏低,否則 Thrift 等更高效的 RPC 框架就沒必要出現了。
IDL 是為了跨平臺語言實現 RPC 不得已的選擇,要解決更廣泛的問題自然導致了更復雜的方案。而對于同一平臺內的 RPC 而言顯然沒必要搞個中間語言出來,例如Java原生的 RMI,這樣對于 java 程序員而言顯得更直接簡單,降低使用的學習成本。目前市面上提供的 RPC 框架已經可算是五花八門,百家爭鳴了。需要根據實際使用場景謹慎選型,需要考慮的選型因素我覺得至少包括下面幾點:
1. 性能指標
2. 是否需要跨語言平臺
3. 內網開放還是公網開放
4. 開源 RPC 框架本身的質量、社區活躍度
《淺出篇》大概就到這里結束了,《深入篇》會具體深入講解一個 RPC 框架需要實現哪里基本功能,達到什么目標,并以在 java 平臺上去具體實現一個 RPC 框架為例,分析其需要考慮的實現因素。
《深入篇》我們主要圍繞 RPC 的功能目標和實現考量去展開,一個基本的 RPC 框架應該提供什么功能,滿足什么要求以及如何去實現它?
RPC 的主要功能目標是讓構建分布式計算(應用)更容易,在提供強大的遠程調用能力時不損失本地調用的語義簡潔性。為實現該目標,RPC 框架需提供一種透明調用機制讓使用者不必顯式的區分本地調用和遠程調用,在前文《淺出篇》中給出了一種實現結構,基于 stub 的結構來實現。下面我們將具體細化 stub 結構的實現。
RPC 調用分以下兩種:
[plain]view plaincopy
1.?同步調用??
???客戶方等待調用執行完成并返回結果。??
2.?異步調用??
???客戶方調用后不用等待執行結果返回,但依然可以通過回調通知等方式獲取返回結果。??
???若客戶方不關心調用返回結果,則變成單向異步調用,單向調用不用返回結果。??
異步和同步的區分在于是否等待服務端執行完成并返回結果。
《淺出篇》給出了一個比較粗粒度的 RPC 實現概念結構,這里我們進一步細化它應該由哪些組件構成,如下圖所示。
RPC 服務方通過RpcServer去導出(export)遠程接口方法,而客戶方通過RpcClient去引入(import)遠程接口方法。客戶方像調用本地方法一樣去調用遠程接口方法,RPC 框架提供接口的代理實現,實際的調用將委托給代理RpcProxy。代理封裝調用信息并將調用轉交給RpcInvoker去實際執行。在客戶端的RpcInvoker通過連接器RpcConnector去維持與服務端的通道RpcChannel,并使用RpcProtocol執行協議編碼(encode)并將編碼后的請求消息通過通道發送給服務方。
RPC 服務端接收器RpcAcceptor接收客戶端的調用請求,同樣使用RpcProtocol執行協議解碼(decode)。解碼后的調用信息傳遞給RpcProcessor去控制處理調用過程,最后再委托調用給RpcInvoker去實際執行并返回調用結果。
上面我們進一步拆解了 RPC 實現結構的各個組件組成部分,下面我們詳細說明下每個組件的職責劃分。
[plain]view plaincopy
1.?RpcServer??
???負責導出(export)遠程接口??
2.?RpcClient??
???負責導入(import)遠程接口的代理實現??
3.?RpcProxy??
???遠程接口的代理實現??
4.?RpcInvoker??
???客戶方實現:負責編碼調用信息和發送調用請求到服務方并等待調用結果返回??
???服務方實現:負責調用服務端接口的具體實現并返回調用結果??
5.?RpcProtocol??
???負責協議編/解碼??
6.?RpcConnector??
???負責維持客戶方和服務方的連接通道和發送數據到服務方??
7.?RpcAcceptor??
???負責接收客戶方請求并返回請求結果??
8.?RpcProcessor??
???負責在服務方控制調用過程,包括管理調用線程池、超時時間等??
9.?RpcChannel??
???數據傳輸通道??
在進一步拆解了組件并劃分了職責之后,這里以在 java 平臺實現該 RPC 框架概念模型為例,詳細分析下實現中需要考慮的因素。
導出遠程接口的意思是指只有導出的接口可以供遠程調用,而未導出的接口則不能。在 java 中導出接口的代碼片段可能如下:
[java]view plaincopy
DemoService?demo???=?new?...;??
RpcServer???server?=new?...;??
server.export(DemoService.class,?demo,?options);??
我們可以導出整個接口,也可以更細粒度一點只導出接口中的某些方法,如:
[java]view plaincopy
//?只導出?DemoService?中簽名為?hi(String?s)?的方法??
server.export(DemoService.class,?demo,?"hi",?new?Class[]?{?String.class?},?options);??
java 中還有一種比較特殊的調用就是多態,也就是一個接口可能有多個實現,那么遠程調用時到底調用哪個?這個本地調用的語義是通過 jvm 提供的引用多態性隱式實現的,那么對于 RPC 來說跨進程的調用就沒法隱式實現了。如果前面DemoService接口有 2 個實現,那么在導出接口時就需要特殊標記不同的實現,如:
[java]view plaincopy
DemoService?demo???=?new?...;??
DemoService?demo2??=new?...;??
RpcServer???server?=new?...;??
server.export(DemoService.class,?demo,?options);??
server.export("demo2",?DemoService.class,?demo2,?options);??
上面 demo2 是另一個實現,我們標記為 "demo2" 來導出,那么遠程調用時也需要傳遞該標記才能調用到正確的實現類,這樣就解決了多態調用的語義。
導入相對于導出遠程接口,客戶端代碼為了能夠發起調用必須要獲得遠程接口的方法或過程定義。目前,大部分跨語言平臺
RPC 框架采用根據 IDL 定義通過 code generator 去生成 stub
代碼,這種方式下實際導入的過程就是通過代碼生成器在編譯期完成的。我所使用過的一些跨語言平臺 RPC 框架如
CORBAR、WebService、ICE、Thrift 均是此類方式。
代碼生成的方式對跨語言平臺 RPC 框架而言是必然的選擇,而對于同一語言平臺的 RPC 則可以通過共享接口定義來實現。在 java 中導入接口的代碼片段可能如下:
[java]view plaincopy
RpcClient?client?=?new?...;??
DemoService?demo?=?client.refer(DemoService.class);??
demo.hi("how?are?you?");??
在
java 中 'import' 是關鍵字,所以代碼片段中我們用 refer
來表達導入接口的意思。這里的導入方式本質也是一種代碼生成技術,只不過是在運行時生成,比靜態編譯期的代碼生成看起來更簡潔些。java
里至少提供了兩種技術來提供動態代碼生成,一種是 jdk
動態代理,另外一種是字節碼生成。動態代理相比字節碼生成使用起來更方便,但動態代理方式在性能上是要遜色于直接的字節碼生成的,而字節碼生成在代碼可讀性上要差很多。兩者權衡起來,個人認為犧牲一些性能來獲得代碼可讀性和可維護性顯得更重要。
客戶端代理在發起調用前需要對調用信息進行編碼,這就要考慮需要編碼些什么信息并以什么格式傳輸到服務端才能讓服務端完成調用。出于效率考慮,編碼的信息越少越好(傳輸數據少),編碼的規則越簡單越好(執行效率高)。我們先看下需要編碼些什么信息:
[plain]view plaincopy
--?調用編碼?--??
1.?接口方法??
???包括接口名、方法名??
2.?方法參數??
???包括參數類型、參數值??
3.?調用屬性??
???包括調用屬性信息,例如調用附件隱式參數、調用超時時間等??
--?返回編碼?--??
1.?返回結果??
???接口方法中定義的返回值??
2.?返回碼??
???異常返回碼??
3.?返回異常信息??
???調用異常信息??
除了以上這些必須的調用信息,我們可能還需要一些元信息以方便程序編解碼以及未來可能的擴展。這樣我們的編碼消息里面就分成了兩部分,一部分是元信息、另一部分是調用的必要信息。如果設計一種
RPC 協議消息的話,元信息我們把它放在協議消息頭中,而必要信息放在協議消息體中。下面給出一種概念上的 RPC 協議消息設計格式:
[plain]view plaincopy
--?消息頭?--??
magic??????:?協議魔數,為解碼設計??
header?size:?協議頭長度,為擴展設計??
version????:?協議版本,為兼容設計??
st?????????:?消息體序列化類型??
hb?????????:?心跳消息標記,為長連接傳輸層心跳設計??
ow?????????:?單向消息標記,??
rp?????????:?響應消息標記,不置位默認是請求消息??
status?code:?響應消息狀態碼??
reserved???:?為字節對齊保留??
message?id?:?消息?id??
body?size??:?消息體長度??
--?消息體?--??
采用序列化編碼,常見有以下格式??
xml???:?如?webservie?soap??
json??:?如?JSON-RPC??
binary:?如?thrift;?hession;?kryo?等??
格式確定后編解碼就簡單了,由于頭長度一定所以我們比較關心的就是消息體的序列化方式。序列化我們關心三個方面:
1. 序列化和反序列化的效率,越快越好。
2. 序列化后的字節長度,越小越好。
3. 序列化和反序列化的兼容性,接口參數對象若增加了字段,是否兼容。
上面這三點有時是魚與熊掌不可兼得,這里面涉及到具體的序列化庫實現細節,就不在本文進一步展開分析了。
協議編碼之后,自然就是需要將編碼后的
RPC 請求消息傳輸到服務方,服務方執行后返回結果消息或確認消息給客戶方。RPC 的應用場景實質是一種可靠的請求應答消息流,和 HTTP
類似。因此選擇長連接方式的 TCP 協議會更高效,與 HTTP 不同的是在協議層面我們定義了每個消息的唯一 id,因此可以更容易的復用連接。
既然使用長連接,那么第一個問題是到底
client 和 server
之間需要多少根連接?實際上單連接和多連接在使用上沒有區別,對于數據傳輸量較小的應用類型,單連接基本足夠。單連接和多連接最大的區別在于,每根連接都有自己私有的發送和接收緩沖區,因此大數據量傳輸時分散在不同的連接緩沖區會得到更好的吞吐效率。所以,如果你的數據傳輸量不足以讓單連接的緩沖區一直處于飽和狀態的話,那么使用多連接并不會產生任何明顯的提升,反而會增加連接管理的開銷。
連接是由
client 端發起建立并維持。如果 client 和 server 之間是直連的,那么連接一般不會中斷(當然物理鏈路故障除外)。如果
client 和 server
連接經過一些負載中轉設備,有可能連接一段時間不活躍時會被這些中間設備中斷。為了保持連接有必要定時為每個連接發送心跳數據以維持連接不中斷。心跳消息是
RPC 框架庫使用的內部消息,在前文協議頭結構中也有一個專門的心跳位,就是用來標記心跳消息的,它對業務應用透明。
client stub 所做的事情僅僅是編碼消息并傳輸給服務方,而真正調用過程發生在服務方。server stub 從前文的結構拆解中我們細分了RpcProcessor和RpcInvoker兩個組件,一個負責控制調用過程,一個負責真正調用。這里我們還是以 java 中實現這兩個組件為例來分析下它們到底需要做什么?
java 中實現代碼的動態接口調用目前一般通過反射調用。除了原生的 jdk 自帶的反射,一些第三方庫也提供了性能更優的反射調用,因此RpcInvoker就是封裝了反射調用的實現細節。
調用過程的控制需要考慮哪些因素,RpcProcessor需要提供什么樣地調用控制服務呢?下面提出幾點以啟發思考:
[plain]view plaincopy
1.?效率提升??
???每個請求應該盡快被執行,因此我們不能每請求來再創建線程去執行,需要提供線程池服務。??
2.?資源隔離??
???當我們導出多個遠程接口時,如何避免單一接口調用占據所有線程資源,而引發其他接口執行阻塞。??
3.?超時控制??
???當某個接口執行緩慢,而?client?端已經超時放棄等待后,server?端的線程繼續執行此時顯得毫無意義。??
無論 RPC 怎樣努力把遠程調用偽裝的像本地調用,但它們依然有很大的不同點,而且有一些異常情況是在本地調用時絕對不會碰到的。在說異常處理之前,我們先比較下本地調用和 RPC 調用的一些差異:
1. 本地調用一定會執行,而遠程調用則不一定,調用消息可能因為網絡原因并未發送到服務方。
2. 本地調用只會拋出接口聲明的異常,而遠程調用還會跑出 RPC 框架運行時的其他異常。
3. 本地調用和遠程調用的性能可能差距很大,這取決于 RPC 固有消耗所占的比重。
正是這些區別決定了使用 RPC 時需要更多考量。當調用遠程接口拋出異常時,異常可能是一個業務異常,也可能是 RPC 框架拋出的運行時異常(如:網絡中斷等)。業務異常表明服務方已經執行了調用,可能因為某些原因導致未能正常執行,而 RPC 運行時異常則有可能服務方根本沒有執行,對調用方而言的異常處理策略自然需要區分。
由于 RPC
固有的消耗相對本地調用高出幾個數量級,本地調用的固有消耗是納秒級,而 RPC
的固有消耗是在毫秒級。那么對于過于輕量的計算任務就并不合適導出遠程接口由獨立的進程提供服務,只有花在計算任務上時間遠遠高于 RPC
的固有消耗才值得導出為遠程接口提供服務。
至此我們提出了一個 RPC 實現的概念框架,并詳細分析了需要考慮的一些實現細節。無論 RPC 的概念是如何優雅,但是“草叢中依然有幾條蛇隱藏著”,只有深刻理解了 RPC 的本質,才能更好地應用。