首先關(guān)注一下 Google分布式系統(tǒng)三大論文
微云pdf引文版自取
中文翻譯版
- Google分布式系統(tǒng)經(jīng)典論文-BigTale
- Google分布式系統(tǒng)經(jīng)典論文-GFS
- Google分布式系統(tǒng)經(jīng)典論文-MapReduce
簡(jiǎn)單了解一下
ZooKeeper是一種為分布式應(yīng)用所設(shè)計(jì)的高可用、高性能且一致的開源協(xié)調(diào)服務(wù),它提供了一項(xiàng)基本服務(wù):分布式鎖服務(wù)。由于ZooKeeper的開源特性,后來我們的開發(fā)者在分布式鎖的基礎(chǔ)上,摸索了出了其他的使用方法:配置維護(hù)、組服務(wù)、分布式消息隊(duì)列、分布式通知/協(xié)調(diào)等。
注意:ZooKeeper性能上的特點(diǎn)決定了它能夠用在大型的、分布式的系統(tǒng)當(dāng)中。從可靠性方面來說,它并不會(huì)因?yàn)橐粋€(gè)節(jié)點(diǎn)的錯(cuò)誤而崩潰。除此之外,它嚴(yán)格的序列訪問控制意味著復(fù)雜的控制原語可以應(yīng)用在客戶端上。ZooKeeper在一致性、可用性、容錯(cuò)性的保證,也是ZooKeeper的成功之處,它獲得的一切成功都與它采用的協(xié)議——Zab協(xié)議是密不可分的。
數(shù)據(jù)結(jié)構(gòu)+原語+watcher機(jī)制
這三點(diǎn)構(gòu)成的zk的基本功能
ZooKeeper在實(shí)現(xiàn)這些服務(wù)時(shí),首先它設(shè)計(jì)一種新的數(shù)據(jù)結(jié)構(gòu)——Znode,然后在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上定義了一些原語,也就是一些關(guān)于該數(shù)據(jù)結(jié)構(gòu)的一些操作。有了這些數(shù)據(jù)結(jié)構(gòu)和原語還不夠,因?yàn)槲覀兊腪ooKeeper是工作在一個(gè)分布式的環(huán)境下,我們的服務(wù)是通過消息以網(wǎng)絡(luò)的形式發(fā)送給我們的分布式應(yīng)用程序,所以還需要一個(gè)通知機(jī)制——Watcher機(jī)制。那么總結(jié)一下,ZooKeeper所提供的服務(wù)主要是通過:數(shù)據(jù)結(jié)構(gòu)+原語+watcher機(jī)制,三個(gè)部分來實(shí)現(xiàn)的。
數(shù)據(jù)結(jié)構(gòu)Znode
ZooKeeper擁有一個(gè)層次的命名空間,這個(gè)和標(biāo)準(zhǔn)的文件系統(tǒng)非常相似
(1) 引用方式
Zonde通過路徑引用,如同Unix中的文件路徑。路徑必須是絕對(duì)的,因此他們必須由斜杠字符來開頭。除此以外,他們必須是唯一的,也就是說每一個(gè)路徑只有一個(gè)表示,因此這些路徑不能改變。在ZooKeeper中,路徑由Unicode字符串組成,并且有一些限制。字符串"/zookeeper"用以保存管理信息,比如關(guān)鍵配額信息。
(2) Znode結(jié)構(gòu)
ZooKeeper命名空間中的Znode,兼具文件和目錄兩種特點(diǎn)。既像文件一樣維護(hù)著數(shù)據(jù)、元信息、ACL、時(shí)間戳等數(shù)據(jù)結(jié)構(gòu),又像目錄一樣可以作為路徑標(biāo)識(shí)的一部分。圖中的每個(gè)節(jié)點(diǎn)稱為一個(gè)Znode。 每個(gè)Znode由3部分組成:
① stat:此為狀態(tài)信息, 描述該Znode的版本, 權(quán)限等信息
② data:與該Znode關(guān)聯(lián)的數(shù)據(jù)
③ children:該Znode下的子節(jié)點(diǎn)
ZooKeeper雖然可以關(guān)聯(lián)一些數(shù)據(jù),但并沒有被設(shè)計(jì)為常規(guī)的數(shù)據(jù)庫或者大數(shù)據(jù)存儲(chǔ),相反的是,它用來管理調(diào)度數(shù)據(jù),比如分布式應(yīng)用中的配置文件信息、狀態(tài)信息、匯集位置等等。這些數(shù)據(jù)的共同特性就是它們都是很小的數(shù)據(jù),通常以KB為大小單位。ZooKeeper的服務(wù)器和客戶端都被設(shè)計(jì)為嚴(yán)格檢查并限制每個(gè)Znode的數(shù)據(jù)大小至多1M,但常規(guī)使用中應(yīng)該遠(yuǎn)小于此值。
(3) 數(shù)據(jù)訪問
ZooKeeper中的每個(gè)節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)要被原子性的操作。也就是說讀操作將獲取與節(jié)點(diǎn)相關(guān)的所有數(shù)據(jù),寫操作也將替換掉節(jié)點(diǎn)的所有數(shù)據(jù)。另外,每一個(gè)節(jié)點(diǎn)都擁有自己的ACL(訪問控制列表),這個(gè)列表規(guī)定了用戶的權(quán)限,即限定了特定用戶對(duì)目標(biāo)節(jié)點(diǎn)可以執(zhí)行的操作。
(4) 節(jié)點(diǎn)類型
ZooKeeper中的節(jié)點(diǎn)有兩種,分別為臨時(shí)節(jié)點(diǎn)和永久節(jié)點(diǎn)。節(jié)點(diǎn)的類型在創(chuàng)建時(shí)即被確定,并且不能改變。
① 臨時(shí)節(jié)點(diǎn):該節(jié)點(diǎn)的生命周期依賴于創(chuàng)建它們的會(huì)話。一旦會(huì)話(Session)結(jié)束,臨時(shí)節(jié)點(diǎn)將被自動(dòng)刪除,當(dāng)然可以也可以手動(dòng)刪除。雖然每個(gè)臨時(shí)的Znode都會(huì)綁定到一個(gè)客戶端會(huì)話,但他們對(duì)所有的客戶端還是可見的。另外,ZooKeeper的臨時(shí)節(jié)點(diǎn)不允許擁有子節(jié)點(diǎn)。
② 永久節(jié)點(diǎn):該節(jié)點(diǎn)的生命周期不依賴于會(huì)話,并且只有在客戶端顯示執(zhí)行刪除操作的時(shí)候,他們才能被刪除。
(5) 順序節(jié)點(diǎn)
當(dāng)創(chuàng)建Znode的時(shí)候,用戶可以請(qǐng)求在ZooKeeper的路徑結(jié)尾添加一個(gè)遞增的計(jì)數(shù)。這個(gè)計(jì)數(shù)對(duì)于此節(jié)點(diǎn)的父節(jié)點(diǎn)來說是唯一的,它的格式為"%10d"(10位數(shù)字,沒有數(shù)值的數(shù)位用0補(bǔ)充,例如"0000000001")。當(dāng)計(jì)數(shù)值大于232-1時(shí),計(jì)數(shù)器將溢出。
(6) 觀察
客戶端可以在節(jié)點(diǎn)上設(shè)置watch,我們稱之為監(jiān)視器。當(dāng)節(jié)點(diǎn)狀態(tài)發(fā)生改變時(shí)(Znode的增、刪、改)將會(huì)觸發(fā)watch所對(duì)應(yīng)的操作。當(dāng)watch被觸發(fā)時(shí),ZooKeeper將會(huì)向客戶端發(fā)送且僅發(fā)送一條通知,因?yàn)閣atch只能被觸發(fā)一次,這樣可以減少網(wǎng)絡(luò)流量。
ZooKeeper中節(jié)點(diǎn)的時(shí)間
ZooKeeper有多種記錄時(shí)間的形式,其中包含以下幾個(gè)主要屬性:
(1) Zxid
致使ZooKeeper節(jié)點(diǎn)狀態(tài)改變的每一個(gè)操作都將使節(jié)點(diǎn)接收到一個(gè)Zxid格式的時(shí)間戳,并且這個(gè)時(shí)間戳全局有序。也就是說,也就是說,每個(gè)對(duì) 節(jié)點(diǎn)的改變都將產(chǎn)生一個(gè)唯一的Zxid。如果Zxid1的值小于Zxid2的值,那么Zxid1所對(duì)應(yīng)的事件發(fā)生在Zxid2所對(duì)應(yīng)的事件之前。實(shí)際 上,ZooKeeper的每個(gè)節(jié)點(diǎn)維護(hù)者三個(gè)Zxid值,為別為:cZxid、mZxid、pZxid。
① cZxid: 是節(jié)點(diǎn)的創(chuàng)建時(shí)間所對(duì)應(yīng)的Zxid格式時(shí)間戳。
② mZxid:是節(jié)點(diǎn)的修改時(shí)間所對(duì)應(yīng)的Zxid格式時(shí)間戳。
實(shí)現(xiàn)中Zxid是一個(gè)64為的數(shù)字,它高32位是epoch用來標(biāo)識(shí)leader關(guān)系是否改變,每次一個(gè)leader被選出來,它都會(huì)有一個(gè) 新的epoch。低32位是個(gè)遞增計(jì)數(shù)。
(2) 版本號(hào)
對(duì)節(jié)點(diǎn)的每一個(gè)操作都將致使這個(gè)節(jié)點(diǎn)的版本號(hào)增加。每個(gè)節(jié)點(diǎn)維護(hù)著三個(gè)版本號(hào),他們分別為:
① version:節(jié)點(diǎn)數(shù)據(jù)版本號(hào)
② cversion:子節(jié)點(diǎn)版本號(hào)
③ aversion:節(jié)點(diǎn)所擁有的ACL版本號(hào)
ZooKeeper節(jié)點(diǎn)屬性
原語
更新ZooKeeper操作是有限制的。delete或setData必須明確要更新的Znode的版本號(hào),我們可以調(diào)用exists找到。如果版本號(hào)不匹配,更新將會(huì)失敗。
更新ZooKeeper操作是非阻塞式的。因此客戶端如果失去了一個(gè)更新(由于另一個(gè)進(jìn)程在同時(shí)更新這個(gè)Znode),他可以在不阻塞其他進(jìn)程執(zhí)行的情況下,選擇重新嘗試或進(jìn)行其他操作。
盡管ZooKeeper可以被看做是一個(gè)文件系統(tǒng),但是處于便利,摒棄了一些文件系統(tǒng)地操作原語。因?yàn)槲募浅5男〔⑶沂拐w讀寫的,所以不需要打開、關(guān)閉或是尋地的操作。
Watch觸發(fā)器
(1) watch概述
ZooKeeper可以為所有的讀操作設(shè)置watch,這些讀操作包括:exists()、getChildren()及getData()。watch事件是一次性的觸發(fā)器,當(dāng)watch的對(duì)象狀態(tài)發(fā)生改變時(shí),將會(huì)觸發(fā)此對(duì)象上watch所對(duì)應(yīng)的事件。watch事件將被異步地發(fā)送給客戶端,并且ZooKeeper為watch機(jī)制提供了有序的一致性保證。理論上,客戶端接收watch事件的時(shí)間要快于其看到watch對(duì)象狀態(tài)變化的時(shí)間。
(2) watch類型
ZooKeeper所管理的watch可以分為兩類:
① 數(shù)據(jù)watch(data watches):getData和exists負(fù)責(zé)設(shè)置數(shù)據(jù)watch
② 孩子watch(child watches):getChildren負(fù)責(zé)設(shè)置孩子watch
我們可以通過操作返回的數(shù)據(jù)來設(shè)置不同的watch:
① getData和exists:返回關(guān)于節(jié)點(diǎn)的數(shù)據(jù)信息
② getChildren:返回孩子列表
因此
① 一個(gè)成功的setData操作將觸發(fā)Znode的數(shù)據(jù)watch
② 一個(gè)成功的create操作將觸發(fā)Znode的數(shù)據(jù)watch以及孩子watch
③ 一個(gè)成功的delete操作將觸發(fā)Znode的數(shù)據(jù)watch以及孩子watch