1、基礎架構
1.1 Master
Master節點上面主要由四個模塊組成:APIServer、scheduler、controller manager、etcd。
APIServer。APIServer負責對外提供RESTful的Kubernetes API服務,它是系統管理指令的統一入口,任何對資源進行增刪改查的操作都要交給APIServer處理后再提交給etcd。如架構圖中所示,kubectl(Kubernetes提供的客戶端工具,該工具內部就是對Kubernetes API的調用)是直接和APIServer交互的。
schedule。scheduler的職責很明確,就是負責調度pod到合適的Node上。如果把scheduler看成一個黑匣子,那么它的輸入是pod和由多個Node組成的列表,輸出是Pod和一個Node的綁定,即將這個pod部署到這個Node上。Kubernetes目前提供了調度算法,但是同樣也保留了接口,用戶可以根據自己的需求定義自己的調度算法。
controller manager。如果說APIServer做的是“前臺”的工作的話,那controller manager就是負責“后臺”的。每個資源一般都對應有一個控制器,而controller manager就是負責管理這些控制器的。比如我們通過APIServer創建一個pod,當這個pod創建成功后,APIServer的任務就算完成了。而后面保證Pod的狀態始終和我們預期的一樣的重任就由controller manager去保證了。
etcd。etcd是一個高可用的鍵值存儲系統,Kubernetes使用它來存儲各個資源的狀態,從而實現了Restful的API。
1.2 Node
每個Node節點主要由三個模塊組成:kubelet、kube-proxy、runtime。
runtime。runtime指的是容器運行環境,目前Kubernetes支持docker和rkt兩種容器。
kube-proxy。該模塊實現了Kubernetes中的服務發現和反向代理功能。反向代理方面:kube-proxy支持TCP和UDP連接轉發,默認基于Round Robin算法將客戶端流量轉發到與service對應的一組后端pod。服務發現方面,kube-proxy使用etcd的watch機制,監控集群中service和endpoint對象數據的動態變化,并且維護一個service到endpoint的映射關系,從而保證了后端pod的IP變化不會對訪問者造成影響。另外kube-proxy還支持session affinity。
kubelet。Kubelet是Master在每個Node節點上面的agent,是Node節點上面最重要的模塊,它負責維護和管理該Node上面的所有容器,但是如果容器不是通過Kubernetes創建的,它并不會管理。本質上,它負責使Pod得運行狀態與期望的狀態一致。
至此,Kubernetes的Master和Node就簡單介紹完了。下面我們來看Kubernetes中的各種資源/對象。
2、Pod
Pod 是Kubernetes的基本操作單元,也是應用運行的載體。整個Kubernetes系統都是圍繞著Pod展開的,比如如何部署運行Pod、如何保證Pod的數量、如何訪問Pod等。另外,Pod是一個或多個機關容器的集合,這可以說是一大創新點,提供了一種容器的組合的模型。
2.1 基本操作
創建kubectl create -f xxx.yaml
查詢kubectl get pod yourPodName
kubectl describe pod yourPodName
刪除kubectl delete pod yourPodName
更新kubectl replace /path/to/yourNewYaml.yaml
2.2 Pod與容器
在Docker中,容器是最小的處理單元,增刪改查的對象是容器,容器是一種虛擬化技術,容器之間是隔離的,隔離是基于Linux Namespace實現的。而在Kubernetes中,Pod包含一個或者多個相關的容器,Pod可以認為是容器的一種延伸擴展,一個Pod也是一個隔離體,而Pod內部包含的一組容器又是共享的(包括PID、Network、IPC、UTS)。除此之外,Pod中的容器可以訪問共同的數據卷來實現文件系統的共享。
2.3 鏡像
在kubernetes中,鏡像的下載策略為:
Always:每次都下載最新的鏡像
Never:只使用本地鏡像,從不下載
IfNotPresent:只有當本地沒有的時候才下載鏡像
Pod被分配到Node之后會根據鏡像下載策略進行鏡像下載,可以根據自身集群的特點來決定采用何種下載策略。無論何種策略,都要確保Node上有正確的鏡像可用。
2.4 其他設置
通過yaml文件,可以在Pod中設置:
啟動命令,如:spec-->containers-->command;
環境變量,如:spec-->containers-->env-->name/value;
端口橋接,如:spec-->containers-->ports-->containerPort/protocol/hostIP/hostPort(使用hostPort時需要注意端口沖突的問題,不過Kubernetes在調度Pod的時候會檢查宿主機端口是否沖突,比如當兩個Pod均要求綁定宿主機的80端口,Kubernetes將會將這兩個Pod分別調度到不同的機器上);
Host網絡,一些特殊場景下,容器必須要以host方式進行網絡設置(如接收物理機網絡才能夠接收到的組播流),在Pod中也支持host網絡的設置,如:spec-->hostNetwork=true;
數據持久化,如:spec-->containers-->volumeMounts-->mountPath;
重啟策略,當Pod中的容器終止退出后,重啟容器的策略。這里的所謂Pod的重啟,實際上的做法是容器的重建,之前容器中的數據將會丟失,如果需要持久化數據,那么需要使用數據卷進行持久化設置。Pod支持三種重啟策略:Always(默認策略,當容器終止退出后,總是重啟容器)、OnFailure(當容器終止且異常退出時,重啟)、Never(從不重啟);
2.5 Pod生命周期
Pod被分配到一個Node上之后,就不會離開這個Node,直到被刪除。當某個Pod失敗,首先會被Kubernetes清理掉,之后ReplicationController將會在其它機器上(或本機)重建Pod,重建之后Pod的ID發生了變化,那將會是一個新的Pod。所以,Kubernetes中Pod的遷移,實際指的是在新Node上重建Pod。以下給出Pod的生命周期圖。
生命周期回調函數:PostStart(容器創建成功后調研該回調函數)、PreStop(在容器被終止前調用該回調函數)。以下示例中,定義了一個Pod,包含一個JAVA的web應用容器,其中設置了PostStart和PreStop回調函數。即在容器創建成功后,復制/sample.war到/app文件夾中。而在容器終止之前,發送HTTP請求到http://monitor.com:8080/waring,即向監控系統發送警告。具體示例如下:
………..
containers:- image: sample:v2?
? ? name: war
? ? lifecycle:
? ? ? posrStart:
? ? ? exec:
? ? ? ? command:
? ? ? ? ? - “cp”
? ? ? ? ? - “/sample.war”
? ? ? ? ? - “/app”
? ? ? prestop:
? ? ? httpGet:
? ? ? ? host: monitor.com
? ? ? ? psth: /waring
? ? ? ? port: 8080? ? ? ? scheme: HTTP
3、Replication Controller
Replication Controller(RC)是Kubernetes中的另一個核心概念,應用托管在Kubernetes之后,Kubernetes需要保證應用能夠持續運行,這是RC的工作內容,它會確保任何時間Kubernetes中都有指定數量的Pod在運行。在此基礎上,RC還提供了一些更高級的特性,比如滾動升級、升級回滾等。
3.1 RC與Pod的關聯——Label
RC與Pod的關聯是通過Label來實現的。Label機制是Kubernetes中的一個重要設計,通過Label進行對象的弱關聯,可以靈活地進行分類和選擇。對于Pod,需要設置其自身的Label來進行標識,Label是一系列的Key/value對,在Pod-->metadata-->labeks中進行設置。
Label的定義是任一的,但是Label必須具有可標識性,比如設置Pod的應用名稱和版本號等。另外Lable是不具有唯一性的,為了更準確的標識一個Pod,應該為Pod設置多個維度的label。如下:
"release" : "stable", "release" : "canary"
"environment" : "dev", "environment" : "qa", "environment" : "production"
"tier" : "frontend", "tier" : "backend", "tier" : "cache"
"partition" : "customerA", "partition" : "customerB"
"track" : "daily", "track" : "weekly"
舉例,當你在RC的yaml文件中定義了該RC的selector中的label為app:my-web,那么這個RC就會去關注Pod-->metadata-->labeks中label為app:my-web的Pod。修改了對應Pod的Label,就會使Pod脫離RC的控制。同樣,在RC運行正常的時候,若試圖繼續創建同樣Label的Pod,是創建不出來的。因為RC認為副本數已經正常了,再多起的話會被RC刪掉的。
3.2 彈性伸縮
彈性伸縮是指適應負載變化,以彈性可伸縮的方式提供資源。反映到Kubernetes中,指的是可根據負載的高低動態調整Pod的副本數量。調整Pod的副本數是通過修改RC中Pod的副本是來實現的,示例命令如下:
擴容Pod的副本數目到10
$ kubectl scale relicationcontroller yourRcName --replicas=10
縮容Pod的副本數目到1
$ kubectl scale relicationcontroller yourRcName --replicas=1
3.3 滾動升級
滾動升級是一種平滑過渡的升級方式,通過逐步替換的策略,保證整體系統的穩定,在初始升級的時候就可以及時發現、調整問題,以保證問題影響度不會擴大。Kubernetes中滾動升級的命令如下:
$ kubectl rolling-update my-rcName-v1 -f my-rcName-v2-rc.yaml --update-period=10s
升級開始后,首先依據提供的定義文件創建V2版本的RC,然后每隔10s(--update-period=10s)逐步的增加V2版本的Pod副本數,逐步減少V1版本Pod的副本數。升級完成之后,刪除V1版本的RC,保留V2版本的RC,及實現滾動升級。
升級過程中,發生了錯誤中途退出時,可以選擇繼續升級。Kubernetes能夠智能的判斷升級中斷之前的狀態,然后緊接著繼續執行升級。當然,也可以進行回退,命令如下:
$ kubectl rolling-update my-rcName-v1 -f my-rcName-v2-rc.yaml --update-period=10s --rollback
回退的方式實際就是升級的逆操作,逐步增加V1.0版本Pod的副本數,逐步減少V2版本Pod的副本數。
3.4 新一代副本控制器replica set
這里所說的replica set,可以被認為 是“升級版”的Replication Controller。也就是說。replica set也是用于保證與label selector匹配的pod數量維持在期望狀態。區別在于,replica set引入了對基于子集的selector查詢條件,而Replication Controller僅支持基于值相等的selecto條件查詢。這是目前從用戶角度肴,兩者唯一的顯著差異。 社區引入這一API的初衷是用于取代vl中的Replication Controller,也就是說.當v1版本被廢棄時,Replication Controller就完成了它的歷史使命,而由replica set來接管其工作。雖然replica set可以被單獨使用,但是目前它多被Deployment用于進行pod的創建、更新與刪除。Deployment在滾動更新等方面提供了很多非常有用的功能,關于DeplOymCn的更多信息,讀者們可以在后續小節中獲得。
4、Job
從程序的運行形態上來區分,我們可以將Pod分為兩類:長時運行服務(jboss、mysql等)和一次性任務(數據計算、測試)。RC創建的Pod都是長時運行的服務,而Job創建的Pod都是一次性任務。
在Job的定義中,restartPolicy(重啟策略)只能是Never和OnFailure。Job可以控制一次性任務的Pod的完成次數(Job-->spec-->completions)和并發執行數(Job-->spec-->parallelism),當Pod成功執行指定次數后,即認為Job執行完畢。
5、Service
為了適應快速的業務需求,微服務架構已經逐漸成為主流,微服務架構的應用需要有非常好的服務編排支持。Kubernetes中的核心要素Service便提供了一套簡化的服務代理和發現機制,天然適應微服務架構。
5.1 原理
在Kubernetes中,在受到RC調控的時候,Pod副本是變化的,對于的虛擬IP也是變化的,比如發生遷移或者伸縮的時候。這對于Pod的訪問者來說是不可接受的。Kubernetes中的Service是一種抽象概念,它定義了一個Pod邏輯集合以及訪問它們的策略,Service同Pod的關聯同樣是居于Label來完成的。Service的目標是提供一種橋梁, 它會為訪問者提供一個固定訪問地址,用于在訪問時重定向到相應的后端,這使得非 Kubernetes原生應用程序,在無須為Kubemces編寫特定代碼的前提下,輕松訪問后端。
Service同RC一樣,都是通過Label來關聯Pod的。當你在Service的yaml文件中定義了該Service的selector中的label為app:my-web,那么這個Service會將Pod-->metadata-->labeks中label為app:my-web的Pod作為分發請求的后端。當Pod發生變化時(增加、減少、重建等),Service會及時更新。這樣一來,Service就可以作為Pod的訪問入口,起到代理服務器的作用,而對于訪問者來說,通過Service進行訪問,無需直接感知Pod。
需要注意的是,Kubernetes分配給Service的固定IP是一個虛擬IP,并不是一個真實的IP,在外部是無法尋址的。真實的系統實現上,Kubernetes是通過Kube-proxy組件來實現的虛擬IP路由及轉發。所以在之前集群部署的環節上,我們在每個Node上均部署了Proxy這個組件,從而實現了Kubernetes層級的虛擬轉發網絡。
5.2 Service代理外部服務
Service不僅可以代理Pod,還可以代理任意其他后端,比如運行在Kubernetes外部Mysql、Oracle等。這是通過定義兩個同名的service和endPoints來實現的。示例如下:
redis-service.yaml
apiVersion: v1
kind: Service
metadata:
? name: redis-service
spec:
? ports:
? - port:6379? ? targetPort: 6379? ? protocol: TCP
redis-endpoints.yaml
apiVersion: v1
kind: Endpoints
metadata:
? name: redis-service
subsets:
? - addresses:
? ? - ip:10.0.251.145? ? ports:
? ? - port:6379? ? ? protocol: TCP
基于文件創建完Service和Endpoints之后,在Kubernetes的Service中即可查詢到自定義的Endpoints。
[root@k8s-master demon]# kubectl describe service redis-service
Name:? ? ? ? ? ? redis-service
Namespace:? ? ? ? default
Labels:? ? ? ? ? ? Selector:? ? ? ? Type:? ? ? ? ? ? ClusterIP
IP:? ? ? ? ? ? 10.254.52.88Port:? ? ? ? ? ? 6379/TCP
Endpoints:? ? ? ? 10.0.251.145:6379Session Affinity:? ? None
No events.
[root@k8s-master demon]# etcdctl get /skydns/sky/default/redis-service
{"host":"10.254.52.88","priority":10,"weight":10,"ttl":30,"targetstrip":0}
5.3 Service內部負載均衡
當Service的Endpoints包含多個IP的時候,及服務代理存在多個后端,將進行請求的負載均衡。默認的負載均衡策略是輪訓或者隨機(有kube-proxy的模式決定)。同時,Service上通過設置Service-->spec-->sessionAffinity=ClientIP,來實現基于源IP地址的會話保持。
5.4 發布Service
Service的虛擬IP是由Kubernetes虛擬出來的內部網絡,外部是無法尋址到的。但是有些服務又需要被外部訪問到,例如web前段。這時候就需要加一層網絡轉發,即外網到內網的轉發。Kubernetes提供了NodePort、LoadBalancer、Ingress三種方式。
NodePort,在之前的Guestbook示例中,已經延時了NodePort的用法。NodePort的原理是,Kubernetes會在每一個Node上暴露出一個端口:nodePort,外部網絡可以通過(任一Node)[NodeIP]:[NodePort]訪問到后端的Service。
LoadBalancer,在NodePort基礎上,Kubernetes可以請求底層云平臺創建一個負載均衡器,將每個Node作為后端,進行服務分發。該模式需要底層云平臺(例如GCE)支持。
Ingress,是一種HTTP方式的路由轉發機制,由Ingress Controller和HTTP代理服務器組合而成。Ingress Controller實時監控Kubernetes API,實時更新HTTP代理服務器的轉發規則。HTTP代理服務器有GCE Load-Balancer、HaProxy、Nginx等開源方案。
5.5 servicede 自發性機制
Kubernetes中有一個很重要的服務自發現特性。一旦一個service被創建,該service的service IP和service port等信息都可以被注入到pod中供它們使用。Kubernetes主要支持兩種service發現 機制:環境變量和DNS。
環境變量方式
Kubernetes創建Pod時會自動添加所有可用的service環境變量到該Pod中,如有需要.這些環境變量就被注入Pod內的容器里。需要注意的是,環境變量的注入只發送在Pod創建時,且不會被自動更新。這個特點暗含了service和訪問該service的Pod的創建時間的先后順序,即任何想要訪問service的pod都需要在service已經存在后創建,否則與service相關的環境變量就無法注入該Pod的容器中,這樣先創建的容器就無法發現后創建的service。
DNS方式
Kubernetes集群現在支持增加一個可選的組件——DNS服務器。這個DNS服務器使用Kubernetes的watchAPI,不間斷的監測新的service的創建并為每個service新建一個DNS記錄。如果DNS在整個集群范圍內都可用,那么所有的Pod都能夠自動解析service的域名。Kube-DNS搭建及更詳細的介紹請見:基于Kubernetes集群部署skyDNS服務
5.6 多個service如何避免地址和端口沖突
此處設計思想是,Kubernetes通過為每個service分配一個唯一的ClusterIP,所以當使用ClusterIP:port的組合訪問一個service的時候,不管port是什么,這個組合是一定不會發生重復的。另一方面,kube-proxy為每個service真正打開的是一個絕對不會重復的隨機端口,用戶在service描述文件中指定的訪問端口會被映射到這個隨機端口上。這就是為什么用戶可以在創建service時隨意指定訪問端口。
5.7 service目前存在的不足
Kubernetes使用iptables和kube-proxy解析service的人口地址,在中小規模的集群中運行良好,但是當service的數量超過一定規模時,仍然有一些小問題。首當其沖的便是service環境變量泛濫,以及service與使用service的pod兩者創建時間先后的制約關系。目前來看,很多使用者在使用Kubernetes時往往會開發一套自己的Router組件來替代service,以便更好地掌控和定制這部分功能。
6、Deployment
Kubernetes提供了一種更加簡單的更新RC和Pod的機制,叫做Deployment。通過在Deployment中描述你所期望的集群狀態,Deployment Controller會將現在的集群狀態在一個可控的速度下逐步更新成你所期望的集群狀態。Deployment主要職責同樣是為了保證pod的數量和健康,90%的功能與Replication Controller完全一樣,可以看做新一代的Replication Controller。但是,它又具備了Replication Controller之外的新特性:
Replication Controller全部功能:Deployment繼承了上面描述的Replication Controller全部功能。
事件和狀態查看:可以查看Deployment的升級詳細進度和狀態。
回滾:當升級pod鏡像或者相關參數的時候發現問題,可以使用回滾操作回滾到上一個穩定的版本或者指定的版本。
版本記錄: 每一次對Deployment的操作,都能保存下來,給予后續可能的回滾使用。
暫停和啟動:對于每一次升級,都能夠隨時暫停和啟動。
多種升級方案:Recreate----刪除所有已存在的pod,重新創建新的; RollingUpdate----滾動升級,逐步替換的策略,同時滾動升級時,支持更多的附加參數,例如設置最大不可用pod數量,最小升級間隔時間等等。
6.1 滾動升級
相比于RC,Deployment直接使用kubectl edit deployment/deploymentName 或者kubectl set方法就可以直接升級(原理是Pod的template發生變化,例如更新label、更新鏡像版本等操作會觸發Deployment的滾動升級)。操作示例——首先 我們同樣定義一個nginx-deploy-v1.yaml的文件,副本數量為2:
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
? name: nginx-deployment
spec:
? replicas: 3? template:
? ? metadata:
? ? ? labels:
? ? ? ? app: nginx
? ? spec:
? ? ? containers:
? ? ? - name: nginx
? ? ? ? image: nginx:1.7.9? ? ? ? ports:
? ? ? ? - containerPort:80
創建deployment:
$ kubectl create -f nginx-deploy-v1.yaml --record
deployment "nginx-deployment" created
$ kubectl get deployments
NAME? ? ? DESIRED? CURRENT? UP-TO-DATE? AVAILABLE? AGE
nginx-deployment3000? ? ? ? ? 1s
$ kubectl get deployments
NAME? ? ? DESIRED? CURRENT? UP-TO-DATE? AVAILABLE? AGE
nginx-deployment333318s
正常之后,將nginx的版本進行升級,從1.7升級到1.9。第一種方法,直接set鏡像:
$ kubectl set image deployment/nginx-deployment2 nginx=nginx:1.9deployment "nginx-deployment2"image updated
第二種方法,直接edit:
$ kubectl edit deployment/nginx-deployment
deployment "nginx-deployment2"edited
查看Deployment的變更信息(以下信息得以保存,是創建時候加的“--record”這個選項起的作用):
$ kubectl rollout history deployment/nginx-deployment
deployments "nginx-deployment":
REVISION? ? CHANGE-CAUSE1kubectl create -f docs/user-guide/nginx-deployment.yaml --record2kubectl set image deployment/nginx-deployment nginx=nginx:1.9.13kubectl set image deployment/nginx-deployment nginx=nginx:1.91$ kubectl rollout history deployment/nginx-deployment --revision=2deployments "nginx-deployment"revision2? Labels:? ? ? app=nginx
? ? ? ? ? pod-template-hash=1159050644? Annotations:? kubernetes.io/change-cause=kubectl set image deployment/nginx-deployment nginx=nginx:1.9.1? Containers:
? nginx:
? ? Image:? ? ? nginx:1.9.1? ? Port:? ? ? 80/TCP
? ? QoS Tier:
? ? ? ? cpu:? ? ? BestEffort
? ? ? ? memory:? BestEffort
? ? Environment Variables:? ? ? ? No volumes.
最后介紹下Deployment的一些基礎命令。
$ kubectl describe deployments? #查詢詳細信息,獲取升級進度
$ kubectl rollout pause deployment/nginx-deployment2? #暫停升級
$ kubectl rollout resume deployment/nginx-deployment2? #繼續升級
$ kubectl rollout undo deployment/nginx-deployment2? #升級回滾
$ kubectl scale deployment nginx-deployment --replicas10#彈性伸縮Pod數量
關于多重升級,舉例,當你創建了一個nginx1.7的Deployment,要求副本數量為5之后,Deployment Controller會逐步的將5個1.7的Pod啟動起來;當啟動到3個的時候,你又發出更新Deployment中Nginx到1.9的命令;這時Deployment Controller會立即將已啟動的3個1.7Pod殺掉,然后逐步啟動1.9的Pod。Deployment Controller不會等到1.7的Pod都啟動完成之后,再依次殺掉1.7,啟動1.9。
7、Volume
在Docker的設計實現中,容器中的數據是臨時的,即當容器被銷毀時,其中的數據將會丟失。如果需要持久化數據,需要使用Docker數據卷掛載宿主機上的文件或者目錄到容器中。在Kubernetes中,當Pod重建的時候,數據是會丟失的,Kubernetes也是通過數據卷掛載來提供Pod數據的持久化的。Kubernetes數據卷是對Docker數據卷的擴展,Kubernetes數據卷是Pod級別的,可以用來實現Pod中容器的文件共享。目前,Kubernetes支持的數據卷類型如下:
1)??????? EmptyDir
2)??????? HostPath
3)??????? GCE Persistent Disk
4)??????? AWS Elastic Block Store
5)??????? NFS
6)??????? iSCSI
7)??????? Flocker
8)??????? GlusterFS
9)??????? RBD
10)??? Git Repo
11)??? Secret
12)??? Persistent Volume Claim
13)??? Downward API
7.1本地數據卷
EmptyDir、HostPath這兩種類型的數據卷,只能最用于本地文件系統。本地數據卷中的數據只會存在于一臺機器上,所以當Pod發生遷移的時候,數據便會丟失。該類型Volume的用途是:Pod中容器間的文件共享、共享宿主機的文件系統。
7.1.1 EmptyDir
如果Pod配置了EmpyDir數據卷,在Pod的生命周期內都會存在,當Pod被分配到 Node上的時候,會在Node上創建EmptyDir數據卷,并掛載到Pod的容器中。只要Pod 存在,EmpyDir數據卷都會存在(容器刪除不會導致EmpyDir數據卷丟失數據),但是如果Pod的生命周期終結(Pod被刪除),EmpyDir數據卷也會被刪除,并且永久丟失。
EmpyDir數據卷非常適合實現Pod中容器的文件共享。Pod的設計提供了一個很好的容器組合的模型,容器之間各司其職,通過共享文件目錄來完成交互,比如可以通過一個專職日志收集容器,在每個Pod中和業務容器中進行組合,來完成日志的收集和匯總。
7.1.2 HostPath
HostPath數據卷允許將容器宿主機上的文件系統掛載到Pod中。如果Pod需要使用宿主機上的某些文件,可以使用HostPath。
7.2網絡數據卷
Kubernetes提供了很多類型的數據卷以集成第三方的存儲系統,包括一些非常流行的分布式文件系統,也有在IaaS平臺上提供的存儲支持,這些存儲系統都是分布式的,通過網絡共享文件系統,因此我們稱這一類數據卷為網絡數據卷。
網絡數據卷能夠滿足數據的持久化需求,Pod通過配置使用網絡數據卷,每次Pod創建的時候都會將存儲系統的遠端文件目錄掛載到容器中,數據卷中的數據將被水久保存,即使Pod被刪除,只是除去掛載數據卷,數據卷中的數據仍然保存在存儲系統中,且當新的Pod被創建的時候,仍是掛載同樣的數據卷。網絡數據卷包含以下幾種:NFS、iSCISI、GlusterFS、RBD(Ceph Block Device)、Flocker、AWS Elastic Block Store、GCE Persistent Disk
7.3 Persistent Volume和Persistent Volume Claim
理解每個存儲系統是一件復雜的事情,特別是對于普通用戶來說,有時候并不需要關心各種存儲實現,只希望能夠安全可靠地存儲數據。Kubernetes中提供了Persistent Volume和Persistent Volume Claim機制,這是存儲消費模式。Persistent Volume是由系統管理員配置創建的一個數據卷(目前支持HostPath、GCE Persistent Disk、AWS Elastic Block Store、NFS、iSCSI、GlusterFS、RBD),它代表了某一類存儲插件實現;而對于普通用戶來說,通過Persistent Volume Claim可請求并獲得合適的Persistent Volume,而無須感知后端的存儲實現。Persistent Volume和Persistent Volume Claim的關系其實類似于Pod和Node,Pod消費Node資源,Persistent Volume Claim則消費Persistent Volume資源。Persistent Volume和Persistent Volume Claim相互關聯,有著完整的生命周期管理:
1)??????? 準備:系統管理員規劃或創建一批Persistent Volume;
2)??????? 綁定:用戶通過創建Persistent Volume Claim來聲明存儲請求,Kubernetes發現有存儲請求的時候,就去查找符合條件的Persistent Volume(最小滿足策略)。找到合適的就綁定上,找不到就一直處于等待狀態;
3)??????? 使用:創建Pod的時候使用Persistent Volume Claim;
4)??????? 釋放:當用戶刪除綁定在Persistent Volume上的Persistent Volume Claim時,Persistent Volume進入釋放狀態,此時Persistent Volume中還殘留著上一個Persistent Volume Claim的數據,狀態還不可用;
5)??????? 回收:是否的Persistent Volume需要回收才能再次使用。回收策略可以是人工的也可以是Kubernetes自動進行清理(僅支持NFS和HostPath)
7.4信息數據卷
Kubernetes中有一些數據卷,主要用來給容器傳遞配置信息,我們稱之為信息數據卷,比如Secret(處理敏感配置信息,密碼、Token等)、Downward API(通過環境變量的方式告訴容器Pod的信息)、Git Repo(將Git倉庫下載到Pod中),都是將Pod的信息以文件形式保存,然后以數據卷方式掛載到容器中,容器通過讀取文件獲取相應的信息。
8、Pet Sets/StatefulSet
K8s在1.3版本里發布了Alpha版的PetSet功能。在云原生應用的體系里,有下面兩組近義詞;第一組是無狀態(stateless)、牲畜(cattle)、無名(nameless)、可丟棄(disposable);第二組是有狀態(stateful)、寵物(pet)、有名(having name)、不可丟棄(non-disposable)。RC和RS主要是控制提供無狀態服務的,其所控制的Pod的名字是隨機設置的,一個Pod出故障了就被丟棄掉,在另一個地方重啟一個新的Pod,名字變了、名字和啟動在哪兒都不重要,重要的只是Pod總數;而PetSet是用來控制有狀態服務,PetSet中的每個Pod的名字都是事先確定的,不能更改。PetSet中Pod的名字的作用,是用來關聯與該Pod對應的狀態。
對于RC和RS中的Pod,一般不掛載存儲或者掛載共享存儲,保存的是所有Pod共享的狀態,Pod像牲畜一樣沒有分別;對于PetSet中的Pod,每個Pod掛載自己獨立的存儲,如果一個Pod出現故障,從其他節點啟動一個同樣名字的Pod,要掛在上原來Pod的存儲繼續以它的狀態提供服務。
適合于PetSet的業務包括數據庫服務MySQL和PostgreSQL,集群化管理服務Zookeeper、etcd等有狀態服務。PetSet的另一種典型應用場景是作為一種比普通容器更穩定可靠的模擬虛擬機的機制。傳統的虛擬機正是一種有狀態的寵物,運維人員需要不斷地維護它,容器剛開始流行時,我們用容器來模擬虛擬機使用,所有狀態都保存在容器里,而這已被證明是非常不安全、不可靠的。使用PetSet,Pod仍然可以通過漂移到不同節點提供高可用,而存儲也可以通過外掛的存儲來提供高可靠性,PetSet做的只是將確定的Pod與確定的存儲關聯起來保證狀態的連續性。
?9、ConfigMap
很多生產環境中的應用程序配置較為復雜,可能需要多個config文件、命令行參數和環境變量的組合。并且,這些配置信息應該從應用程序鏡像中解耦出來,以保證鏡像的可移植性以及配置信息不被泄露。社區引入ConfigMap這個API資源來滿足這一需求。
ConfigMap包含了一系列的鍵值對,用于存儲被Pod或者系統組件(如controller)訪問的信息。這與secret的設計理念有異曲同工之妙,它們的主要區別在于ConfigMap通常不用于存儲敏感信息,而只存儲簡單的文本信息。
10、Horizontal Pod Autoscaler
自動擴展作為一個長久的議題,一直為人們津津樂道。系統能夠根據負載的變化對計算資源的分配進行自動的擴增或者收縮,無疑是一個非常吸引人的特征,它能夠最大可能地減少費用或者其他代價(如電力損耗)。自動擴展主要分為兩種,其一為水平擴展,針對于實例數目的增減;其二為垂直擴展,即單個實例可以使用的資源的增減。Horizontal Pod Autoscaler(HPA)屬于前者。
10.1 Horizontal Pod Autoscaler如何工作
Horizontal Pod Autoscaler的操作對象是Replication Controller、ReplicaSet或Deployment對應的Pod,根據觀察到的CPU實際使用量與用戶的期望值進行比對,做出是否需要增減實例數量的決策。controller目前使用heapSter來檢測CPU使用量,檢測周期默認是30秒。
10.2 Horizontal Pod Autoscaler的決策策略
在HPA Controller檢測到CPU的實際使用量之后,會求出當前的CPU使用率(實際使用量與pod 請求量的比率)。然后,HPA Controller會通過調整副本數量使得CPU使用率盡量向期望值靠近.另外,考慮到自動擴展的決策可能需要一段時間才會生效,甚至在短時間內會引入一些噪聲. 例如當pod所需要的CPU負荷過大,從而運行一個新的pod進行分流,在創建的過程中,系統的CPU使用量可能會有一個攀升的過程。所以,在每一次作出決策后的一段時間內,將不再進行擴展決策。對于ScaleUp而言,這個時間段為3分鐘,Scaledown為5分鐘。再者HPA Controller允許一定范圍內的CPU使用量的不穩定,也就是說,只有當aVg(CurrentPodConsumption/Target低于0.9或者高于1.1時才進行實例調整,這也是出于維護系統穩定性的考慮。