系統(tǒng)寫好了,能不能順利上線?一般來說我們需要做一些壓力測試來判斷。比如系統(tǒng)預(yù)計(jì)每天一百萬的接口訪問量,并且訪問時(shí)段主要集中在早八點(diǎn)到晚八點(diǎn),那么平均下來 RPS 大約是 22 次左右,不過用戶的訪問量通常不會很平均,假設(shè)峰值流量是平均流量的 3 到 5 倍的話,那么我們可以推斷出項(xiàng)目要想順利上線,RPS 至少應(yīng)該達(dá)到 66+ 次,110+ 次更好。由此可見上線前用壓力測試工具測試 RPS 是一個(gè)很重要的環(huán)節(jié)。
既然壓力測試工具如此重要,那么我們不妨挑幾個(gè)來說說:
首先說說 ab:
ab 無疑是目前最常見的壓力測試工具。其典型用法如下:
shell> ab -k -c 100 -t 10 http://domain/path
其中,參數(shù)「c」表示的是并發(fā),參數(shù)「t」表示的是整個(gè)測試持續(xù)的時(shí)間。一個(gè)很容易被忽視的參數(shù)是「k」,它會增加請求頭 Connection: Keep-Alive,相當(dāng)于開啟了 HTTP 長連接,這樣做一方面可以降低測試服務(wù)器動態(tài)端口被耗盡的風(fēng)險(xiǎn),另一方面也有助于給目標(biāo)服務(wù)器更大的壓力,測試出更接近極限的結(jié)果。
再來說說 wrk:
wrk 相對于 ab 來說最大的優(yōu)點(diǎn)是它支持多線程,這樣更容易發(fā)揮多核 CPU 的能力,從而更容易測試出系統(tǒng)的極限能力,其典型用法如下:
shell> wrk -c 100 -d 10 http://domain/path
其中,參數(shù)「c」表示的是并發(fā),參數(shù)「d」表示的是整個(gè)測試持續(xù)的時(shí)間。此外,可以通過參數(shù)「t」來控制線程數(shù)(缺省值為 2),實(shí)際使用中可以視情況酌情增大。
如果順著 ab 的使用慣性,你可能會納悶為什么 wrk 沒有類似參數(shù)「k」這樣打開 HTTP 長鏈接的選項(xiàng),這是因?yàn)?wrk 使用的是 HTTP/1.1,缺省開啟的是長連接,而 ab 使用的是 HTTP/1.0,缺省開啟的是短鏈接。
不過這也引出另一個(gè)問題,如何用 wrk 測試短鏈接?實(shí)際上很簡單:
shell> wrk -H "Connection: Close" -c 100 -d 10 http://domain/path
也就是說通過參數(shù)「H」傳遞一個(gè)自定義的 Connection 請求頭來關(guān)閉長鏈接。此外,wrk 支持自定義腳本編程,不過相對較復(fù)雜,本文略過不談。
最后說說 locust:
locust 相對于 ab、wrk 來說最大的優(yōu)點(diǎn)是它不再只是測試一個(gè) url,而是可以測試一個(gè)自定義的場景,其中可以包含多個(gè)有相互關(guān)聯(lián)的 url,此外,它還是分布式可擴(kuò)展的,可以模擬大量用戶的訪問,由此可以得到更貼近真實(shí)環(huán)境的測試數(shù)據(jù)。
關(guān)于 locust 的具體用法有點(diǎn)復(fù)雜,大家可以自行查閱官方文檔。
其它
除了 ab,wrk,locust 等壓力測試工具之外,還有很多其它選擇,其中比較有代表性的是 GoReplay 和 TcpCopy,它們的特殊之處在于可以拷貝線上服務(wù)器的真實(shí)流量并轉(zhuǎn)發(fā)到測試服務(wù)器上去,也就是說,用真實(shí)流量來測試,如此得到的數(shù)據(jù)無疑是更可信的。不過它們的用法更復(fù)雜,大家記得有類似需求的時(shí)候去哪找就行了。
…
說了這么多壓力測試工具,結(jié)尾我想說說壓力測試過程中一些注意事項(xiàng):首先,在使用 ab 或者 wrk 的時(shí)候,最好在同一個(gè)局域網(wǎng)里獨(dú)立的服務(wù)器上運(yùn)行它們,因?yàn)檫@些壓力測試工具本身也會消耗系統(tǒng)資源,所以如果直接在目標(biāo)服務(wù)器上運(yùn)行它們,那么測試的結(jié)果會有偏差;其次,即便使用了長連接,那么也應(yīng)該注意端口 TIME_WAIT 問題,視情況可能需要在 sysctl 配置中開啟 tcp_tw_recycle 或 tcp_tw_reuse 之類的選項(xiàng);最后,在壓力測試過程中,最好時(shí)刻留意哪些資源成為了瓶頸,比如:CPU 是不是跑滿了,IO 是不是跑滿了,帶寬是不是跑滿了等等,如果什么都沒跑滿,但是壓力測試結(jié)果卻上不去,那么就需要反思一下是不是壓力測試工具使用方法有誤,或者是不是在 off-CPU 上消耗了太多時(shí)間,只有知道了瓶頸在哪,才能突破系統(tǒng)的極限。