扒一扒HTTP的構(gòu)成

HTTP全稱為HyperText Transfer Protocol，從名字不難看出這是一種基于文本的網(wǎng)絡協(xié)議，對于初學者來說比較友好，容易上手。各平臺上的一些第三方庫都對HTTP做了進一步的封裝，讓HTTP變得更加親民，但往往拿來就用的技術(shù)，很容易忽視其背后隱藏的細節(jié)。今天一起來扒一扒HTTP到底是如何構(gòu)成的。

初窺全貌

HTTP第一眼看上去非常簡單，先來看看Request部分：

上圖主要分為三部分：request line，header和body，中間的CRLF為換行符。如果能將我們平常發(fā)送的http請求對應到上述三個部分，就能形成初步的印象了。

我們以一個實際的http request例子，抓包來看一看詳細的內(nèi)部構(gòu)造。假設我們的請求URL為：

http://www.baidu.com/res/static/thirdparty/connect.jpg?t=1480992153433

后續(xù)的分析都是以此請求為基礎。

Request Line

Request Line的結(jié)構(gòu)為：

Request-Line   = Method SP Request-URI SP HTTP-Version CRLF

Method也就是我們平常談論最多的POST和GET所處的部分(除了POST和GET，還有其他類型的Method)。

SP是個分隔符，我用Wireshark抓包看了下，就一個字節(jié)大小，值為0x20，對應ASCII碼中的空格。

Request-URI我們就更熟悉了，上述請求對應為：/res/static/thirdparty/connect.jpg?t=1480992153.564331。這里值得注意的一點是：實際傳輸?shù)臅r候Request-URI有兩種可能的形式，一種是完整的absoluteURI，包含Schema和Host，另一種是abs_path，并沒有包含Schema（http）和Host（mrpeak.cn）部分，Host部分被移交到了Header當中。所以平時我們抓包，有時看到的是完整的URI，有時則只有路徑信息。

HTTP-Version也很直觀，文本展示形式為：HTTP/1.1，代表我們當前使用的版本。

CRLF由兩個字節(jié)組成。CR值為16進制的0x0D，對應ASCII中的回車鍵，LF值為0x0A，對應ASCII中的換行鍵，CRLF合起來就是我們平常所說的\r\n。

所以上述請求的Request-Line的文本展示：

GET 空格 /res/static/thirdparty/connect.jpg?t=1480992153.564331 空格 HTTP/1.1 CRLF

Header

header其本質(zhì)上是一些文本鍵值對，一個典型的例子如下圖所示：

每個鍵值對的形式為：Key：空格 Value CRLF。

上面講述Request-URI的時候，缺失的Host就以鍵值對的形式存在于header中，比如，Host： pan.baidu.com。

將若干個上述格式的鍵值對組合起來，就成了我們HTTP請求的完整header。最后一個鍵值對之后再跟一個CRLF，就表示我們的header結(jié)束了。

HTTP本身定義了一些header key，另外也允許開發(fā)者添加自己的key，自定義的key一般以X開頭，比如可以定義X-APP-VERSION來記錄客戶端的版本號。

Body

body里面包含請求的實際數(shù)據(jù)。

對于Method=GET的請求來說，body體是為空的，或者說不存在body體，Header最后的兩個CRLF就標識著請求的結(jié)尾。我們一般調(diào)用請求的業(yè)務參數(shù)是通過Request Line當中的Request-URI來傳遞的，比如上述請求中的?t=1480992153.564331，也就是URI的query string部分。這部分同樣是以鍵值對的形式存在，不過是位于Request Line當中。

對于Method=POST的請求來說，body體一般不為空，我們實際的業(yè)務數(shù)據(jù)都存放于body當中，數(shù)據(jù)在body體中是以何種形式存在，其實大有門道，后面再細說。至于Request-URI當中的query string部分，我們依然可以選擇放置一部分數(shù)據(jù)在其中，但更普遍的做法是使用body體。

HTTP Response

response的結(jié)構(gòu)和request結(jié)構(gòu)大致相同，可以用下圖表示：

不過是將Request Line換成了Status Line。

Status Line的結(jié)構(gòu)如下：

Status-Line = HTTP-Version SP Status-Code SP Reason-Phrase CRLF

這里關(guān)鍵在于Status-Code的記憶，記住常見的Status-Code值，對于我們平時分析網(wǎng)絡錯誤十分有幫助，不需要記住每個值的含義，只需理解每個類別的含義即可：

1xx: Informational - Request received, continuing process。
2xx: Success - The action was successfully received, understood, and accepted。
3xx: Redirection - Further action must be taken in order to complete the request。
4xx: Client Error - The request contains bad syntax or cannot be fulfilled。
5xx: Server Error - The server failed to fulfill an apparently valid request。

可以用來攜帶數(shù)據(jù)的部分

分析至此，我們可以總結(jié)一個http請求，哪些地方是可以用來攜帶業(yè)務數(shù)據(jù)的。

Request Line當中的Request-URI是一個選擇，也是標準的GET請求用來傳遞數(shù)據(jù)的位置，一般以query string的格式存在于URI當中。一些瀏覽器或者Framework對于query string的長度會有一定的限制，所以此處不適宜于傳遞較大的數(shù)據(jù)。

Header也是一個選擇，我們可以選擇協(xié)議中的一些標準header key，比如Host，User-Agent等，將我們的業(yè)務數(shù)據(jù)存放其Value中。或者我們通過自定義key，比如上面提到的X-APP-VERSION，使用X-開頭是業(yè)界默認的習慣，雖然RFC 6648當中建議大家不要再使用X-作為Prefix，但這一習慣今天依舊還在持續(xù)。

Body體是我們的第三個選擇，POST請求可以根據(jù)Header中的Content-Type值，以不同的形式將數(shù)據(jù)保存在body體中。

一些隱藏的細節(jié)

可以看出http是一種基于文本解析的協(xié)議，上面提到的空格（0x20），換行（0x0D0A）都是HTTP用來做文本解析的輔助符號。

解析HTTP的text流程，其實也比較好理解。一個簡化的流程大致是這樣：當我們從TCP層拿到應用層的buffer之后，以CLRF(\r\n)為分割符，將整個buffer分成若干行，第一行自然是我們的Request Line，之后每一行代表一個Header，如果連續(xù)讀到兩個CLRF，則表示header結(jié)束，如果是Method=POST，讀取Header中的Content-Length值，最后根據(jù)這個值讀取固定長度的body體。這樣就完成了我們上述三個主要部分的讀取。當然，上述是個簡化的流程，實際解析場景會更多一些。

我們再深入看下Request Line的解析

我們從TCP層拿到的實際上是一個字節(jié)流，要將字節(jié)流解析成我們能夠閱讀交流的形式，我們需要將字節(jié)碼進行編碼和解碼。Request Line使用的編解碼格式是US-ASCII，也就是我們平時接觸的ASCII碼中的一種。

Request Line通過ASCII碼做還原之后，我們得到的是類似這樣的結(jié)果：

GET /res/static/thirdparty/connect.jpg?a=1&b=2 HTTP/1.1

URI的解析也自有一套規(guī)范，我們需要特別注意的是query string部分。我們平時編寫業(yè)務代碼的時候，可能會在query string當中塞入自己的數(shù)據(jù)，這些數(shù)據(jù)可能是任意形式的字節(jié)流，而Request Line和URI的解析都依賴于一些特殊字符來做分割，比如空格，/，？等等，所以為了能正確，安全的解析整個Request Line和URI，我們需要對query string中的字節(jié)流做進一步的編碼約束，只允許其中出現(xiàn)安全的ASCII碼，這也是我們?yōu)槭裁葱枰猆rlEncode的原因。

UrlEncode的過程也比較簡單，它將字節(jié)流中的所有字節(jié)，對照ASCII碼表分為，安全的ASCII碼和不安全的ASCII碼。安全的ASCII碼不用做任何處理，不安全的ASCII碼（比如空格0x20）則做進一步的編碼處理，編碼的思路也簡單：用安全的ASCII碼來代替不安全的ASCII碼。比如空格（0x20）被編碼成%20，由一個ASCII碼(空格)變成了三個ASCII碼(%，2，0)。對于原本就不是ASCII碼的內(nèi)容來說，比如中文，則先以UTF-8編碼成字節(jié)流，再對照ASCII碼做編碼。比如中文字「高」，其UTF-8的表現(xiàn)形式為：\xE9\xAB\x98，再進一步做ASCII編碼，最后UrlEncode的結(jié)果就為：%E9%AB%98。

由此可見，UrlEncode是出于URL安全解析的需要，Encode的結(jié)果是由%和一部分安全的ASCII碼所組成。UrlEncode的缺點也比較明顯，Encode非ASCII碼的時候（比如中文），一個字節(jié)會被encode成3個字節(jié)，長度整整是原先的3倍，造成流量的浪費。

我見過有人使用base64來對query string做encode，這是把概念搞混淆了，至少base64 encode之后的=就不是一個URL安全的字符，=在UrlEncode之后對應%3d。

Header的解析

對于Header的解析可以先按CRLF分割成一個個的鍵值對，鍵值對里面的值，也就是我們所說的field content其實也有編碼要求。RFC 7230中有闡述：

Historically, HTTP has allowed field content with text in the
ISO-8859-1 charset [ISO-8859-1], supporting other charsets only
through use of [RFC2047] encoding. In practice, most HTTP header
field values use only a subset of the US-ASCII charset [USASCII].
Newly defined header fields SHOULD limit their field values to
US-ASCII octets. A recipient SHOULD treat other octets in field
content (obs-text) as opaque data.

簡單來說，我們在實際使用當中使用ASCII碼來限制field content。我們常用幾個Field，諸如Host，User-Agent等，使用ASCII碼字符也已綽綽有余，一般不會對值做進一步的encode處理。

Body的解析

body的解析是我們平時打交道最多的部分，不是說我們需要知道如何去解析body，而是要了解body體里的數(shù)據(jù)格式。

body的解析本身比較簡單，從header中知道Content-Length之后，讀取固定長度的字節(jié)流即完成了body的獲取，關(guān)鍵的環(huán)節(jié)是獲取之后，如何讀取其中的數(shù)據(jù)并遞交給應用層，所以HTTP協(xié)議本身并沒有對Body中的內(nèi)容編碼做約束，而是把它交給協(xié)議的使用者去決定，我們甚至可以在body體里存放二進制流，對應的Content-Type為application/octet-stream。

我們來看看平時發(fā)送HTTP請求時，以AFNetworking為例，使用最頻繁的幾種Content-Type：

multipart/form-data
application/x-www-form-urlencoded
application/json

當我們向Server發(fā)送數(shù)據(jù)的時候，需要和Server約定好所使用的Content-Type，客戶端在發(fā)送Request的時候也要注意API的差別，以AFNetworking為例，發(fā)送json則使用：

AFJSONRequestSerializer* jsonSerializer = [AFJSONRequestSerializer serializer];
request = [jsonSerializer requestWithMethod:@"POST" URLString:requestUrl parameters:requestParams error:nil];

發(fā)送multipart/form-data：

request = [self.requestSerializer multipartFormRequestWithMethod:@"POST" URLString:requestUrl parameters:requestParams constructingBodyWithBlock:nil error:nil];

發(fā)送x-www-form-urlencoded：

request = [self.requestSerializer requestWithMethod:@"POST" URLString:requestUrl parameters:requestParams error:nil];

json不用多說，大家都非常熟悉的數(shù)據(jù)交換格式。multipart/form-data和x-www-form-urlencoded比較容易引起混淆。

在AFNetworking中有這樣一段代碼：

//AFURLRequestSerialization
if (![mutableRequest valueForHTTPHeaderField:@"Content-Type"]) {
    [mutableRequest setValue:@"application/x-www-form-urlencoded" forHTTPHeaderField:@"Content-Type"];
}

可見當我們的Request沒有設置Content-Type的時候，默認使用的就是application/x-www-form-urlencoded。這里的urlencoded和前面Request-URI中的urlencode是一回事，只不過encode的是body體當中的內(nèi)容。

那我們什么時候用application/x-www-form-urlencoded，什么時候用multipart/form-data呢？

先來看下使用Content-Type為multipart/form-data時，我們的Request有什么變化，下圖是使用mitmproxy抓包一個文件上傳Request的headers示意圖：

Content-Type的完整值為：multipart/form-data; boundary=Boundary+2BBBEA582E48968C。

multipart把body體分成多個塊，多個塊之間依賴于boundary值去做分割，所以生成的boundary要足夠長，長到在字節(jié)流當中出現(xiàn)重復的概率幾乎為0，否則就會導致錯誤的傳輸，AFNetworking中生成Boundary的方法如下：

static NSString * AFCreateMultipartFormBoundary() {
    return [NSString stringWithFormat:@"Boundary+%08X%08X", arc4random(), arc4random()];
}

我們可以看下一個例子，如果使用multipart/form-data，body中具體的數(shù)據(jù)格式：

Boundary+2BBBEA582E48968C
Content-Disposition: form-data; name="text1"
text
Boundary+2BBBEA582E48968C
Content-Disposition: form-data; name="text2"
another text

可以看到在body中多出了Boundary+2BBBEA582E48968C和Content-Disposition，這些會增加body的傳輸大小。

假設我們有一個大文件需要上傳，如果使用application/x-www-form-urlencoded作為Content-Type，由于字節(jié)流當中存在非常多的非ASCII碼，文件的長度會變至原本的2-3倍，所以此時multipart/form-data更合適。

假設我們只有少量的鍵值對需要上傳，如果使用multipart/form-data作為Content-Type，由于boundary和Content-Disposition帶來的額外流量，又顯得得不償失，所以此時使用application/x-www-form-urlencoded更為合適。

這也是為什么我們使用multipart/form-data作為文件類Request的Content-Type，而對于普通業(yè)務數(shù)據(jù)，則使用application/x-www-form-urlencoded或者application/json。

總結(jié)

上述的分析，更多的是站在客戶端的角度去看的，實際HTTP協(xié)議的構(gòu)成細節(jié)非常之多，需要曠日持久的深入學習和積累。功夫越深，坑越少 ;)

最后編輯于：2017.12.05 01:25:31

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 227,818評論 6贊 531
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,185評論 3贊 414
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,656評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經(jīng)常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,647評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,446評論 6贊 405
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 54,951評論 1贊 321
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,041評論 3贊 440
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 42,189評論 0贊 287
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 48,718評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 40,602評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,800評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,316評論 5贊 358
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 44,045評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,419評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,671評論 1贊 281
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,420評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,755評論 2贊 371

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

扒一扒HTTP的構(gòu)成

扒一扒HTTP的構(gòu)成

初窺全貌

Request Line

Header

Body

HTTP Response

可以用來攜帶數(shù)據(jù)的部分

一些隱藏的細節(jié)

總結(jié)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

扒一扒HTTP的構(gòu)成

初窺全貌

Request Line

Header

Body

HTTP Response

可以用來攜帶數(shù)據(jù)的部分

一些隱藏的細節(jié)

總結(jié)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频