MIME及電子郵件基本結(jié)構(gòu)
MIME
MIME(Multiplepurpose Internet Mail Extensions),中譯為“多用途互聯(lián)網(wǎng)郵件擴(kuò)展”,顧名思義,這是對傳統(tǒng)互聯(lián)網(wǎng)郵件的擴(kuò)展,現(xiàn)已稱為實(shí)際的互聯(lián)網(wǎng)郵件標(biāo)準(zhǔn)。
指的是一系列電子郵件的技術(shù)規(guī)范,主要包括:RFC 2045、RFC 2047、RFC 4288、RFC 4289、RFC 2077
傳統(tǒng)的電子郵件是1982年定下的,即:RFC 822
它有一個重要的特點(diǎn)就是電子郵件只能使用ASCII字符。這導(dǎo)致了三個結(jié)果:1)非ASCII字符如中文非英語字符都不能出現(xiàn)在郵件中。2)電子郵件中不能插入二進(jìn)制文件(如圖片)3)電子郵件不能有附件
這實(shí)際上是無法接受的,因此到了1992年,工程師決定擴(kuò)展電子郵件的技術(shù)規(guī)范,提出一系列補(bǔ)充規(guī)范,這就是MIME的由來。
電子郵件基本結(jié)構(gòu)
下面是一封傳統(tǒng)的電子郵件:
From: "Tommy Lee" <lee@example.com>
To: "Jack Zhang" <zhang@example.com>
Subject: Test
Date: Wed, 17 May 2000 19:08:29 -0400
Message-ID: <NDBBIAKOPKHFGPLCODIGIEKBCHAA.lee@example.com>
Hello World.
從上面可以看出發(fā)件人的姓名,地址,收件人的姓名,地址,郵件主題,發(fā)信日期。
結(jié)構(gòu)上,這封信分為三個部分:首先是信件頭,然后是一個空行,最后是新建內(nèi)容。收件人的客戶端只會顯示最后一部分,要查看全信,必須“查看原始郵件”功能。
MIME對傳統(tǒng)郵件的擴(kuò)展主要便現(xiàn)在它在信頭部分添加了幾條語句,主要有三條:
MIME-Version: 1.0
這條語句是必須的,而且這個1.0是不變的,即使MIME已經(jīng)升級了好幾個版本
Content-Type: text/html; charset="UTF-8"
Content-Type表明信息類型,缺省值為“Text/plain”。它包含了主要類型/次要類型(maintype/subtype),主要類型有九中,分別是application、audio、example、image、message、model、multiple、text、video。
每一種主要類型下面又有許多次要類型,常見的有:
text/plain:純文本,文件擴(kuò)展名為.txt
text/html:HTML文本,文件擴(kuò)展名為.html和.htm
image/jpeg:jpeg格式的圖片,文件擴(kuò)展名.jpg
image/gif:GIF格式的圖片,文件擴(kuò)展名為.gif
audio/x-wave:WAVE格式的文件,文件擴(kuò)展名為.wav
audio/mpeg:MP3格式的音頻,文件擴(kuò)展名.mp3
video/mpeg:MPEG格式的視頻,文件擴(kuò)展名.mpg
application/zip:PK-ZIP格式的壓縮文件,文件擴(kuò)展名.zip
如果信息類型是Text/plain,那么還必須指明編碼類型“charset”,缺省值是ASCII,其他可能值有ISO-8859-1
,UTF-8
,GB2312
等等
整個Content-Type
這一行,不僅使用在電子郵件,后來也被移植到了HTTP協(xié)議中,所以現(xiàn)在只要是在網(wǎng)上傳播的HTTP信息,都帶有Content-Type
頭,以表明信息類型
前面已經(jīng)說過,電子郵件的傳統(tǒng)格式不支持非ASCII字符和二進(jìn)制,因此MIME添加了第三條語句:
Content-transfer-encoding: base64
為了使非ASCII字符轉(zhuǎn)化為ASCII,這條語句指明了編碼轉(zhuǎn)化的方式,正常我們將中文等字符按照utf-8
或gbk
等編碼方式編碼為二進(jìn)制后,因?yàn)槭欠茿SCII字符,所以需要再將這些非ASCII字符的二進(jìn)制轉(zhuǎn)化為ASCII字符的二進(jìn)制,base64就可以起到這樣的作用。在之前的有一篇博客詳細(xì)介紹過此種編碼轉(zhuǎn)化。
Content-transfer-encoding的值有5種----7bit
、8bit
、binary
、quoted-printable
和base64
----其中7bit
是缺省值,即不用轉(zhuǎn)化的ASCII字符。
除base64
之外,常用的就是quoted-printable
,它主要用于ACSII文本中夾雜少量非ASCII碼字符的情況,不適合于轉(zhuǎn)換純二進(jìn)制文件。
以下是一封郵件的源碼:
Date: Wed, 18 Jun 2008 18:07:51 +0800 (CST)
From: xxx <xxx@163.com>
To: yifeng.ruan@gmail.com
Message-ID: <14410503.1073611213783671983.JavaMail.coremail@bj163app54.163.com>
Subject: =?gbk?B?xOO6ww==?=
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_Part_287491_22998031.1213783671982"
------=_Part_287491_22998031.1213783671982
Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64
IAq4+b7dsr+209PQudi55raoo6yyu7XD1Nq12Le9yM66zs341b7Jz7nSz+DTprXEtqvO96Osx+vE
49TaxOO1xLKpv83W0AogIArW0Ln6yr2x6tPvIC0gyO7Su7fltcTN+MLnyNXWvgoKtcS12jEy1cXN
vMasyb6z/aOst/HU8s7Sw8fXt76/xOO1xM/gudjU8MjOoaPQu9C7us/X96OhtMvNvMas1Nq4vbz+
wO/D5g==
------=_Part_287491_22998031.1213783671982
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable
<DIV>&nbsp;</DIV>
<DIV>=B8=F9=BE=DD=B2=BF=B6=D3=D3=D0=B9=D8=B9=E6=B6=A8=A3=AC=B2=BB=B5=C3=D4=
=DA=B5=D8=B7=BD=C8=CE=BA=CE=CD=F8=D5=BE=C9=CF=B9=D2=CF=E0=D3=A6=B5=C4=B6=AB=
=CE=F7=A3=AC=C7=EB=C4=E3=D4=DA=C4=E3=B5=C4=B2=A9=BF=CD=D6=D0</DIV>
<DIV>&nbsp;
......
其中的MIME語句是:
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_Part_287491_22998031.1213783671982"
Content-Type: multipart/alternative
表明這封信的內(nèi)容是純文本與HTML文本的混合。該項(xiàng)還有其他兩個可能的值,分別是“multiple/mixed”,“multiple/related”,前者表示信件內(nèi)容含有二進(jìn)制內(nèi)容(比如文中插入圖片),后者表示含有附件。
boundary="----=_Part_287491_22998031.1213783671982"
boundary后的內(nèi)容----=_Part_287491_22998031.1213783671982
是信件不同部分的分割線,它通常是一個很長的隨機(jī)字符串。
信件內(nèi)容又有兩個子信件頭:
Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable
表明信件的第一部分是gbk
編碼的純文本,其編碼轉(zhuǎn)換方式是:base64
第二部分是gbk
編碼的HTML文本,其編碼轉(zhuǎn)換方式是:quoted-printable
郵件里所有的內(nèi)容都要經(jīng)過編碼為二進(jìn)制,再將二進(jìn)制通過base64
或QP
編碼為ASCII字符在網(wǎng)絡(luò)上傳輸。