Unicode和UTF-8、UTF-16

Unicode 和 UTF-8 、UTF-16是什么關系呢?這是我最近好奇的一個問題。


Unicode

Unicode 是計算機科學領域里的一項業界標準,包括字符集(包含來自世界各國各地的文字字符)和編碼方案(將每個字符唯一映射到一個二進制編碼)。

Unicode 編碼方式

Unicode 的基本元素是碼位(code point),共包含1114112個碼位。碼位通過使用數值表示,數值格式為:U+hhhh,其中每個h代表一個十六進制數字。

Unicode 的所有碼位組成了一個編碼空間。在Unicode編碼空間,Unicode碼位分為17組編排,每組稱為平面(Plane),而每平面擁有65536個碼位。如下圖所示:

Unicode 編碼空間.png

Unicode 遵守既定規則把世界上的字符一一映射到碼位中。被使用的碼位,其碼點值就是對應字符的Unicode編碼。如, U+0041 表示拉丁字母 “A”;U+40000 由于沒使用,不表示任何字符。

截止目前,才128237 個碼位被使用——編碼空間的 12% 被賦值,在后面還有很多空間可應對新出現的字符。

Unicode 實現方式

Unicode 規定了字符的編碼,但是沒有規定如何實現字符的編碼。實現編碼的方式稱為Unicode 轉換格式(Unicode Transformation Format,簡稱為UTF)。

Unicode 編碼范圍從 U+0000 到 U+10FFFF。對于計算機而言,實現Unicode 編碼的最簡單方式是使用32-bit表示。但是每個字符使用4個字節表示會造成浪費。當你處理大量文本的時候,使用 32-bit 存儲 Unicode 字符會占用大量額外存儲、內存、帶寬等,因為大多字符的第1和第2個字節都是0。

在日常,Unicode編碼的實現方式主要有:UTF-8、UTF-16。


UTF-8

UTF-8是一種可變長度字符編碼方式,以8-bit 為單元,使用1至4個字節為每個字符編碼。

UTF-8編碼規則如下:

Unicode編碼范圍 (十六進制) UTF-8編碼占用字節 UTF-8 編碼(二進制)
U+0000 - U+007F 1 0xxxxxxx
U+0080 - U+07FF 2 110xxxxx 10xxxxxx
U+0800 - U+FFFF 3 1110xxxx 10xxxxxx 10xxxxxx
U+10000 - U+10FFFF 4 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 根據字符所在編碼范圍,確定其所占字節數

  • 單字節的字符,字節的第一位設為0

  • n個字節的字符(n>1),第一個字節的前n位設為1,第n+1位設為0,后面字節的前兩位都設為10,這n個字節的其余空位填充該字符unicode碼,高位用0補足

下面,以漢字“魚”為例,演示如何實現UTF-8編碼。

“魚”的Unicode編碼是9C7C1001 1100 0111 1100),根據上表,9C7C 的UTF-8編碼需要占用3個字節,其格式為1110xxxx 10xxxxxx 10xxxxxx。然后,從“魚”的最后一個二進制位開始,依次從后向前填入格式中的x,多出的位補0。這樣,就得到“魚”的UTF-8編碼:11101001 10110001 10111100,轉換為十六進制就是:E9B1BC


UTF-16

UTF-16是一種可變長度字符編碼方式,以16-bit 為單元,使用2個或4個字節為每個字符編碼。

UTF-16的編碼規則如下:

Unicode編碼范圍 (十六進制) UTF-16編碼占用字節 UTF-16 編碼(二進制)
U+0000 - U+FFFF 2 xxxxxxxx xxxxxxxx
U+10000 - U+10FFFF 4 110110yyyyyyyyyy 110111xxxxxxxxxx
  • 把字符的Unicode編碼記作 U

  • 若U < 0x10000,字符的UTF-16編碼就是U對應的16位二進制:xxxxxxxx xxxxxxxx

  • 若U ≥ 0x10000,則把字符拆分為2部分(U+10000 ~ U+10FFFF的空間大小是2^20),前十位映射到U+D800U+DBFF,后十位映射到U+DC00U+DFFF。具體拆分計算如下:

  • 計算U'=U-0x10000,

  • 將U'寫成二進制形式:yyyy yyyy yyxx xxxx xxxx,

  • 按照110110yyyyyyyyyy 110111xxxxxxxxxx格式填入,即得到U的UTF-16編碼(二進制):110110yyyyyyyyyy 110111xxxxxxxxxx

  • 在基本平面(0x00000xFFFF)內,U+D800U+DFFF是一個空段,即這些碼位不對應任何字符
  • 輔助平面(0x10000~0x10FFFF)的字符位共有2^20個
  • U+D800U+DBFF,空間大小是2^10;U+DC00U+DFFF,空間大小是2^10。二者組合起來,正好可以表示輔助平面的字符。即:輔助平面的字符可以拆分為兩個基本平面的字符表示——字符前10位映射在U+D800到U+DBFF,后10位映射在U+DC00到U+DFFF

下面,以漢字“魚”和字符“??”為例,演示如何實現UTF-16編碼。

“魚”的Unicode編碼是9C7C,根據上表,9C7C < 0x10000 ,其UTF-16編碼就是其Unicode編碼:1001 1100 0111 1100,即0x9C7C。

“??”的Unicode編碼是1D300,根據上表,1D300 > 0x10000,然后減去0x10000,得到0xD300,按yyyy yyyy yyxx xxxx xxxx格式寫成二進制是:0000 1101 0011 0000 0000,然后按照110110yyyyyyyyyy 110111xxxxxxxxxx格式填入,得到“??”的UTF-16編碼(二進制):1101100000110100 1101111100000000,即0xD834 0xDF00


結論

回到先前的疑問:Unicode 和 UTF-8 、UTF-16是什么關系呢?

打個比喻,它們理論和實現的關系:Unicode制定了的理論,UTF-8和UTF-16是具體的實現方案。

而更形象的比喻則是:Unicode相當于中文, UTF-8、 UTF-16等相當于 行書、 楷書、草書等各種書寫方式。


參考資料:
https://zh.wikipedia.org/wiki/Unicode
https://zh.wikipedia.org/wiki/UTF-8
https://zh.wikipedia.org/wiki/UTF-16
http://www.ruanyifeng.com/blog/2014/12/unicode.html
http://blog.jobbole.com/111261/
http://blog.csdn.net/softman11/article/details/6124345
https://www.zhihu.com/question/23374078

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,818評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,185評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,656評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,647評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,446評論 6 405
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 54,951評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,041評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,189評論 0 287
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,718評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,602評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,800評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,316評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,045評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,419評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,671評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,420評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,755評論 2 371

推薦閱讀更多精彩內容