Base64是什么?
個人理解:Base64
是一種編碼方式,和ASCll
一樣,只是一種編碼方式而已,但是兩者用到的場景不同。
我看到百度百科上的Base64解釋上有這樣一段話:
采用Base64編碼具有不可讀性,需要解碼后才能閱讀
總覺得‘閱讀‘這個詞怪怪的,在我碰到的業務場景中,列如圖片的Base64
化傳輸、秘鑰密文的Base64
化保存等,其原內容都不是需要人閱讀的,真正的’閱讀‘者都是機器。
思考Base64產生的原因
思考一個場景:對一段文字進行加密,并傳輸給服務端。
我們一般先會將這段文字轉成二進制數據,然后通過調用系統的加密算法,然后得到一串新的二進制數據,那么如何把這段二進制數據傳給服務端呢?
平時我們和服務端傳輸的數據基本都是utf8
格式的,那么這段二進制數據能直接轉成utf8
格式呢?顯然是不可能的,utf8
的每個字節前幾位的bit都是有特殊含義的(具體看utf8
的生成規則),但是加密得到的二進制數據肯定輸無序的,所以最好將密文的二進制數據先轉成一種能被utf8
編碼的格式,然后就能和服務端進行utf8
格式的通信了
我們來看看平時常常提到的幾種編碼格式。
先看看utf16
和utf32
,其實他們和utf8
一樣,都是對Unicode
碼的一種編碼。我們從電腦屏幕上看到的每一個字,每一個符號,甚至有些表情都對應一個Unicode
碼,那么可以用Unicode
碼編碼密文二進制數據么?答案是不可以。拿utf32
舉例,它其實就是用4個字節表示一個Unicode
碼,但4個字節有多少種組合呢?種,
Unicode
碼的個數只是其中的一部分,但是Unicode
碼并不是固定的,它每年還在增加。如果密文數據正好落在Unicode碼沒有的地方,系統就展示不出來了。而且如果真有一段密文用utf16
展示,里面出現了英文、中文、韓文、數學符號、表情等,你會不會瘋掉(手動滑稽)
用ASCll
碼表示,似乎是一個很好的注意,因為ASCll
碼已經排滿,能做到二進制和符號一一對應的關系。但為什么不可以呢,或者說有什么不方便呢?一方面ASCll
碼中有許多特殊字符,列如'
、"
、\
等等,在展示的時候,有些地方需要加轉義符,有些地方不需要添加,會比較混亂。另一方面ASCll
碼排在前面的一些位置并不是符號能展示出來,列如7號位的響鈴。
其實到這里離Base64
的產生已經很接近了。如果我們把ASCll
碼中那些不能展示出來的位置,和一些特殊字符的位置去掉,形成一種新的編碼,那就能很好的展示出密文內容了。基礎的ASCll
碼占7個bit位,如果去掉一些,那新的編碼格式就用6個bit位好了,。
Base64
就應運而生了。
當然,上面都是我個人的理解。Base64
算法主要最早用于解決電子郵件傳輸問題。在早期,由于歷史問題,電子郵件只允許傳輸ASCII碼字符。當傳輸非ASCII碼時,網關很可能將非ASCII碼的二進制位調整,即將非ASCII碼的8位二進制的最高位設為0。當用戶收到郵件時,可想而知,收到的就是 一份亂碼的郵件。
Base64的規則
所謂的Base64
,就是64個符號來表示6個bit位的二進制流。這64個符號分別為a-z,A-Z,0-9及+
和/
。這里有張對照表
索引 | 符號 | 索引 | 符號 | 索引 | 符號 | 索引 | 符號 |
---|---|---|---|---|---|---|---|
0 | A | 16 | Q | 32 | g | 48 | w |
1 | B | 17 | R | 33 | h | 49 | x |
2 | C | 18 | S | 34 | i | 50 | y |
3 | D | 19 | T | 35 | j | 51 | z |
4 | E | 20 | U | 36 | k | 52 | 0 |
5 | F | 21 | V | 37 | l | 53 | 1 |
6 | G | 22 | W | 38 | m | 54 | 2 |
7 | H | 23 | X | 39 | n | 55 | 3 |
8 | I | 24 | Y | 40 | o | 56 | 4 |
9 | J | 25 | Z | 41 | p | 57 | 5 |
10 | K | 26 | a | 42 | q | 58 | 6 |
11 | L | 27 | b | 43 | r | 59 | 7 |
12 | M | 28 | c | 44 | s | 60 | 8 |
13 | N | 29 | d | 45 | t | 61 | 9 |
14 | O | 30 | e | 46 | u | 62 | + |
15 | P | 31 | f | 47 | v | 63 | / |
具體來說,轉換方式可以分為四步。
- 第一步,將每三個字節作為一組,一共是24個二進制位。
- 第二步,將這24個二進制位分為四組,每個組有6個二進制位。
- 第三步,在每組前面加兩個00,擴展成32個二進制位,即四個字節。
- 第四步,根據下表,得到擴展后的每個字節的對應符號,這就是Base64的編碼值。
舉一個具體的實例,演示英語單詞Man如何轉成Base64編碼。
- 第一步,"M"、"a"、"n"的ASCII值分別是77、97、110,對應的二進制值是01001101、01100001、01101110,將它們連成一個24位的二進制字符串010011010110000101101110。
- 第二步,將這個24位的二進制字符串分成4組,每組6個二進制位:010011、010110、000101、101110。
- 第三步,在每組前面加兩個00,擴展成32個二進制位,即四個字節:00010011、00010110、00000101、00101110。它們的十進制值分別是19、22、5、46。
- 第四步,根據上表,得到每個值對應Base64編碼,即T、W、F、u。
因此,Man的Base64編碼就是TWFu。
如果字節數不足三,則這樣處理:
- 二個字節的情況:將這二個字節的一共16個二進制位,按照上面的規則,轉成三組,最后一組除了前面加兩個0以外,后面也要加兩個0。這樣得到一個三位的Base64編碼,再在末尾補上一個"="號。
比如,"Ma"這個字符串是兩個字節,可以轉化成三組00010011、00010110、00010000以后,對應Base64值分別為T、W、E,再補上一個"="號,因此"Ma"的Base64編碼就是TWE=。 - 一個字節的情況:將這一個字節的8個二進制位,按照上面的規則轉成二組,最后一組除了前面加二個0以外,后面再加4個0。這樣得到一個二位的Base64編碼,再在末尾補上兩個"="號。
比如,"M"這個字母是一個字節,可以轉化為二組00010011、00010000,對應的Base64值分別為T、Q,再補上二個"="號,因此"M"的Base64編碼就是TQ==。