Perton 網誌: UTF-8 & Unicode 迷思

平時，使用電腦打中文文件是很輕鬆平常的事情，也不覺得有什麼困難；早以習以為常的事，就不會再深入了解其中的知識。(也可能是太平常了，習慣了，也不知道要如何深入了解相關的知識與提出問題)
一直到網頁設計上的需要及有時會用到"簡體"內容的檔案碰到瓶頸時，才知道是要真正了解什麼是 Unicode 的時候了 !!

以往的學習中，只知道 Unicode 可以讓簡體正常呈現在繁體電腦的環境中，也可以讓簡、繁體或是世界各國的語言文字(如日文、阿拉伯文、法文、韓文 …)顯示在同一個檔案中。

想不到 Unicode 還可以再細分成：

UTF-8
UTF-16
UTF-16 Big Endian(簡稱 UTF-16BE)
UTF-16 Little Endian(簡稱 UTF-16LE，也是一般所說的 Unicode)
UTF-32
UTF-32 Big Endian(簡稱 UTF-32BE)
UTF-32 Little Endian(簡稱 UTF-32LE)

上述各分類會因編碼規格的不同，而會有檔案大小不同的情形。
● Unicode transformation format (UTF)
● Byte Order Mark (BOM)
● 通用字符集 Universal Character Set (UCS)
● 基本多語言平面 Basic Multilingual Plane (BMP)
● Most Significant Byte (MSB)
● Least Significant Byte (LSB)
● Unicode的學名是"Universal Multiple-Octet Coded Character Set"，簡稱為UCS。
● UCS可以看作是"Unicode Character Set"的縮寫。

其中，Little Endian 和 Big Endian 與檔案大小無關，而是資料 byte order 的差異，也就是高位元組(MSB)放前面或是低位元組(LSB)放前面差異。
例如：
內碼：1234h(0x1234)而言，高位元組是 0x12，低位元組是 0x34。
在記憶體內的存放順序，若是Little Endian則為：0x34、0x12，Big Endian則為0x12、0x34。
例如：
「漢」字的Unicode編碼是0x6C49。那麼寫到文件裡時，究竟是將0x6C寫在前面，還是將0x49寫在前面？
如果將0x6C寫在前面，就是Big Endian。
還是將0x49寫在前面，就是Little Endian。

UTF-8以字元為編碼單元，沒有字元序的問題。
UTF-16以兩個字元為編碼單元
在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字元，它的編碼是FEFF。
而FFFE在UCS中是不存在的字元，所以不應該出現在實際傳輸中。
UCS規範建議我們在傳輸字元流前，先傳輸字元"ZERO WIDTH NO-BREAK SPACE"。
如果收到FEFF，就表明這個字元流是Big-Endian；
如果收到FFFE，就表明這個字元流是Little-Endian。

UTF-8不需要BOM來表明字元順序，但可以用BOM來表明編碼方式。字元"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是 EF BB BF。所以如果接收者收到以EF BB BF開頭的字元流，就知道這是UTF-8編碼了。

Summarizes of the properties of each UTFs

Name	UTF-8	UTF-16	UTF-16BE	UTF-16LE	UTF-32	UTF-32BE	UTF-32LE
Smallest code point	0000	0000	0000	0000	0000	0000	0000
Largest code point	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF	10FFFF
Code unit size	8 bits	16 bits	16 bits	16 bits	32 bits	32 bits	32 bits
Byte order	N/A	<BOM>	Big-Endian	Little-Endian	<BOM>	Big-Endian	Little-Endian
Fewest bytes per character	1	2	2	2	4	4	4
Most bytes per character	4	4	4	4	4	4	4

網頁

UTF-8 & Unicode 迷思

沒有留言: