平時,使用電腦打中文文件是很輕鬆平常的事情,也不覺得有什麼困難;早以習以為常的事,就不會再深入了解其中的知識。(也可能是太平常了,習慣了,也不知道要如何深入了解相關的知識與提出問題)
一直到網頁設計上的需要及有時會用到"簡體"內容的檔案碰到瓶頸時,才知道是要真正了解什麼是 Unicode 的時候了 !!
以往的學習中, 只知道 Unicode 可以讓簡體正常呈現在繁體電腦的環境中,也可以讓簡、繁體或是世界各國的語言文字(如日文、阿拉伯文、法文、韓文 …)顯示在同一個檔案中。
想不到 Unicode 還可以再細分成:
- UTF-8
- UTF-16
- UTF-16 Big Endian(簡稱 UTF-16BE)
- UTF-16 Little Endian(簡稱 UTF-16LE,也是一般所說的 Unicode)
- UTF-32
- UTF-32 Big Endian(簡稱 UTF-32BE)
- UTF-32 Little Endian(簡稱 UTF-32LE)
上述各分類會因編碼規格的不同,而會有檔案大小不同的情形。
● Unicode transformation format (UTF)
● Byte Order Mark (BOM)
● 通用字符集 Universal Character Set (UCS)
● 基本多語言平面 Basic Multilingual Plane (BMP)
● Most Significant Byte (MSB)
● Least Significant Byte (LSB)
● Unicode的學名是"Universal Multiple-Octet Coded Character Set",簡稱為UCS。
● UCS可以看作是"Unicode Character Set"的縮寫。
其中,Little Endian 和 Big Endian 與檔案大小無關,而是資料 byte order 的差異,也就是高位元組(MSB)放前面或是低位元組(LSB)放前面差異。
例如:
內碼:1234h(0x1234)而言,高位元組是 0x12,低位元組是 0x34。
在記憶體內的存放順序,若是Little Endian則為:0x34、0x12,Big Endian則為0x12、0x34。
例如:
「漢」字的Unicode編碼是0x6C49。那麼寫到文件裡時,究竟是將0x6C寫在前面,還是將0x49寫在前面?
如果將0x6C寫在前面,就是Big Endian。
還是將0x49寫在前面,就是Little Endian。
UTF-8以字元為編碼單元,沒有字元序的問題。
UTF-16以兩個字元為編碼單元
在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字元,它的編碼是FEFF。
而FFFE在UCS中是不存在的字元,所以不應該出現在實際傳輸中。
UCS規範建議我們在傳輸字元流前,先傳輸字元"ZERO WIDTH NO-BREAK SPACE"。
如果收到FEFF,就表明這個字元流是Big-Endian;
如果收到FFFE,就表明這個字元流是Little-Endian。
UTF-8不需要BOM來表明字元順序,但可以用BOM來表明編碼方式。字元"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是 EF BB BF。所以如果接收者收到以EF BB BF開頭的字元流,就知道這是UTF-8編碼了。
Summarizes of the properties of each UTFs
Name | UTF-8 | UTF-16 | UTF-16BE | UTF-16LE | UTF-32 | UTF-32BE | UTF-32LE |
Smallest code point | 0000 | 0000 | 0000 | 0000 | 0000 | 0000 | 0000 |
Largest code point | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF | 10FFFF |
Code unit size | 8 bits | 16 bits | 16 bits | 16 bits | 32 bits | 32 bits | 32 bits |
Byte order | N/A | <BOM> | Big-Endian | Little-Endian | <BOM> | Big-Endian | Little-Endian |
Fewest bytes per character | 1 | 2 | 2 | 2 | 4 | 4 | 4 |
Most bytes per character | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
沒有留言:
張貼留言