Universal Character Set (UCS) and Unicode Transformation Format (UTF)
對於Unicode如何組成二進位資料這件事情,各方有不同的想法,因而發展出多套各有特色的Unicode編碼方式,其中最出名或最被廣泛使用的三大編碼機制為:UTF-32(UCS-4)、UTF-16(UCS-2)、與UTF-8。它們的編碼細節以及優劣分析將在下面說明。
UTF-32編碼細節
字元編碼表其實就是數字與文字的對應,加上Unicode的字碼範圍又這麼大,因此很直覺的就可以想到把Unicode的字碼當成一個32位元(4個位元組)的整數來儲存。這是最直接最原始的編碼辦法,下表將以4個文字範例做為解釋:
|
文字 |
Unicode編號 |
編碼結果(BE) |
編碼結果(LE) |
|
A |
41 |
00 00 00 41 |
41 00 00 00 |
|
Ü |
DC |
00 00 00 DC |
DC 00 00 00 |
|
⿂ |
2FC2 |
00 00 2F C2 |
C2 2F 00 00 |
文章標籤
全站熱搜

您好! 2FC2 (⿂) 二進位資料應為: "1110"0010 10111111 10000010 編碼結果為: E2 BF 82
多謝提醒,已經更正完畢。原來我算錯一個位元。
您好! 我想請問在閱讀時, 為何一下是UCS-2,一下是USC-2呢?
完全是筆誤,應該是 UCS-2,已更正。 你真細心,謝謝你!