Universal Character Set (UCS) and Unicode Transformation Format (UTF)

對於Unicode如何組成二進位資料這件事情,各方有不同的想法,因而發展出多套各有特色的Unicode編碼方式,其中最出名或最被廣泛使用的三大編碼機制為:UTF-32(UCS-4)UTF-16(UCS-2)、與UTF-8。它們的編碼細節以及優劣分析將在下面說明。

 

UTF-32編碼細節

字元編碼表其實就是數字與文字的對應,加上Unicode的字碼範圍又這麼大,因此很直覺的就可以想到把Unicode的字碼當成一個32位元(4個位元組)的整數來儲存。這是最直接最原始的編碼辦法,下表將以4個文字範例做為解釋:

 

文字

Unicode編號

編碼結果(BE)

編碼結果(LE)

A

41

00 00 00 41

41 00 00 00

Ü

DC

00 00 00 DC

DC 00 00 00

2FC2

00 00 2F C2

C2 2F 00 00

文章標籤
全站熱搜
創作者介紹
創作者 夜行者 的頭像
夜行者

伊蜜澤瑞

夜行者 發表在 痞客邦 留言(4) 人氣(6,651)