Unicode 筆記 Unicode note

本網頁以打造無障礙閱讀為目標,可以用任何瀏覽器來觀看本網頁


Unicode(統一碼/標準萬國碼):簡介

  1. Unicode(統一碼)以2byte表達,共有65536種組合,是ISO-10646 UCS(UniversalCharacter Set,世界通用字集)的子集,截至v4.0.0為止收錄了有4144種字元集。
  2. Unicode不同版本的標準都收錄在 ftp.unicode.org,最新版本都收錄在ftp.unicode.org/UNIDATA,版本編號為4.0.0
  3. Unicode的分布可由ftp://ftp.unicode.org/Public/UNIDATA/UnicodeData.txt(830k)取得。
  4. Unicode皆以16進位,開頭以"U+"表示,如U+4E00(注意,不是0x4E00)。
  5. Unicode 只是一個字形和內碼上的標準,並沒有定義實際在電腦上存取的方法,因此Unicode協會便定義了一整套的電腦存取Unicode編碼的轉換格式,並考慮了與其它編碼方式兼容,稱之為UTF(Unicode/UCS Transformation Format,統一碼/通用字集變換格式)。常用的格式有UTF-8和UTF-16
  6. UTF-16基本上就是Unicode雙byte編碼的實現,再加上一個應付未來擴充需求的編碼機制(但很少用)。
  7. UTF-8是一種不等幅的編碼方式,可能需要1,2,3個bytes來儲存,ascii字元不需做轉換,保持原狀﹔但其他的語文資料則須透過程式來做轉換,容量會因每個自需要額外多用1~2個bytes來編碼而變大。
  8. UTF-8的轉換(Unicode->UTF-8)
            U+0000~U+007F (1 byte,128個)    0+7bits                          [2^7=128]
    
            U+0080~U+07FF (2 byte,1920個)   110+5bits,  10+6bits            [2^11=2048]
    
            U+0800~U+FFFF (3 bytes,63488個) 1110+4bits, 10+6bits,10+6bits  [2^16=65536]
    
           --------------------------------
    
            U+0000~U+FFFF    共65536個
           ================================
          

Unihan(統漢字)

  1. 在可能情形下,Unicode 企圖合併語言中的重複部分,雙位元組部份將中日韓文加以整合(CJK Unification),稱為Unihan(統漢字)。
  2. 目前最新的Unihan database其Unicode version為3.2.0,Table version為1.1,釋出日期為2002/03/15。
  3. Unihan資料庫在ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip(4.96mb),解壓縮後大約25mb。
  4. Unicode中Unihan分布於U+3400~U+9FFF與U+F900~U+FAFF的空間,共28160個,其他為另外的國家或特殊符號所使用。
  5. Windows2000/XP上的記事本程式可儲存與編輯Unicode,UTF-8等格式。
  6. big5碼與Unicode的對應可經由擷取Unihan的資料庫得知big5碼與Unicode碼的對應,共收錄13063個big5碼。
    #grep KBigFive Unihan.txt | sort | > KBigFive.txt //under linux

網路資源

unicode主網站

主 網 站:http://peterju.notlong.com (目前轉址至 http://irw.ncut.edu.tw/peterju/) Sitetag Logo

Level Triple-A conformance icon | [歡迎使用任何作業系統、瀏覽器觀看!] | Valid XHTML 1.0 Transitional | Valid CSS! | [Valid RSS] | [創意公眾許可証]
This work is licensed under a Creative Commons License