共找到2條詞條名為字符集的結果展開

字符集

徠字元(Character)是各種文字和符號的總稱，包括各國家文字、標點符號、圖形符號、數字等。字符集(Characterset)是多個字元的集合，字符集種類較多，每個字符集包含的字元個數不同，常見字符集名稱：ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。在計算機技術發展的早期，如ASCII（1963年）和EBCDIC（1964年）這樣的字符集逐漸成為標準。但這些字符集的局限很快就變得明顯，於是人們開發了許多方法來擴展它們。對於支持包括東亞CJK字元家族在內的寫作系統的要求能支持更大量的字元，並且需要一種系統而不是臨時的方法實現這些字元的編碼。

1ASCII 名稱由來特點包含內容技術特徵

擴展字符集 2GB18030 名稱由來特點編碼方法

包含內容 3Unicode 名稱由來特徵編碼方法

UTF-8編碼比較

ASCII

名稱由來

ASCII（American Standard Code for Information Interchange，美國信息互換標準編碼）是基於羅馬字母表的一套電腦編碼系統。

特點

它主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統，並等同於國際標準ISO 646。

包含內容

控制字元：回車鍵、退格、換行鍵等。

可顯示字元：英文大小寫字元、阿拉伯數字和西文符號。

技術特徵

7位（bits）表示一個字元，共128字元，字元值從0到127，其中32到126是可列印字元。

擴展字符集

7位編碼的字符集只能支持128個字元，為了表示更多的歐洲常用字元對ASCII進行了擴展，ASCII擴展字符集使用8位（bits）表示一個字元，共256字元。

ASCII擴展字符集：它是從ASCII字符集擴充出來的，擴充后的符號增加了表格符號、計算符號、希臘字母和特殊的拉丁符號。

GB18030

名稱由來

G徠B 18030的全稱是GB18030-2000《信息交換用漢字編碼字符集基本集的擴充》，是我國政府於2000年3月17日發布的新的漢字編碼國家標準，2001年8月31日後在中國市場上發布的軟體必須符合本標準。

特點

GB18030 字符集

GB 18030字符集標準的出台經過廣泛參與和論證，

來自國內外知名信息技術行業的公司，信息產業部和原國家質量技術監督局聯合實施。

GB 18030字符集標準解決漢字、日文假名、朝鮮語和中國少數民族文字組成的大字符集計算機編碼問題。該標準的字元總編碼空間超過150萬個編碼位，收錄了27484個漢字，復蓋中文、日文、朝鮮語和中國少數民族文字。滿足中國大陸、香港、台灣、日本和韓國等東亞地區信息交換多文種、大字量、多用途、統一編碼格式的要求。並且與Unicode 3.0版本兼容，填補Unicode擴展字元字彙“統一漢字擴展A”的內容。並且與以前的國家字元編碼標準（GB2312，GB13000.1）兼容。

編碼方法

GB 18030標準採用單位元組、雙位元組和四位元組三種方式對字元編碼。單位元組部分使用0×00至0×7F碼(對應於ASCII碼的相應碼)。雙位元組部分，首位元組碼從0×81至0×FE，尾位元組碼位分別是0×40至0×7E和0×80至0×FE。四位元組部分採用GB/T 11383未採用的0×30到0×39作為對雙位元組編碼擴充的後綴，這樣擴充的四位元組編碼，其範圍為0×81308130到0×FE39FE39。其中第一、三個位元組編碼碼位均為0×81至0×FE，第二、四個位元組編碼碼位均為0×30至0×39。

包含內容

雙位元組部分收錄內容主要包括GB13000.1全部CJK漢字20902個、有關標點符號、表意文字描述符13個、增補的漢字和部首/構件80個、雙位元組編碼的歐元符號等。四位元組部分收錄了上述雙位元組字元之外的，包括CJK統一漢字擴充A在內的GB 13000.1中的全部字元。

Unicode

名稱由來

Unicode字符集編碼是Universal Multiple-Octet Coded Character Set 通用多八位編碼字符集的簡稱，是由一個名為 Unicode 學術學會(Unicode Consortium)的機構制訂的字元編碼系統，支持現今世界各種不同語言的書面文本的交換、處理及顯示。該編碼於1990年開始研發，1994年正式公布，最新版本是2012年1月31日的Unicode 6.1。

特徵

Unicode是一種在計算機上使用的字元編碼。它為每種語言中的每個字元設定了統一併且唯一的二進位編碼，以滿足跨語言、跨平台進行文本轉換、處理的要求。

編碼方法

Unicode 標準始終使用十六進位數字，而且在書寫時在前面加上前綴“U+”，例如字母“A”的編碼為 004116 和字元“?”的編碼為 20AC16。所以“A”的編碼書寫為“U+0041”。

UTF-8編碼

UTF-8是Unicode的其中一個使用方式。 UTF是 Unicode Tranformation Format，即把Unicode轉做某種格式的意思。

UTF-8便於不同的計算機之間使用網路傳輸不同語言和編碼的文字，使得雙位元組的Unicode能夠在現存的處理單位元組的系統上正確傳輸。

UTF-8使用可變長度位元組來儲存 Unicode字元，例如ASCII字母繼續使用1位元組儲存，重音文字、希臘字母或西里爾字母等使用2位元組來儲存，而常用的漢字就要使用3位元組。輔助平面字元則使用4位元組。

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到6個位元組編碼UNICODE字元。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言（如英文，日文，韓文）。

比較

UTF-16 和 UTF-32 編碼

UTF-32、UTF-16和 UTF-8 是 Unicode 標準的編碼字符集的字元編碼方案，UTF-16 使用一個或兩個未分配的 16 位代碼單元的序列對 Unicode 代碼點進行編碼；UTF-32 即將每一個 Unicode 代碼點表示為相同值的 32 位整數。

字符集

字符集

ASCII

名稱由來

特點

包含內容

技術特徵

擴展字符集

GB18030

名稱由來

特點

編碼方法

包含內容

Unicode

名稱由來

特徵

編碼方法

UTF-8編碼

比較

基本信息