共找到2條詞條名為字符集的結果 展開

字符集

字符集

徠字元(Character)是各種文字和符號的總稱,包括各國家文字、標點符號、圖形符號、數字等。字符集(Characterset)是多個字元的集合,字符集種類較多,每個字符集包含的字元個數不同,常見字符集名稱:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。在計算機技術發展的早期,如ASCII(1963年)和EBCDIC(1964年)這樣的字符集逐漸成為標準。但這些字符集的局限很快就變得明顯,於是人們開發了許多方法來擴展它們。對於支持包括東亞CJK字元家族在內的寫作系統的要求能支持更大量的字元,並且需要一種系統而不是臨時的方法實現這些字元的編碼。

ASCII


名稱由來

ASCII(American Standard Code for Information Interchange,美國信息互換標準編碼)是基於羅馬字母表的一套電腦編碼系統。

特點

它主要用於顯示現代英語和其他西歐語言。它是現今最通用的單位元組編碼系統,並等同於國際標準ISO 646。

包含內容

控制字元:回車鍵、退格、換行鍵等。
可顯示字元:英文大小寫字元、阿拉伯數字和西文符號。

技術特徵

7位(bits)表示一個字元,共128字元,字元值從0到127,其中32到126是可列印字元。

擴展字符集

7位編碼的字符集只能支持128個字元,為了表示更多的歐洲常用字元對ASCII進行了擴展,ASCII擴展字符集使用8位(bits)表示一個字元,共256字元。
ASCII擴展字符集:它是從ASCII字符集擴充出來的,擴充后的符號增加了表格符號、計算符號、希臘字母和特殊的拉丁符號。

GB18030


名稱由來

G徠B 18030的全稱是GB18030-2000《信息交換用漢字編碼字符集基本集的擴充》,是我國政府於2000年3月17日發布的新的漢字編碼國家標準,2001年8月31日後在中國市場上發布的軟體必須符合本標準。

特點

GB18030 字符集
GB18030 字符集
GB 18030字符集標準的出台經過廣泛參與和論證,
來自國內外知名信息技術行業的公司,信息產業部和原國家質量技術監督局聯合實施。
GB 18030字符集標準解決漢字、日文假名、朝鮮語和中國少數民族文字組成的大字符集計算機編碼問題。該標準的字元總編碼空間超過150萬個編碼位,收錄了27484個漢字,復蓋中文、日文、朝鮮語和中國少數民族文字。滿足中國大陸、香港、台灣、日本和韓國等東亞地區信息交換多文種、大字量、多用途、統一編碼格式的要求。並且與Unicode 3.0版本兼容,填補Unicode擴展字元字彙“統一漢字擴展A”的內容。並且與以前的國家字元編碼標準(GB2312,GB13000.1)兼容。

編碼方法

GB 18030標準採用單位元組、雙位元組和四位元組三種方式對字元編碼。單位元組部分使用0×00至0×7F碼(對應於ASCII碼的相應碼)。雙位元組部分,首位元組碼從0×81至0×FE,尾位元組碼位分別是0×40至0×7E和0×80至0×FE。四位元組部分採用GB/T 11383未採用的0×30到0×39作為對雙位元組編碼擴充的後綴,這樣擴充的四位元組編碼,其範圍為0×81308130到0×FE39FE39。其中第一、三個位元組編碼碼位均為0×81至0×FE,第二、四個位元組編碼碼位均為0×30至0×39。

包含內容

雙位元組部分收錄內容主要包括GB13000.1全部CJK漢字20902個、有關標點符號、表意文字描述符13個、增補的漢字和部首/構件80個、雙位元組編碼的歐元符號等。四位元組部分收錄了上述雙位元組字元之外的,包括CJK統一漢字擴充A在內的GB 13000.1中的全部字元。

Unicode


名稱由來

Unicode字符集編碼是Universal Multiple-Octet Coded Character Set 通用多八位編碼字符集的簡稱,是由一個名為 Unicode 學術學會(Unicode Consortium)的機構制訂的字元編碼系統,支持現今世界各種不同語言的書面文本的交換、處理及顯示。該編碼於1990年開始研發,1994年正式公布,最新版本是2012年1月31日的Unicode 6.1。

特徵

Unicode是一種在計算機上使用的字元編碼。它為每種語言中的每個字元設定了統一併且唯一的二進位編碼,以滿足跨語言、跨平台進行文本轉換、處理的要求。

編碼方法

Unicode 標準始終使用十六進位數字,而且在書寫時在前面加上前綴“U+”,例如字母“A”的編碼為 004116 和字元“?”的編碼為 20AC16。所以“A”的編碼書寫為“U+0041”。

UTF-8編碼

UTF-8是Unicode的其中一個使用方式。 UTF是 Unicode Tranformation Format,即把Unicode轉做某種格式的意思。
UTF-8便於不同的計算機之間使用網路傳輸不同語言和編碼的文字,使得雙位元組的Unicode能夠在現存的處理單位元組的系統上正確傳輸。
UTF-8使用可變長度位元組來儲存 Unicode字元,例如ASCII字母繼續使用1位元組儲存,重音文字、希臘字母或西里爾字母等使用2位元組來儲存,而常用的漢字就要使用3位元組。輔助平面字元則使用4位元組。
UTF-8(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼,又稱萬國碼。由Ken Thompson於1992年創建。現在已經標準化為RFC 3629。UTF-8用1到6個位元組編碼UNICODE字元。用在網頁上可以同一頁面顯示中文簡體繁體及其它語言(如英文,日文,韓文)。

比較

UTF-16 和 UTF-32 編碼
UTF-32、UTF-16和 UTF-8 是 Unicode 標準的編碼字符集的字元編碼方案,UTF-16 使用一個或兩個未分配的 16 位代碼單元的序列對 Unicode 代碼點進行編碼;UTF-32 即將每一個 Unicode 代碼點表示為相同值的 32 位整數。