GB2312字符集:漢字編碼的基礎(chǔ)
字符作為各種文字和符號(hào)的總稱(chēng),構(gòu)成了文字的基本單位。在計(jì)算機(jī)領(lǐng)域中,字符集是多個(gè)字符的集合,常見(jiàn)的字符集包括ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字
字符作為各種文字和符號(hào)的總稱(chēng),構(gòu)成了文字的基本單位。在計(jì)算機(jī)領(lǐng)域中,字符集是多個(gè)字符的集合,常見(jiàn)的字符集包括ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。要準(zhǔn)確處理各種字符集的文字,計(jì)算機(jī)需要進(jìn)行字符編碼,以便識(shí)別和存儲(chǔ)不同語(yǔ)言的文字。
GB2312字符集的起源
GB2312又稱(chēng)為GB2312-80字符集,全稱(chēng)為《信息交換用漢字編碼字符集·基本集》,由中國(guó)國(guó)家標(biāo)準(zhǔn)總局發(fā)布于1981年5月1日。作為中國(guó)國(guó)家標(biāo)準(zhǔn)的簡(jiǎn)體中文字符集,GB2312收錄的漢字已覆蓋99.75%的使用頻率,基本滿(mǎn)足了漢字在計(jì)算機(jī)處理中的需求,在中國(guó)大陸和新加坡得到廣泛應(yīng)用。
GB2312字符集的內(nèi)容
GB2312包含了簡(jiǎn)化漢字、一般符號(hào)、序號(hào)、數(shù)字、拉丁字母、日文假名、希臘字母、俄文字母、漢語(yǔ)拼音符號(hào)、漢語(yǔ)注音字母等共7445個(gè)圖形字符。其中有6763個(gè)漢字,包括3755個(gè)一級(jí)漢字和3008個(gè)二級(jí)漢字;還包括了682個(gè)全角字符,如拉丁字母、希臘字母、日文平假名、片假名字母以及俄語(yǔ)西里爾字母。
技術(shù)特征
(1)分區(qū)表示:GB2312對(duì)漢字進(jìn)行了“分區(qū)”處理,每個(gè)區(qū)含94個(gè)漢字或符號(hào),也被稱(chēng)為區(qū)位碼。不同區(qū)域的字符包括特殊符號(hào)、一級(jí)漢字、二級(jí)漢字等。其中01-09區(qū)為特殊符號(hào),16-55區(qū)為一級(jí)漢字,56-87區(qū)為二級(jí)漢字,而10-15區(qū)及88-94區(qū)則尚未被編碼。
(2)雙字節(jié)表示:在GB2312中,采用雙字節(jié)表示漢字,前一個(gè)字節(jié)是高字節(jié),后一個(gè)字節(jié)是低字節(jié)。高位字節(jié)范圍為0xA1-0xF7(加上0xA0即01-87區(qū)號(hào)),低位字節(jié)范圍為0xA1-0xFE(加上0xA0即01-94區(qū)號(hào))。
編碼示例
以GB2312字符集中的第一個(gè)漢字“啊”為例,它的區(qū)號(hào)為16,位號(hào)為01,因此區(qū)位碼為1601。在計(jì)算機(jī)程序中,將高字節(jié)和低字節(jié)分別加上0xA0即可得到相應(yīng)的漢字處理編碼,如“啊”的編碼為0xB0A1。計(jì)算公式為:高字節(jié)0xA0 區(qū)號(hào);低字節(jié)0xA0 位號(hào)。