最近要把原先的GB編碼的java工程轉(zhuǎn)化為UTF-8編碼,如果一個(gè)個(gè)轉(zhuǎn)換,不知道要轉(zhuǎn)到什么時(shí)候。還好找了個(gè)【GB/BIG5/UTF-8 文件編碼批量轉(zhuǎn)換程序】,一次性完成轉(zhuǎn)換,爽啊
豆葵文件編碼批量轉(zhuǎn)換工具(豆葵GB/BIG5/UTF-8轉(zhuǎn)換器)是一個(gè)將GB/BIG5/UTF-8等編碼相互轉(zhuǎn)換的工具。
1、字符編碼、內(nèi)碼,順帶介紹漢字編碼
字符必須編碼后才能被計(jì)算機(jī)處理。計(jì)算機(jī)使用的缺省編碼方式就是計(jì)算機(jī)的內(nèi)碼。早期的計(jì)算機(jī)使用7位的ASCII編碼,為了處理漢字,程序員設(shè)計(jì)了用于簡(jiǎn)體中文的GB2312和用于繁體中文的big5。
GB2312(1980年)一共收錄了7445個(gè)字符,包括6763個(gè)漢字和682個(gè)其它符號(hào)。漢字區(qū)的內(nèi)碼范圍高字節(jié)從B0-F7,低字節(jié)從A1-FE,占用的碼位是72*94=6768。其中有5個(gè)空位是D7FA-D7FE。
GB2312支持的漢字太少。1995年的漢字?jǐn)U展規(guī)范GBK1.0收錄了21886個(gè)符號(hào),它分為漢字區(qū)和圖形符號(hào)區(qū)。漢字區(qū)包括21003個(gè)字符。2000年的GB18030是取代GBK1.0的正式國(guó)家標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)收錄了27484個(gè)漢字,同時(shí)還收錄了藏文、蒙文、維吾爾文等主要的少數(shù)民族文字。現(xiàn)在的PC平臺(tái)必須支持GB18030,對(duì)嵌入式產(chǎn)品暫不作要求。所以手機(jī)、MP3一般只支持GB2312。
從ASCII、GB2312、GBK到GB18030,這些編碼方法是向下兼容的,即同一個(gè)字符在這些方案中總是有相同的編碼,后面的標(biāo)準(zhǔn)支持更多的字符。在這些編碼中,英文和中文可以統(tǒng)一地處理。區(qū)分中文編碼的方法是高字節(jié)的最高位不為0。按照程序員的稱(chēng)呼,GB2312、GBK到GB18030都屬于雙字節(jié)字符集 (DBCS)。
有的中文Windows的缺省內(nèi)碼還是GBK,可以通過(guò)GB18030升級(jí)包升級(jí)到GB18030。不過(guò)GB18030相對(duì)GBK增加的字符,普通人是很難用到的,通常我們還是用GBK指代中文Windows內(nèi)碼。
這里還有一些細(xì)節(jié):
GB2312的原文還是區(qū)位碼,從區(qū)位碼到內(nèi)碼,需要在高字節(jié)和低字節(jié)上分別加上A0。
在DBCS中,GB內(nèi)碼的存儲(chǔ)格式始終是big endian,即高位在前。
GB2312的兩個(gè)字節(jié)的最高位都是1。但符合這個(gè)條件的碼位只有128*128=16384個(gè)。所以GBK和GB18030的低字節(jié)最高位都可能不是1。不過(guò)這不影響DBCS字符流的解析:在讀取DBCS字符流時(shí),只要遇到高位為1的字節(jié),就可以將下兩個(gè)字節(jié)作為一個(gè)雙字節(jié)編碼,而不用管低字節(jié)的高位是什么。
2、Unicode、UCS和UTF
前面提到從ASCII、GB2312、GBK到GB18030的編碼方法是向下兼容的。而Unicode只與ASCII兼容(更準(zhǔn)確地說(shuō),是與ISO-8859-1兼容),與GB碼不兼容。例如“漢”字的Unicode編碼是6C49,而GB碼是BABA。
Unicode也是一種字符編碼方法,不過(guò)它是由國(guó)際組織設(shè)計(jì),可以容納全世界所有語(yǔ)言文字的編碼方案。Unicode的學(xué)名是"Universal Multiple-Octet Coded Character Set",簡(jiǎn)稱(chēng)為UCS。UCS可以看作是"Unicode Character Set"的縮寫(xiě)。
根據(jù)維基百科全書(shū)(http://zh.wikipedia.org/wiki/)的記載:歷史上存在兩個(gè)試圖獨(dú)立設(shè)計(jì)Unicode的組織,即國(guó)際標(biāo)準(zhǔn)化組織(ISO)和一個(gè)軟件制造商的協(xié)會(huì)(unicode.org)。ISO開(kāi)發(fā)了ISO 10646項(xiàng)目,Unicode協(xié)會(huì)開(kāi)發(fā)了Unicode項(xiàng)目。
在1991年前后,雙方都認(rèn)識(shí)到世界不需要兩個(gè)不兼容的字符集。于是它們開(kāi)始合并雙方的工作成果,并為創(chuàng)立一個(gè)單一編碼表而協(xié)同工作。從Unicode2.0開(kāi)始,Unicode項(xiàng)目采用了與ISO 10646-1相同的字庫(kù)和字碼。
目前兩個(gè)項(xiàng)目仍都存在,并獨(dú)立地公布各自的標(biāo)準(zhǔn)。Unicode協(xié)會(huì)現(xiàn)在的最新版本是2005年的Unicode 4.1.0。ISO的最新標(biāo)準(zhǔn)是10646-3:2003。
UCS規(guī)定了怎么用多個(gè)字節(jié)表示各種文字。怎樣傳輸這些編碼,是由UTF(UCS Transformation Format)規(guī)范規(guī)定的,常見(jiàn)的UTF規(guī)范包括UTF-8、UTF-7、UTF-16。
IETF的RFC2781和RFC3629以RFC的一貫風(fēng)格,清晰、明快又不失嚴(yán)謹(jǐn)?shù)孛枋隽薝TF-16和UTF-8的編碼方法。我總是記不得IETF是Internet Engineering Task Force的縮寫(xiě)。但I(xiàn)ETF負(fù)責(zé)維護(hù)的RFC是Internet上一切規(guī)范的基礎(chǔ)。
3、UCS-2、UCS-4、BMP
UCS有兩種格式:UCS-2和UCS-4。顧名思義,UCS-2就是用兩個(gè)字節(jié)編碼,UCS-4就是用4個(gè)字節(jié)(實(shí)際上只用了31位,最高位必須為0)編碼。下面讓我們做一些簡(jiǎn)單的數(shù)學(xué)游戲:
UCS-2有2^16=65536個(gè)碼位,UCS-4有2^31=2147483648個(gè)碼位。
UCS-4根據(jù)最高位為0的最高字節(jié)分成2^7=128個(gè)group。每個(gè)group再根據(jù)次高字節(jié)分為256個(gè)plane。每個(gè)plane根據(jù)第3個(gè)字節(jié)分為256行 (rows),每行包含256個(gè)cells。當(dāng)然同一行的cells只是最后一個(gè)字節(jié)不同,其余都相同。
group 0的plane 0被稱(chēng)作Basic Multilingual Plane, 即BMP;蛘哒f(shuō)UCS-4中,高兩個(gè)字節(jié)為0的碼位被稱(chēng)作BMP。
將UCS-4的BMP去掉前面的兩個(gè)零字節(jié)就得到了UCS-2。在UCS-2的兩個(gè)字節(jié)前加上兩個(gè)零字節(jié),就得到了UCS-4的BMP。而目前的UCS-4規(guī)范中還沒(méi)有任何字符被分配在BMP之外。
4、UTF編碼
UTF-8就是以8位為單元對(duì)UCS進(jìn)行編碼。從UCS-2到UTF-8的編碼方式如下:
UCS-2編碼(16進(jìn)制) UTF-8 字節(jié)流(二進(jìn)制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間,所以肯定要用3字節(jié)模板了:1110xxxx 10xxxxxx 10xxxxxx。將6C49寫(xiě)成二進(jìn)制是:0110 110001 001001,用這個(gè)比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
讀者可以用記事本測(cè)試一下我們的編碼是否正確。
UTF-16以16位為單元對(duì)UCS進(jìn)行編碼。對(duì)于小于0x10000的UCS碼,UTF-16編碼就等于UCS碼對(duì)應(yīng)的16位無(wú)符號(hào)整數(shù)。對(duì)于不小于0x10000的UCS碼,定義了一個(gè)算法。不過(guò)由于實(shí)際使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以認(rèn)為UTF-16和UCS-2基本相同。但UCS-2只是一個(gè)編碼方案,UTF-16卻要用于實(shí)際的傳輸,所以就不得不考慮字節(jié)序的問(wèn)題。
5、UTF的字節(jié)序和BOM
UTF-8以字節(jié)為編碼單元,沒(méi)有字節(jié)序的問(wèn)題。UTF-16以?xún)蓚(gè)字節(jié)為編碼單元,在解釋一個(gè)UTF-16文本前,首先要弄清楚每個(gè)編碼單元的字節(jié)序。例如收到一個(gè)“奎”的Unicode編碼是594E,“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”,那么這是“奎”還是“乙”?
Unicode規(guī)范中推薦的標(biāo)記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。BOM是一個(gè)有點(diǎn)小聰明的想法:
在UCS編碼中有一個(gè)叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的編碼是FEFF。而FFFE在UCS中是不存在的字符,所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們?cè)趥鬏斪止?jié)流前,先傳輸字符"ZERO WIDTH NO-BREAK SPACE"。
這樣如果接收者收到FEFF,就表明這個(gè)字節(jié)流是Big-Endian的;如果收到FFFE,就表明這個(gè)字節(jié)流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被稱(chēng)作BOM。
UTF-8不需要BOM來(lái)表明字節(jié)順序,但可以用BOM來(lái)表明編碼方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF(讀者可以用我們前面介紹的編碼方法驗(yàn)證一下)。所以如果接收者收到以EF BB BF開(kāi)頭的字節(jié)流,就知道這是UTF-8編碼了。
Windows就是使用BOM來(lái)標(biāo)記文本文件的編碼方式的。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版













火山翻譯插件2.1.5 谷歌瀏覽器版
windows平臺(tái)劃詞翻譯軟件Translator1.0免費(fèi)
百度翻譯pc客戶(hù)端1.5.4 官方最新版
deepl翻譯PC客戶(hù)端4.0.6052 官方最新版
SketchUp版本轉(zhuǎn)換器2021免費(fèi)版
吾愛(ài)專(zhuān)版PDF轉(zhuǎn)換工具1.0 免費(fèi)版
藍(lán)山pdf轉(zhuǎn)換器圖片免費(fèi)版1.0.0.4133 最新版
批量json轉(zhuǎn)csv工具1.1 中文最新版
小譯同傳翻譯1.02.01 官方版
外語(yǔ)PDF文件翻譯軟件1.0 中文免費(fèi)版
智語(yǔ)文字轉(zhuǎn)語(yǔ)音助手破解版4.0 綠色旗艦版
Tern字幕組機(jī)翻小助手1.1.2 免費(fèi)版
ebk3閱讀器轉(zhuǎn)epub1.0 中文免費(fèi)版
WebPFormat(webp圖片格式轉(zhuǎn)換器)1.0
html英文模板自動(dòng)漢化工具1.1 簡(jiǎn)體中文綠色版
gcsv2xls(csv轉(zhuǎn)excel工具)1.0 免費(fèi)版
Shoviv OST to PST(OST轉(zhuǎn)PST工具)9.4免費(fèi)版
小榔頭PDF轉(zhuǎn)換器1.0 最新版
PandaOCR(熊貓OCR文字識(shí)別)2.72 最新免費(fèi)版
迅捷文字轉(zhuǎn)語(yǔ)音軟件1.0.0.1 最新電腦版
綠葉文件編碼轉(zhuǎn)換器免費(fèi)版
網(wǎng)易有道詞典pc端8.10.8.0 官方最新版
轉(zhuǎn)轉(zhuǎn)大師(多功能PDF轉(zhuǎn)換器)4.9.6.2 官方版
天若OCR文字識(shí)別5.0.0 綠色版
嗨格式PDF轉(zhuǎn)換成Word轉(zhuǎn)換器1.0.13.109 最新版
閃電PDF轉(zhuǎn)換器6.6.1.0 最新版
得力pdf轉(zhuǎn)換器3.3.0.1399 官方版
星如PDF轉(zhuǎn)換器5.0.6.1 最新版
金山快譯個(gè)人版1.0 官方版
寧格思圖片轉(zhuǎn)pdf4.19.0.1 官方免費(fèi)版





app轉(zhuǎn)碼工具(app亂碼轉(zhuǎn)換器)1.0 官方最新版
LightPDF轉(zhuǎn)換器1.0 官方版
SPL轉(zhuǎn)EMF工具(spl轉(zhuǎn)換器)1.0.0.0 單文件
Excel轉(zhuǎn)換Access工具2.10 免費(fèi)版
小葵轉(zhuǎn)換工具1.0 綠色免費(fèi)版
歐亞轉(zhuǎn)換軟件(歐亞轉(zhuǎn)換工具)1.0 中文綠色版
歌美A330街機(jī)轉(zhuǎn)換工具中文綠色版
極速玩轉(zhuǎn)1.0.0.5官方版
微軟必應(yīng)詞典3.5.3.1600 官方最新版
風(fēng)云pdf轉(zhuǎn)word轉(zhuǎn)換器4.0 官方最新版