⑴UTF-是一种国际化标准的文字编码,我们已知Windows系统程序已经将最初的UTF-转向Unicode,而GBK的存在是为了中国国情而创造的,不过GBK也将伴随着中文字符的一直流传下去。
⑵GBK和UTF-文字编码的特点:
⑶GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成。
⑷至于UTF-编码则是用以解决国际上字符的一种多字节编码,它对英文使用位(即一个字节,中文使用位(三个字节来编码。对于英文字符较多的论坛则用UTF-节省空间。
⑸GBK和UTF-文字编码的区别:
⑹GBK包含全部中文字符;
⑺UTF-则包含全世界所有国家需要用到的字符。
⑻GBK是在国家标准GB基础上扩容后兼容GB的标准;(好像还不是国家标准
⑼UTF-编码的文字可以在各国各种支持UTF字符集的上显示。
⑽比如,如果是UTF编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。
⑾所以,对于英文比较多的论坛 ,使用GBK则每个字符占用个字节,而使用UTF-英文却只占一个字节。
⑿UTF-版本虽然具有良好的国际兼容性,但中文需要比GBK/BIG版本多占用%的数据库存储空间,因此并非推荐使用,仅供对国际兼容性有特殊要求的用户使用。
⒀GBK就是在保存你的帖子的时候,一个汉字占用两个字节。外国人看会出现乱码,此为我中华为自己汉字编码而形成之解决方案。
⒁UTF就是在保存你的帖子的时候,一个汉字占用个字节。但是外国人看的话不会乱码,此为西人为了解决多字节字符而形成之解决方案。
⒂ASCII(ISO--是鼻祖,最简单的方式,字节高位为。
⒃GB、GBK、GB,这几个是中文编码方式,并向下兼容。GB包含多个汉字和字符,GBK包含多个,GB更厉害,到了多个。他们都是用个字节来表示一个汉字。跟ascii是怎么区分的呢?如果高字节的高位为(也就是高字节大于,就表示是汉字,低字节并无明显特征。
⒄Unicode是统一编码,它建立了一个全世界统一的码表。世界上的所有文字,在这张码表中都是唯一的。
⒅UTF-是Unicode的一种存储、传输方式。它将整个Unicode码表分为部分。
⒆ - F 这部分是最初的ascii部分,按原始的存储方式,即xxxxxxx。
⒇ - FF 这部分存储为xxxxx xxxxxx。
⒈ - FFFF 这部分存储为xxxx xxxxxx xxxxxx。
⒉因此,一个汉字究竟被存储为什么,就需要:先查unicode码表,然后根据在码表的位置进行计算。例如:“电”字,在码表中是,计算成utf就是EB,而在GB的码表中为BE。
⒊UTF-的好处:兼容ASCII,存储英文文件都是单字节,文件小。当然,当以存中文为主时就变成了字节编码了,比GB系列还大!如何标明一个文件是utf格式呢?这个标记是可选的:EF BB BF。比如,用windows自带的记事本创建一个utf格式的文件,就会加上这个标记。但是,如果用ultraedit创建utf文件,并不会加上这个标记。这个标记有个术语,叫做BOM(Byte Order Mark。不带BOM的utf文件和GB文件怎么区分呢?我也不知道。唯一能想到的办法就是:先用一种试,如果出现乱码,就用另一种再试。
⒋简言而知,GBK编码方式的编码是以中国国情而创造的,在国际上的兼容性不好,这也是为什么大多数的网页是使用UTF-编码而不是GBK。