判断字符串编码的函数及编码的理解

字符集和编码

回复：程序员的人生该将如何规划?

Feb 13

bkkkd , 13:34 , 开发应用 , 评论(4) , 引用(0) , 阅读(10349) , Via 本站原创

大 | 中 | 小

<?
function is_utf8($string) {
   // From http://w3.org/International/questions/qa-forms-utf-8.html
   return preg_match('%^(?:
         [\x09\x0A\x0D\x20-\x7E]            # ASCII
       | [\xC2-\xDF][\x80-\xBF]            # non-overlong 2-byte
       |  \xE0[\xA0-\xBF][\x80-\xBF]        # excluding overlongs
       | [\xE1-\xEC\xEE\xEF][\x80-\xBF]  # straight 3-byte
       |  \xED[\x80-\x9F][\x80-\xBF]        # excluding surrogates
       |  \xF0[\x90-\xBF][\x80-\xBF]    # planes 1-3
       | [\xF1-\xF3][\x80-\xBF]          # planes 4-15
       |  \xF4[\x80-\x8F][\x80-\xBF]    # plane 16
   )*$%xs', $string);
}?>

但不知道每一个国家的语言是怎样分别的?
中文常用编码方式

ASCII	#最原的编码方式,计算机最初设计时用使用的编码	0-255
gb2313	#为了适应中文的应用,所制作出来的,使用用两个字节的表示	第一字节:176-247 第二字节:160-254
gbk	在gd2312的基础上扩容，而且为了统一中文字符用有又字节的都是从129开始	第一字节:129-254 第二字节:64-254
GB18030	在gbk的基础上扩容，而且而且增加了四字节显示	双字节部分:第一字节:176-254 第二字节:64-126,128-254 四字节部分:第一字节:176-254 第二字节:48-57 第三字节:176-254 第四字节:48-57

GB18030虽然为国标，但系一般情况使用比较小．
多数使用GBK
但是国际上为了更好的支持各国语言，开始了新的标准
Unicode
国际标准组织于1984年4月成立ISO/IECJTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立UnicodeConsortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（BasicMultilingualPlane）相同。Unicode于1992年6月通过DIS（DrafInternationalStandard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。