分页: 2/4 第一页 上页 1 2 3 4 下页 最后页 [ 显示模式: 摘要 | 列表 ]
Oct 26

  这里介绍了在PHP中的面向对象编程(OOP,Object Oriented Programming)。将向你演示如何通过使用一些OOP的概念和PHP的技巧来减少编码和提高质量。祝你好运!



面向对象编程的概念:

不同的作者之间说法可能不一样,但是一个OOP语言必须有以下几方面:



抽象数据类型和信息封装

继承

多态



在PHP中是通过类来完成封装的:



[code:1:430ff1d506]


class Something {

// 在OOP类中,通常第一个字符为大写

var $x;

function setX($v) {

// 方法开始为小写单词,然后使用大写字母来分隔单词,例如getValueOfArea()

$this->x=$v;

}

function getX() {

return $this->x;

}

}

?>

[/code:1:430ff1d506]



  当然你可以按自已的喜好进行定义,但最好保持一种标准,这样会更有效。



  数据成员在类中使用"var"声明来定义,在给数据成员赋值之前,它们是没有类型的。一个数据成员可以是一个整数,一个数组,一个相关数组(associative array)或者是一个对象。



  方法在类中被定义成函数形式,在方法中访问类成员变量时,你应该使用$this->name,否则对一个方法来说,它只能是局部变量。



  使用new操作符来创建一个对象:



  $obj=new Something;



  然后你可以使用成员函数通过:



  $obj->setX(5);

  $see=$obj->getX();



  在这个例子中,setX成员函数将5赋值给对象的成员变量x(不是类的),然后getX返回它的值5。



  你可以象:$obj->x=6那样通过类引用方式来存取数据成员,这不是一个很好的OOP习惯。我强烈建议通过方法来存取成员变量。如果你把成
员变量看成是不可处理的,并且只通过对象句柄来使用方法,你将是一
个好的OOP程序员。不幸的是,PHP不支持声明私有成员变量,所以不良代码在PHP中也是允许的。



  继承在PHP中很容易实现,只要使用extend关键字。



[code:1:430ff1d506]


class Another extends Something {

var $y;

function setY($v) {

$this->y=$v;

}

function getY() {

return $this->y;

}

}

?>

[/code:1:430ff1d506]



  "Another"类的对象现在拥有了父类(Something)的全部的数据成员及方法,而且还加上了自已的数据成 员和方法。



你可以使用



[code:1:430ff1d506]

$obj2=new Something;

$obj2->setX(6);

$obj2->setY(7);

[/code:1:430ff1d506]



PHP现在还不支持多重继承,所以你不能从两个或两个以上类派生出新的类来。



你可以在派生类中重定义一个方法,如果我们在"Another"类中重定义了getX方法,我们就不能使 用"Something"中的getX方法了。如果你在派生类中声明了一个与基派同名的数据成员,那么当你处理它时, 它将“隐藏”基类的数据成员。



你可以在你的类中定义构造函数。构造函数是一个与类名同名的方法,当你创建一个类的对象时会被调 用,例如:



[code:1:430ff1d506]


class Something {

var $x;

function Something($y) {

$this->x=$y;

}

function setX($v) {

$this->x=$v;

}

function getX() {

return $this->x;

}

}

?>

[/code:1:430ff1d506]



  所以你可以创建一个对象,通过:



  $obj=new Something(6);



  构造函数会自动地把6赋值给数据变量x。构造函数和方法都是普通的PHP函数,所以你可以使用缺省参数。



  function Something($x="3",$y="5")



  接着:



  $obj=new Something(); // x=3 and y=5

  $obj=new Something(; // x=8 and y=5

  $obj=new Something(8,9); // x=8 and y=9



  缺省参数使用C++的方式,所以你不能忽略Y的值,而给X一个缺省参数,参数是从左到右赋值的,如果传入的参数少于要求的参数时,其作的将使用缺省参数。



  当一个派生类的对象被创建时,只有它的构造函数被调用,父类的构造函数没被调用,如果你想调用基类的构造函数,你必须要在派生类的构造函数中显示调用。可以这样做是因为在派生类中所有父类的方法都是可用的。



[code:1:430ff1d506]


function Another() {

$this->y=5;

$this->Something();

//显示调用基类构造函数

}

?>

[/code:1:430ff1d506]



  OOP的一个很好的机制是使用抽象类。抽象类是不能实例化,只能提供给派生类一个接口。设计者通常使用抽象类来强迫程序员从基类派生,这样可以确保新的类包含一些期待的功能。在PHP中没有标准的方法,但是:



  如果你需要这个特性,可以通过定义基类,并在它的构造函数后加上"die" 的调用,这样就可以保证基类是不可实例化的,现在在每一个方法
(接口)后面加上"die" 语句,所以,如果一个程序员在派生类中没有覆盖方法,将引发一个错误。而且因为PHP
是无类型的,你可能需要确认一个对象是来自于你的基类的派生类,那么在基类中增加一个方法来实义类的身份(返回某种标识id),并且在你接收到一个对象参
数时校验这个值。当然,如果一个邪恶不好的程序员在派生类中覆盖了这个方法,这种方法就不起作用了,不过一般问题多发现在懒惰的程序员身上,而不是邪恶的
程序员。



  当然,能够让基类对程序员无法看到是很好的,只要将接口打印出来做他们的工作就可以了。



  在PHP中没有析构函数。



  重载(与覆盖不同)在PHP中不支持。在OOP中,你可以重载一个方法来实现两个或重多的方法具有相同的名字,但是有不同数量或类型的参数(这要看语言)。PHP 是一种松散类型的语言,所以通过类型重载不起作用,然而通过参数的个数不同来重载也不起作用。



  有时在OOP中重载构造函数非常好,这样你可以通过不同的方法创建对象(传递不同数量的参数)。在PHP

中实现它的技巧是:



[code:1:430ff1d506]


class Myclass {

function Myclass() {

$name="Myclass".func_num_args();

$this->$name();

//注意$this->name()一般是错误的,但是在这里$name是一个将被调用方法的名字

}

function Myclass1($x) {

code;

}

function Myclass2($x,$y) {

code;

}

}

?>

[/code:1:430ff1d506]



  通过在类中的额外的处理,使用这个类对用户是透明的:



  $obj1=new Myclass('1'); //将调用Myclass1



  $obj2=new Myclass('1','2'); //将调用Myclass2



  有时这个非常好用。



多态

  多态是对象的一种能力,它可以在运行时刻根据传递的对象参数,决定调用哪一个对象的方法。例如,如果你有一个figure的类,它定义了一个
draw的方法。并且派生了circle和rectangle
类,在派生类中你覆盖了draw方法,你可能还有一个函数,它希望使用一个参数x,并且可以调用$x->draw()
。如果你有多态性,调用哪个draw方法就依赖于你传递给这个函数的对象类型。



  多态性在象PHP这样的解释语言(想象一下一个C++编译器生成这样的代码,你应该调用哪一个方法?你也不知道你拥有的对象是什么类型的,好,这不是重点)是非常容易和自然的。所以PHP当然支持多态性。



[code:1:430ff1d506]


function niceDrawing($x) {

//假设这是Board类的一个方法

$x->draw();

}

$obj=new Circle(3,187);

$obj2=new Rectangle(4,5);

$board->niceDrawing($obj);

//将调用Circle的draw方法

$board->niceDrawing($obj2);

//将调用Rectangle的draw方法

?>

[/code:1:430ff1d506]



用PHP进行面向对象编程

  一些"纯化论者(purists)"可能会说PHP不是一个真正的面向对象的语言,这是事实。PHP
是一个混合型语言,你可以使用OOP,也可以使用传统的过程化编程。然而,对于大型项目,你可能想/需要在PHP
中使用纯的OOP去声明类,而且在你的项目只用对象和类。



  随着项目越来越大,使用OOP可能会有帮助,OOP代码很容易维护,容易理解和重用。这些就是软件工程

的基础。在基于web的项目中应用这些概念就成为将来网站成功的关键。



  PHP的高级OOP技术

  在看过基本的OOP概念后,我就可以向你展示更高级的技术:



序列化(Serializing)

  PHP不支持永久对象,在OOP中永久对象是可以在多个应用的引用中保持状态和功能的对象,这意味着拥有将对象保存到一个文件或数据库中的能力,而且
可以在以后装入对象。这就是所谓的序列化机制。PHP
拥有序列化方法,它可以通过对象进行调用,序列化方法可以返回对象的字符串表示。然而,序列化只保存了对象的成员数据而不包话方法。



  在PHP4中,如果你将对象序列化到字符串$s中,然后释放对象,接着反序列化对象到$obj,你可以继续使用对象的方法!我不建议这样去做,因为
(a)文档中没有保证这种行为在以后的版本中仍然可以使用。(b)这个可能导致一种误解,在你把一个序列化后的版本保存到磁盘并退出脚本时。当以后运行这
个脚本时,你不能期待着在反序列化一个对象时,对象的方法也会在那里,因为字符串表示根本就不包括方法。



  总而言之,PHP 进行序列化对于保存对象的成员变量非常有用。(你也可以将相关数组和数组序列化到一个文件中)。



例子 :



[code:1:430ff1d506]


$obj=new Classfoo();

$str=serialize($obj);

//保存$str到磁盘上

//几个月以后

//从磁盘中装入str

$obj2=unserialize($str)

?>

[/code:1:430ff1d506]



  你恢复了成员数据,但是不包括方法(根据文档所说)。这导致了只能通过类似于使用$obj2->x来存取成员变量(你没有别的方法!)的唯一办法,所以不要在家里试它。



  有一些办法可以解决这个问题,我把它留着,因为对这篇简洁的文章来说,他们太不好。



  使用类进行数据存储

  对于PHP和OOP一件非常好的事情就是,你可以很容易地定义一个类来操作某件事情,并且无论何时你想用的时候都可以调用相应的类。假设你有一个
HTML表单,用户可以通过选择产品ID号来选择一个产品。在数据库中有产品的信息,你想把产品显示出来,显示它的价格等等。你拥有不同类型的产品,并且
同一个动作可能对不同的产品具有不同的意思。例如,显示一个声音可能意味着播放它,但是对于其它种类的产品可能意味着显示一个存在数据库中的图片。你可以
使用OOP或PHP来减少编码并提高质量:



  定义一个产品的类,定义它应该有的方法(例如:显示),然后定义对每一种类型的产品的类,从产品类派后出来(SoundItem类,ViewableItem类,等等),覆盖在产品类中的方法,使它们按你的想法动作。



  根据数据库中每一种产品的类型(type)字段给类命名,一个典型的产品表可能有(id, type, price, description, 等等字段)...然后在处理脚本中,你可以从数据库中取出type值,然后实例化一个名为type的对象:





[code:1:430ff1d506]


$obj=new $type();

$obj->action();

?>

[/code:1:430ff1d506]



  这是PHP的一个非常好的特性,你可以不用考虑对象的类型,调用$obj的显示方法或其它的方法。使用这个技术,你不需要修改脚本去增加一个新类型的对象,只是增加一个处理它的类。



  这个功能很强大,只要定义方法,而不去考虑所有对象的类型,在不同的类中按不同的方法实现它们,然后在主脚本中对任意对象使用它们,没有if...else,也不需要两个程序员,只有高兴。



  现在你同意编程是容易的,维护是便宜的,可重用是真的吗?



  如果你管理一组程序员,分配工作就是很简单的了,每个人可能负责一个类型的对象和处理它的类。



  可以通过这个技术实现国际化,根据用户所选的语言字段应用相应的类就可以了,等等。





拷贝和克隆

  当你创建一个$obj的对象时,你可以通过$obj2=$obj来拷贝对象,新的对象是$obj的一个拷贝(不是一个引用),所以它具有$
obj在当时的状态。有时候,你不想这样,你只是想生成一个象obj类一样的一个新的对象,可以通过使用new语句来调用类的构造函数。在PHP中也可以
通过序列化,和一个基类来实现,但所有的其它类都要从基类派生出来。





进入危险区域

  当你序列化一个对象,你会得到某种格式的字符串,如果你感兴趣,你可以调究它,其中,字符串中有类的名字(太好了!),你可以把它取出来,象:



[code:1:430ff1d506]


$herring=serialize($obj);

$vec=explode(':',$herring);

$nam=str_replace("\"",'',$vec[2]);

?>

[/code:1:430ff1d506]



  所以假设你创建了一个"Universe"的类,并且强制所有的类都必须从universe扩展,你可以在universe中定义一个clone的方法,如下:



[code:1:430ff1d506]


class Universe {

function clone() {

$herring=serialize($this);

$vec=explode(':',$herring);

$nam=str_replace("\"",'',$vec[2]);

$ret=new $nam;

return $ret;

}

}

//然后

$obj=new Something();

//从Universe扩展

$other=$obj->clone();

?>

[/code:1:430ff1d506]



  你所得到的是一个新的Something类的对象,它同使用new方法,调用构造函数创建出的对象一样。我不知道这个对你是否有用,但是Universe类可以知道派生类的名字是一个好的经验。想象是唯一的限制。
Oct 26
GTK/GNOME 系列widgets中, 输入和显示已经是国际化了的. 所以用它们编写中文软件十分容易. 把西文软件改写成中文软件也十分容易.



   * 在程序中包含 locale.h

   * 在gtk_init前设置locale: gtk_set_locale()

   * 接着调用 gtk_rc_add_default_file(\"rcfilename\"), 其中rcfilename中 含有缺省的fontset

   * 如果不用资源文件, 则应对widget设置fontset

   * 编译 gcc `gtk-config --cflags` entry.c -o entry `gtk-config --libs`

   * 把文件 gtkrc.zh 拷贝到当前目录下



在 gtk 的 text 组件中如果设置了font, 则不能正常显示中文. 解决的方法是把font释放(unref), 然后使用
gtk_fontset_load 字体集. 对于其它组件也是如此, 有的组件需要先拷贝一个 GtkStyle, 然后按上述方法解决.



下面的程序在显示中文时未使用中文平台, 输入使用的是Chinput中的XIM协议支持 , 输出结

果:}
" onmouseover="
function onmouseover(event) {
   if (this.alt) {
       this.style.cursor = "hand";
   }
}
" onload="
function onload(event) {
   if (this.width > screen.width - 333) {
       this.width = screen.width - 333;
       this.alt = "\u70B9\u51FB\u67E5\u770B\u539F\u56FE\uFF01";
   }
}
" alt="点击查看原图" src="http://www.linuxforum.net/chinese/develop/gtk/gtk.gif" />

//file entry.c

#include  

#include  

int main (int argc, char *argv[])

{

GtkWidget *window;

GtkWidget *vbox;

GtkWidget *entry;

GtkWidget *text;

GtkWidget *button;

gtk_set_locale();

gtk_rc_add_default_file(\"./gtkrc.zh\");

gtk_init (&argc, &argv); /* create a new window */

window = gtk_window_new(GTK_WINDOW_TOPLEVEL);

// gtk_widget_set_usize( GTK_WIDGET (window), 200, 500);

gtk_window_set_title(GTK_WINDOW (window), \"GTK Entry\");

gtk_signal_connect(GTK_OBJECT (window), \"delete_event\", (GtkSignalFunc) gtk_exit, NULL);

vbox = gtk_vbox_new (FALSE, 0);

gtk_container_add (GTK_CONTAINER (window), vbox);

gtk_widget_show (vbox); entry = gtk_entry_new_with_max_length (60);

gtk_entry_select_region (GTK_ENTRY (entry), 0, GTK_ENTRY(entry)->text_length);

gtk_box_pack_start (GTK_BOX (vbox), entry, TRUE, TRUE, 0);

gtk_widget_show (entry); text = gtk_text_new (NULL, NULL);

gtk_text_set_editable (GTK_TEXT (text), TRUE);

gtk_box_pack_start (GTK_BOX (vbox), text, TRUE, TRUE, 0);

gtk_widget_show(text); button = gtk_button_new_with_label (\"关闭窗口\");

gtk_signal_connect_object (GTK_OBJECT (button), \"clicked\", GTK_SIGNAL_FUNC(gtk_exit), GTK_OBJECT (window));

gtk_box_pack_start (GTK_BOX (vbox), button, TRUE, TRUE, 0); GTK_WIDGET_SET_FLAGS (button, GTK_CAN_DEFAULT);

gtk_widget_grab_default (button);

gtk_widget_show (button);

gtk_widget_show(window);

gtk_main();

return(0);

}
Oct 26
最近经常有人发现ofstar的漏动。

真得让人感到系统安全是一个很重要的问题。

但是写过程序的人都会知道,

没有一个程序员敢肯定的说,我的程序百分百没有漏动。

俗话说的好:百密一梳

任何事情都不可能很完美。

但我们只能把事情做的尽可能的好

唉~~~

好像把话题扯远了

还是说回重点吧

如果被人发现已经现在了漏动。

就应该尽快的把漏动补好。

但是我们又不可以跑去问那入侵的人是怎样入侵的。

所以我们要做好安全日志

以前看过一些论坛的安全日志。

感觉做得不是很好。只把一些感觉很重要的数据记录起来

使人感觉很安全的

但是,入侵的人都是利用一些不起眼或感觉不重要的数据。

要真正做好这些安全日志,

应该从入侵的途径入手。

浏览器与服务器是通过cookie、get、post、上传实现c/s的。

这也成了入侵者入侵的主要的方式

上传是利用对文件的后缀过滤不而被入侵者所利用来上传木马之类的程序。

但很多程序对这个过滤的都比较成熟。因为不被加我的安全日志

因为都是提交的数据,所以我就想在某些重要的地方实行只要修改系统基本数据的就时候就把所提交的cookie/get/post全部记录。

以保证部分敏感的地方能记录入侵者的入侵方式,使以后能尽快的找到问题所在。解决问题



另外加一个自己对过滤数据的见解。

一、所以通过以上方式提交的数据都要经过过滤。

二、尽可能把变量定义成你想要的变量类型
Oct 26
class String



{



    /**



     * subStrWithSuffix



     * 中文字符截取 (Mon Aug 01 11:13:34 CST 2005)



     * @version        1.0.0



     * @author        



     * @deprecated    解决中文截取出现乱码



     * @return        string



     */



    function subStrWithChr ($string, $length, $start = 0)



    {



        if ($start < 0 || ($stringLength = strlen($string)) < $start) return $string;



        $length = (($length < 1 || $length > $stringLength)?$stringLength:$length);


for ($i = 1, $o = ($start % 2)?2:1; ($start > 0 && $i
< $o && ord(substr($string, $start , 1)) > 0xa0); $i ++)
$start --;


for ($i = 1, $o = ($length % 2)?2:1; ($stringLength > $length
&& $i < $o && ord(substr($string, $length - 1 ,
$length)) > 0xa0); $i ++) $length ++;



        $string = substr($string, $start, $length);



        return $string;



    }







    /**



     * wordWrapWithChr



     * 字符截行 (Mon Aug 01 14:15:37 CST 2005)



     * @version        1.0.0



     * @author        



     * @deprecated    解决中文截取出现乱码



     * @return        string



     */



    function wordWrapWithChr ($string, $width, $break = null)



    {



        /**



         * 中文标点符号怎么处理?暂时没有比较好的解决方案



         * ,。?:;’‘“”、()*……—…%¥€$£·!



         */


for ($break = $break?$break:"n", $line = 0, $text = array(),
$handle = 0, $length = strlen($string); $handle < $length; $handle
+= strlen($text[$line ++]))



            $text[$line] = String::subStrWithChr($string, $width, $handle);



        return implode($break, $text);/*  */



    }



}



function startTimer()



{



    global $starttime;



    $mtime = microtime ();



    $mtime = explode (' ', $mtime);



    $mtime = $mtime[1] + $mtime[0];



    $starttime = $mtime;



}



function endTimer()



{



    global $starttime;



    $mtime = microtime ();



    $mtime = explode (' ', $mtime);



    $mtime = $mtime[1] + $mtime[0];



    $endtime = $mtime;



    $totaltime = round (($endtime - $starttime), 5);



    return $totaltime;



}



?>
Oct 26

   关键字: Unicode, Character Set, 字符集, UTF-8, ANSI, ASCII, UTF-7

原文标题: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know

About Unicode and Character Sets(No Excuses!)

原文链接: http://www.joelonsoftware.com/print...es/Unicode.html

作者: Joel Spolsky





ASCII 码

------------------------------------------------------------------------------------

7 位(00~7F)。 32 ~ 127 表示字符。32 是空格, 32 以下是控制字符(不可见)。

第8位没有被使用。全世界很多人同时对这个位的含义发展了不同的用处。比如 IBM PC 中的 OEM 字符集。

最后就 128 位以下的用处达成共识,制定了 ASCII 标准。

而 128 位以上的可能有不同的解释,这些不同的解释就叫做 code pages.

甚至有用于在同一台电脑上解释多种语言的 code page.



同时,在亚洲发生了更加疯狂的事情。亚洲语言的字符集通常数以千计, 8 位已经不足以表达,这通常用一种

很凌乱的,叫做 DBCS(双字节字符集,double byte character set) 的系统来解决。

这种系统中,有些字符占用 1 字节,有些 2 字节。这样一来,在字符串中向前解析很容易,而倒退却很麻烦。

程序员们被建议,不要使用 s++ 或 s-- 来前进和后退,而使用一些函数,比如 Windows 的 AnsiNext 和

AnsiPrev. 因为这些函数知道是怎么回事。



这些不同的假设(code page)在单个的机器上没有问题。而随着 Internet 的发展,字符串要从一个机器上移到

另一个机器上,这就产生了问题。于是, Unicode 出现了。



Unicode

---------------------------------------------------------------------------------------

Unicode 是一个勇敢的成就。它把在这个星球上的每一个合理的文字系统整合成了一个单一的字符集。

很多人还存在这样的误解: Unicode 仅仅是 16 位的这么简单,每个字符占 16 位,所以一共有 65536 个可能的字符。

然而,这是错误的。不过不要紧,因为这是大部分人都会犯的一个普遍的错误。



实际上,Unicode 理解字符的方式是截然不同的,而这是我们必须了解的。

到目前为止,我们都曾经认为:一个字符对应到一些在磁盘上或内存中储存的位(bits). 如: A -> 0100 0001

而在 Unicode 中, 一个字符实际上对应一种叫做 code point 的东西。

比如 A 这个字符,是抽象的(原文:platonic,柏拉图式的,理想的)一个概念。

无论是 Times New Roman 或者 Helvetica 或者其他的什么字体中,都代表同一个字符。但是它和小写的字母 a 不同。

但是在其他的语言,比如希伯莱语(Hebrew) 或者德语(German), 阿拉伯语(Arabian) 中,同一个字母的不同的字形代表的含义是否

相同,是有争议的。经过长时间的争论,这些也终于被确定了。



每一个字母表中的每一个抽象的字母,都被赋予了一个数字,比如 U+0::5. 这个叫做 code point.

U+ 表示: Unicode, 数字是 16 进制的。

你可以通过 charmap 命令来查看所有这些编码。(Windows 2000/XP 中). 或者访问 Unicode 的网站(http://www.unicode.org)

Unicode 中 code point 的数字的大小是没有限制的,而且也早就超过了 65535. 所以不是每个字符都能存储在两个字节中。

那么,一个字符串 \"Hello\", 在 Unicode 中会表示成 5 个 code points :

U+0048 U+0065 U+006C U+006C U+006F

只不过是一些数字。但我们现在还没有提到如何在磁盘或者 Email 中表示这些信息,这就是我们下面要提到的编码(Encoding) 干的事情。



Encodings (编码)

-------------------------------------------------------------------------

最初的 Unicode Encoding, 使用两个字节表示一个字符。那么 \"Hello\" 表示为:

00 48 00 65 00 6C 00 6C 00 6F

实际上,还有一种表示方式:

48 00 65 00 6C 00 6C 00 6F 00

到底高位字节在前还是低位字节在前面,是两种不同的模式。这要看特定的 CPU 在何种模式下工作的更快。 所以这两种都有。

这就有了两种不同的 Unicode 表示方式了,为了区分,人们又采用了一种奇异的方式:

在每一个 Unicode 字符串的前面,加上 FEFF (这称为 Unicode 字节顺序标志,Unicode Byte Order Mark).

如果你交换高位和低位次序,那么会加上一个 FFFE. 这样,读这个字符串的人才知道要对每两个相邻的字节进行交换。

但在最初的时候,并不是每一个 Unicode 字符串都有这个标志的。



这看起来很不错。可程序员们开始抱怨了,“看看那些零!”。因为有些是美国人,他们使用英语。而英语中很少需要使用 U+00FF 以上的

字符, 有些人无法忍受采用双倍的存储空间来存储每个字符。

基于这些原因,很多人决定忽视 Unicode, 而同时,事情变得更糟了。



然后人们制定了 UTF-8. UTF-8 是用于保存 Unicode code points 的另一套系统。

每一个 U+ 数字,在内存中占用 8 bit. 在 UTF-8 中,任何一个 0~127 的 code point 占用一个字节。

只有 128 以及更大的才占用 2, 3, 直到 6 个字节。

具体如下图所示:



16进制的最小的数 16进制的最大的数 内存中的字节序列

------------------------------------------------------------------------------

00000000 0000007F 0vvvvvvv

00000080 000007FF 110vvvvv 10vvvvvv

00000800 0000FFFF 1110vvvv 10vvvvvv 10vvvvvv

00010000 001FFFFF 11110vvv 10vvvvvv 10vvvvvv 10vvvvvv

00200000 03FFFFFF 111110vv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv

04000000 7FFFFFFF 1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv



这看起来很不错,其中的英文字符和 ASCII 中一样。所以美国人根本没意识到有什么错误。只有世界上的其他国家需要使用高位的字节。

特别的,\"Hello\" 这个字符串,Unicode code point 为 U+0048 U+0065 U+006C U+006C U+006F, 会被存储为 48 65 6C 6C 6F。

和 ASCII, ANSI, 以及在这个星球上的任何一个 OEM 的字符集中表示的含义都一样。

现在,如果你需要表示重音的字符,或者希腊语,你需要使用多个字节来表示一个 code point. 但美国人不会介意这些。

(UTF-8 还有一个好处就是,老的字符串处理程序使用一个为 0 的字节来表示 null-terminator, 不会截断字符串)



到目前为止已经介绍了三种 Unicode 的表示方法:



传统的双字节表示方法, 称为 UCS-2(因为有 2 个字节) 或者 UTF-16(因为有 16 个位)

而且你还要搞清楚是高位在前的,还是高位在后的 UCS-2.



还有一种就是新的 UTF-8. 如果你的程序只使用英文的话,它仍然会工作正常。



实际上还有一堆的其他办法对 Unicode 进行编码:

有 UTF-7,这种编码方式大部分和 UTF-8 相同,但保证高位一定为 0.

所以如果你必须通过某种 Email 系统传送 Unicode,这些系统认为 7 位足够了,那使用 UTF-7 会正常。

还有 UCS-4, 储存每一个 code point 为 4 个字节。它的优点是每一个字符都保存为同样长的。但很明显,缺点是浪费太多存储空间了。



所以,现在你思考问题要把每一个字符想象成抽象的一个 unicode code point. 而它们同样可以使用任何旧的方式编码。

举例来说,你可以把 Unicode 字符串 Hello (U+0048 U+0065 U+006C U+006C U+006F) 编码(encode)为

ASCII, 或者古老的 OEM 希腊语编码,或者希柏莱 ANSI 编码,等等。而有些字符串不能显示!

也就是说,假如你要表示一个在某个编码中没有对应的 Unicode code point, 通常会显示为一个 ? 或者一个白色的小方框。



英文常用的一些编码有, Windows-1252(Windows 9x 标准 for 西欧语言)

以及 ISO-8859-1, aka Latin-1(对任何西欧语言也有效)

如果用这些编码来尝试存储俄文字符,你会得到一堆的 ?



UTF 7, 8, 16 以及 32 都有一个优点,能够正确的存储任何的 code point.



最简单,也是最重要的几个概念

====================================================================

一个字符串不指定它使用什么编码是没有意义的。

再也不要假定, “纯”文本(plain text) 是 ASCII.

没有 “纯文本” 这个东西。



如果你有一个字符串,在内存中,在文件中,或者在 Email 消息里,你必须知道它的编码是什么。否则你无法正确的解释或者显示给用户。

所有的诸如 “我的网页不能正常显示了”,或者 ”Email 消息不能正常显示了“ 之类的愚蠢问题, 都是因为, 没有告诉你到底是使用的那种编码,

UTF-8 还是 ASCII 还是 ISO 8859-1 或者 Windows 1252 ?? 那么自然无法正常的解释和显示,甚至不知道字符串该在哪里结束。



那么如何保留这样的编码标志,来表示字符串的编码? 有一些基本的办法。

比如对于 Email 来说,在表单的 header 中加上:



Content-Type:text/plain;charset=\"UTF-8\"



对于 Web 页面来说,原来的做法是, Web 服务器随着 web 页面本身一起,发送一个类似于 Content-Type 的 http header.

(不是在 HTML 里面,而是作为一个 response header 在 HTML 页之前发送)



这样做有一个问题。如果你的 Web 服务器同时有多个站点,站点由多个不同的人用不同的语言开发的程序混在一起。那么 Web 服务器将无从得知,

每一个文件是用什么编码方式写的。这样也就无法发送正确的 Content-Type header.

如果你能够在每一个 HTML 文件中记录 Content-Type 信息,那么就很方便了。可这念头似乎也很疯狂,因为你还没有知道用什么编码方式去

读取这个文件,又怎么能读出编码信息呢?

幸好,几乎每一种编码中,对 32~127 的字符都解释的相同。所以你可以在每一个 html 文件中这么写:











但是要注意, 这个 meta 标签必须放在 head 中靠前面的位置才能保证不会出问题。 因为 Web 服务器读到这里的时候,就会停止解析,

然后用读到的这个编码方式重新解析页面。



那么,作为 Web 浏览器来说,如果没有在 meta 标签中或者 http headers 中发现 Content-Type, 会怎么样呢?

IE 是这么做的:

先尝试去猜,根据特定的字节出现在各种语言的典型的编码中的频率。

如果编码设定不正常,用户可以通过 View&line;Encoding 菜单来尝试不同的编码方式。(当然,不是每个人都知道该这样做)



在 VB, COM, Windows NT/2000/XP 中,默认的字符串类型是 UCS-2(2字节)的。

在 C++ 代码中, 我们可以定义字符串为 wchar_t(wide char),同时用 wcs 系列的函数代替 str 系列的函数。

如 wcscat, wcslen, 而不是 strcat, strlen.

在 C 代码中,要创建 UCS-2 字符串的话,只要在前面加一个 "L", 如 L"Hello"



对于 Web 页面,最好统一为使用 UTF-8 编码。 这个编码已经被各种 web 浏览器支持了很多年了。
分页: 2/4 第一页 上页 1 2 3 4 下页 最后页 [ 显示模式: 摘要 | 列表 ]