分页: 106/120 第一页 上页 101 102 103 104 105 106 107 108 109 110 下页 最后页 [ 显示模式: 摘要 | 列表 ]
Feb 5

原理:读取某站点的源文件,再利用正则分析其源代码,得到所有链接
/**********qiushuiwuhen(2002-5-20)***********/
if(empty($url))$url = "http://www.csdn.net/expert/";//设置url
$site=substr($url,0,strpos($url,"/",8));//站点
$base=substr($url,0,strrpos($url,"/")+1);//文件所在目录

$fp = fopen($url, "r" );//打开url
while(!feof($fp))$contents.=fread($fp,1024);//

$pattern="&line;href=['"]?([^ '"]+)['" ]&line;U";
preg_match_all($pattern,$contents, $regArr, PREG_SET_ORDER);//匹配所有href=
for($i=0;$iif(!eregi("://",$regArr[$i][1]))//是否是相对路径,即是否还有://
if(substr($regArr[$i][1],0,1)=="/")//是否是站点的根目录
echo "link".($i+1).":".$site.$regArr[$i][1]."
";//根目录
else
echo "link".($i+1).":".$base.$regArr[$i][1]."
";//当前目录
else
echo "link".($i+1).":".$regArr[$i][1]."
";//相对路径
}
fclose($fp);
?>

Feb 5
有時需要將資料庫內的資料或 PHP 的動態內容儲存成 excel 檔,本文會介紹一個概簡單又實用的方法。

建立 Excel 檔案

如果需要用 PHP 建立 Excel 檔案,只需用一般的檔案處理函式,而檔案名稱儲存成 .xls 副檔名即可,例如:
以下是引用片段:
 <?php
 $fp 
fopen("excel/filename.xls""w"
);
 
fputs($fp"MontTuetWedtThutFritSattSun"
);
 
fclose($fp
);
 
?>

以上程式碼會在 excel 目錄建立一個名為 filename.xls 的檔案,內容是在第一行寫入一星期七天的英文簡寫,每一欄一天。

實際上與建立一般文字檔的方法一樣,只是如果要跳到下一個欄位,就用 t 字元,而要跳到下一行,則用 n 字元。

顯示下載窗口

如果電腦內有安裝 Excel 的話,在預設情況下當在 IE 按了 .xls 副檔名的文件時,IE 不會彈出下載窗口,而是直接顯示內容,以下兩個例子可避免這情況:

直接將內容輸出給瀏覽器下載
以下是引用片段:
 <?php
 header
("Content-type:application/vnd.ms-excel"
);
 
header("Content-Disposition:filename=php_excel.xls"
);
 
echo 
"MontTuetWedtThutFritSattSun"
 
?>
讀取已存在的檔案給瀏覽器下載
以下是引用片段:
<?php
header
("Content-type:application/vnd.ms-excel"
);
header("Content-Disposition:filename=php_excel.xls"
);
readfile("excel/filename.xls"
);
?>

上面使用了 header() 傳送檔頭資訊給瀏覽器,可使瀏覽器出現下載窗口,而預設儲存的檔案名稱是 php_excel.xls。
Feb 5
  朋友用dreamweaver做了一个网站,没有动态的内容,只是一些个人收藏的文章,个人介绍等等。现在内容比较多了,想叫我帮他做一个搜索引擎。说实在的,这是一个不难的问题,于是就随手做了一个。现在我在其它论坛上也看到有人想做这个,于是就想说说这方面的知识,重在了解一下方法。

写程序前先要想好一个思路,下面是我的思路,可能谁有更好的,但注意这只是一个方法问题 :遍历所有文件  读取内容  搜索关键字,如果匹配就放入一个数组  读数组。在实现这些步骤之前,我假定你的网页都是标准的,就是有标题(<title></title>),也有(<bod *></body>),如果你是用dreamweaver或者frontpage设计的,那么除非你故意删掉,它们都在存在的。下面就让我们一步步来完成并在工程中改善这个搜索引擎。

一,设计搜索表单
在网站的根目录下建个search.htm,内容如下
以下是引用片段:
<html>
<head>
<title>搜索表单</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body bgcolor="#FFFFFF" text="#000000">
<form name="form1" method="post" action="search.php">
  <table width="100%" cellspacing="0" cellpadding="0">
    <tr>
      <td width="36%">
        <div align="center">
          <input type="text" name="keyword">
        </div>
      </td>
      <td width="64%">
        <input type="submit" name="Submit" value="搜索">
      </td>
    </tr>
  </table>
</form>
</body>
</html>

二,搜索程序
再在根目录下建个search.php 的文件,用来处理search.htm表单传过来的数据.内容如下
以下是引用片段:
<?php
//获取搜索关键字
$keyword=trim($_POST[“keyword”]);
//检查是否为空
if($keyword==””){
   echo”您要搜索的关键字不能为空”;
   exit;//结束程序
}
?>

这样如果访问者输入的关键字为空时,可以做出提示。下面是遍历所有文件。

我们可以用递归的方法遍历所有的文件,可以用函数opendir,readdir,也可以用PHP Directory的类。我们现在用前者.
以下是引用片段:
<?php
  //遍历所有文件的函数
  function listFiles($dir){
   $handle=opendir($dir);
   while(false!==($file=readdir($handle))){
          if($file!="."&&$file!=".."){
          //如果是目录就继续搜索
          if(is_dir("$dir/$file")){
             listFiles("$dir/$file");
          }
              else{
            //在这里进行处理
             }
      }
   }
}

?>

在红字的地方我们可以对搜索到的文件进行读取,处理.下面就是读取文件内容,并检查内容中是否含有关键字$keyword,如果含有就把文件地址赋给一个数组。
以下是引用片段:
<?php
//$dir是搜索的目录,$keyword是搜索的关键字 ,$array是存放的数组
function listFiles($dir,$keyword,&$array){
   $handle=opendir($dir);
   while(false!==($file=readdir($handle))){
          if($file!="."&&$file!=".."){
          if(is_dir("$dir/$file")){
             listFiles("$dir/$file",$keyword,$array);
          }
              else{
            //读取文件内容
            $data=fread(fopen("$dir/$file","r"),filesize("$dir/$file"));
            //不搜索自身
            if($file!=”search.php”){
              //是否匹配
                          if(eregi("$keyword",$data)){
                  $array[]="$dir/$file";
                          }
            }
             }
      }
   }
}
//定义数组$array
$array=array();
//执行函数
listFiles(".","php",$array);
//打印搜索结果
foreach($array as $value){
   echo "$value"."<br>n";
}
?>

现在把这个结果和开头的一段程序结合起来,输入一个关键字,然后就会发现你的网站中的相关结果都被搜索出来了。我们现在在把它完善一下。
1,列出内容的标题

以下是引用片段:
if(eregi("$keyword",$data))
{
    $array[]="$dir/$file";
}

改成
以下是引用片段:
 if(eregi("$keyword",$data)){
     if(eregi("<title>(.+)</title>",$data,$m)){
         $title=$m["1"];
     }
     else
    {
          $title="没有标题";
     }
       $array[]="$dir/$file $title";
 }

原理就是,如果在文件内容中找到<title>xxx</title>,那么就把xxx取出来作为标题,如果找不到那么就把标题命名未”没有标题”.

2,只搜索网页的内容的主题部分。
做网页时一定会有很多html代码在里面,而这些都不是我们想要搜索的,所以要去除它们。我现在用正则表达式和strip_tags的配合,并不能把所有的都去掉。

以下是引用片段:
$data=fread(fopen("$dir/$file","r"),filesize("$dir/$file"));
 //不搜索自身
 if($file!=”search.php”){
     //是否匹配
     if(eregi("$keyword",$data)){

改为
以下是引用片段:
$data=fread(fopen("$dir/$file","r"),filesize("$dir/$file"));
if(eregi("<body([^>]+)>(.+)</body>",$data,$b)){
    $body=strip_tags($b["2"]);
}
 else{
     $body=strip_tags($data);
 }
 if($file!="search.php"){
     if(eregi("$keyword",$body)){

3,标题上加链接
以下是引用片段:
foreach($array as $value){
   echo "$value"."<br>n";
}
改成
以下是引用片段:
foreach($array as $value){
   //拆开
   list($filedir,$title)=split(“[ ]”,$value,”2”);
   //输出
   echo "<a href=$filedir>$value</a>"."<br>n";
}

4防止超时
如果文件比较多,那么防止PHP执行时间超时是必要的。可以在文件头加上
set_time_limit(“600”);
以秒为单位,所以上面是设10分钟为限。


所以完整的程序就是
以下是引用片段:
<?php
set_time_limit("600");
//获取搜索关键字
$keyword=trim($_POST["keyword"]);
//检查是否为空
if($keyword==""){
   echo"您要搜索的关键字不能为空";
   exit;//结束程序
}
function listFiles($dir,$keyword,&$array){
   $handle=opendir($dir);
   while(false!==($file=readdir($handle))){
          if($file!="."&&$file!=".."){
          if(is_dir("$dir/$file")){
             listFiles("$dir/$file",$keyword,$array);
          }
              else{
            $data=fread(fopen("$dir/$file","r"),filesize("$dir/$file"));
                        if(eregi("<body([^>]+)>(.+)</body>",$data,$b)){
                 $body=strip_tags($b["2"]);
                        }
                        else{
                 $body=strip_tags($data);
                        }
                        if($file!="search.php"){
                            if(eregi("$keyword",$body)){
                                   if(eregi("<title>(.+)</title>",$data,$m)){
                        $title=$m["1"];
                                   }
                                   else{
                        $title="没有标题";
                                   }
                                   $array[]="$dir/$file $title";
                            }
                        }
             }
      }
   }
}
$array=array();
listFiles(".","$keyword",$array);
foreach($array as $value){
   //拆开
   list($filedir,$title)=split("[ ]",$value,"2");
   //输出
   echo "<a href=$filedir target=_blank>$title </a>"."<br>n";
}
?>

到此为止,你已经做好了自己的一个搜索引擎,你也可以通过修改内容处理部分来改进它,可以实现搜索标题,或者搜索内容的功能。也可以考虑分页。这些都留给你自己吧。

这里说明一下用preg_match代替eregi,会快很多。这里只是为了通俗易懂,所以使用了常用的eregi.
Feb 5
什么是RSS?
    RSS是一种网页内容联合格式(web content sydication format)。
    它的名字是Really Simple Syndication的缩写。
    RSS是XML的一种。所有的RSS文档都遵循XML 1.0规范,该规范发布在W3C网站上。
    
    在一个RSS文档的开头是一个<rss>节点和一个规定的属性version,该属性规定了该文档将以RSS的哪个版本表示。如果该文档以这个规范来表示,那么它的version属性就必须等于2.0。
    
    在<rss>节点的下一级是一个独立的<channel>节点,该节点包含关于channel的信息和内容。
    
关于本文档    
    该文档是在2002年秋天撰写的,当时的RSS版本为2.0.1。
    它包含从RSS 0.91规范(2000年)开始的所有的修改和添加,以及包含在RSS 0.92(2000年12月)和RSS 0.94(2002年8月)中的新的特性。
   
必需的频道节点
    下面有一份必须包含的频道(channel)节点的列表,每一个都有一个简单的描述、一个例子、应该出现的位置和更详细描述的超链接。
   
元素描述范例
title频道(channel)名称。它可以告诉别人如何访问你的服务。如果你有一个与你的RSS文件内容一致的HTML网站,你的title元素值应该与你的网站的标题相同。GoUpstate.com News Headings
link响应该频道的网站的URLhttp://www.goupstate.com/
description关于该频道的描述The latest news from GoUpstate.com, a Spartanburg Herald-Joural Web Site

可选的频道元素
    下面是可选的频道元素列表
 
节点描述 范例
language 使用的语言。这允许聚合器对所有的意大利语站点分组。en-us
copyright版权声明 Copyright 2002, Spartanburg Herald-Journal
managingEditor内容负责人的Emailgeo@herald.com (George Matesky)
webMaster技术人员的Emailbetty@herald.com (Betty Guernsey)
pubDate内容的发布时间Sat, 07 Sep 2002 00:00:01 GMT
lastBuildDate最后更新时间Sat, 07 Sep 2002 09:42:31 GMT
category指定该频道所属的一个或多个分类。遵循与item级category元素相同的规则。<category>Newspapers</category>
generator生成该频道的程序名称MightyInHouse Content System v2.3
docs指向rss格式文档的url地址?http://blogs.law.harvard.edu/tech/rss
cloud允许所有进程注册一个cloud用于获得频道的更新通知,并为rss种子实现一个轻量级的发布订阅协议。<cloud domain="rpc.sys.com" port="80" path="/RPC2" registerProcedure="pingMe" protocol="soap"/>
ttlttl是Time to live的缩写。它指示cache的有效保存时间。<ttl>60</ttl>
image与频道一起显示的图片地址
rating该频道的统计图片地址
textInput指定一个textbox与该频道一起显示
skipHours告诉使用者哪些时段是可以忽略的
skipDays告诉使用着哪些天是可以忽略的

<channel>子节点<image>
<image>是一个可选的<channel>子节点,该节点包含三个必需的子元素和三个可选的子元素。
<url>是GIF、JPEG或PNG图像文件的URL地址,该图像代表整个频道
<title>用于描述上面的图像,等同于HTML语言中的<img>的alt属性
<link>是要连接的站点的url,当显示频道时,图像的连接指向该站点。
<title>和<link>应该与频道的<title>和<link>有相同的值
可选的节点包括<width>和<height>,它们是数字类型,指定图像的宽度和高度,单位为像素
<description>就是link的TITLE属性中文本,它将在调用网页时显示出来。

图像宽度的最大值为144,默认值为88
图像高度的最大值为400,默认值为31

<channel>子节点<cloud>
<cloud>是一个可选的<channel>子节点。
它指定一个可以支持rssCloud接口的web服务,rssCloud接口可以用HTTP-POST,XML-RPC或SOAP1.1实现。
它的目的是允许通知注册为cloud的进程频道被更新,从而实现一个轻量级的发布订阅协议。
<cloud domain="rpc.sys.com" port="80" path="/RPC2" registerProcedure= "myCloud.rssPleaseNotify" protocol="xml-rpc" />
在这个例子中,为了请求频道通知,你需要发送一个XML-RPC消息到rpc.sys.com的80端口,路径为/RPC2。调用的过程为myCloud.rssPleaseNotify。

<channel>子节点<ttl>
<ttl>是一个可选的<channel>子节点。
ttl是time to live的缩写。它表示频道在被刷新前应该被缓存的时间。这使得rss源可以被一个支持文件共享的网络所管理,例如Gnutella
例如:<ttl>60</ttl>

<channel>子节点<textInput>
<textInput>是<channel>的可选的子节点,<textInput>包含四个子节点。
<title>--提交按钮的标签
<description>--该文本输入区的描述
<name>--文本输入区的名称
<link>--处理文本输入的CGI脚本的URL
使用<textInput>的目的有些神秘(?)。你可以用它提供一个搜索引擎输入框,或让读者提供反馈信息。许多聚合器忽略该节点。

<item>的节点
一个频道可以包含许多项目(item)节点。一个项目可以代表一个故事——比如说一份报纸或杂志上的故事,如果是这样的话,那么项目的描述则是故事的概要,项目的链接则指向整个故事的存放位置。项目的所有节点都是可选的,但是至少要包含至少一个标题(title)和描述(description)。

节点描述 范例
titleitem的标题 Venice Film Festival Tries to Quit Sinking
linkitem的URL  http://www.nytimes.com/2002/09/07/movies/07FEST.html
descriptionitem概要Some of the most heated chatter at the Venice Film Festival this week was about the way that the arrival of the stars at the Palazzo del Cinema was being staged.
author作者的email地址oprah@oxygen.net
categoryitem可以包含在一个或多个分类中Simpsons Characters
comments与item相关的评论的地址http://www.myblog.org/cgi-local/mt/mt-comments.cgi?entry_id=290
enclosure附加的媒体对象
guid可以唯一确定item的字符串http://inessential.com/2002/09/01.php#a2
pubDateitem发布的时间Sun, 19 May 2002 15:21:36 GMT
sourcerss频道来源Quotes of the Day

<item>子节点<source>
<source>是<item>的可选节点。
它的值是item来自的rss频道的名称,从item的title衍生而来。它有一个必须包含的属性url, 该属性链接到XML序列化源。
<source url="http://static.userland.com/tomalak/links2.xml">Tomalak's Realm</source>
该节点的作用是提高连接的声望,进一步推广新闻项目的源头。它可以用在聚合器的Post命令中。当从聚合器通过webblog访问一个item时,<source>能够自动被生成。

<item>子节点<enclosure>
<enclosure>是<item>的可选节点。
它有三个必要的属性。url属性指示enclosure的位置,length指出它的字节大小,type属性指出它的标准MIME类型
url必须为一个http url。
<enclosure url="http://www.scripting.com/mp3s/weatherReportSuite.mp3" length="12216320" type="audio/mpeg" />

<item>子节点<category>
<category>是<item>的可选节点。
它有一个可选属性或域,该属性是一个用来定义分类法的字符串。
该节点的值是一个正斜杠分割的字符串,它用来在指定的分类法中识别一个分级位置(hierarchic  location)。处理器可以为分类的识别建立会话。(Processors may establish conventions for the interpretation of categories)下面有两个例子:
<category>Grateful Dead</category>
<category domain="http://www.fool.com/cusips">MSFT</category>
你可以根据你的需要为不同的域(domain)包含很多category节点,并且可以在相同域的不同部分拥有一个前后参照的item。

<item>子节点<pubDate>
<pubDate>是<item>的可选节点。
它的值是item发布的日期。如果它是一个没有到达的日期,聚合器在日期到达之前可以选择不显示该item。
<pubDate>Sun, 19 May 2002 15:21:36 GMT</pubDate>


<item>子节点<guid>
<guid>是<item>的可选节点。
guid是globally unique identifier的缩写。它是一个可以唯一识别item的字符串。当item发布之后,聚合器可以选择使用该字符串判断该item是否是新的。
<guid>http://some.server.com/weblogItem3207</guid>
guid没有特定的语法规则,聚合器必须将他们看作一个字符串。生成具有唯一性的字符串guid取决于种子的源头。
如果guid节点有isPermaLink属性,并且值为真,读取器就会认为它是item的permalink。permalink是一个可在web浏览器中打开的url链接,它指向<item>节点所描述的全部item。
<guid isPermaLink="true">http://inessential.com/2002/09/01.php#a2</guid>

isPermaLink是可选属性,默认值为真。如果值为假,guid将不会被认为是一个url或指向任何对象的url。

<item>子节点<comment>
 
<comment>是<item>的可选节点。
如果出现,它指向该item评论的url
<comments>http://rateyourmusic.com/yaccs/commentsn/blogId=705245&amp;itemId=271</comments>

<item>子节点<author>
 
<author>是<item>的可选节点。
它是item的作者的email。对于通过rss传播的报纸和杂志,作者可能是写该item所描述的文章的人。对于聚集型webblogs,作者可能不是责任编辑或站长。对于个人维护的webblog,忽略<author>节点是有意义的。
<author>lawyer@boyer.net (Lawyer Boyer)</author>

Feb 5
如果自己的服务器也能够实现简记域名就好了。其实这并不复杂。你也可以做一个简记域名系统。
  简记域名系统的关键技术在于:实现Web页面的重定向(Redirctory)。在本质上,简





















































  echo '<meta http-equiv="refresh" content="0;','url=',,'">';}
分页: 106/120 第一页 上页 101 102 103 104 105 106 107 108 109 110 下页 最后页 [ 显示模式: 摘要 | 列表 ]