首页 > php代码

什么是垂直搜索?

垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
  垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
  垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
  举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
  

阅读全文

如何使用PHP通过SMTP发送电子邮件

由于PHP没有提供现成的smtp函数,却提供了一个功能不甚灵活的mail()函数,这个函数需要服务器配置上的支持,并且不支持smtp验证,在很多场合无法正常的工作,因此不建议使用。本文的目的在于为新手指明方向,并没有涉及那些高级的内容,一来本身水平有限,二来也担心不能准确的讲述相关的概念,进而对各位造成误导,还请自行深入学习。
  “使用php发送mail”最近已经成为继“register_globals”以后本版第二个新手陷阱,今天特地写这篇文章为新手解惑,希望可以为迷茫的人指明方向。
 
  让我们先从以下这个例子开始说起:
  引用:

阅读全文

PHP学习:include()和require()的区别


include()和require()的区别 这相信是PHP中最基本的问题了,也是很多公司面试时必考的题呵呵。
给大家复习一下:
require() :如果文件不存在,会报出一个fatal error.脚本停止执行
include() : 如果文件不存在,会给出一个 warning,但脚本会继续执行
这里特别要注意的是:
使用include()文件不存在时,脚本继续执行,这种情况只出现在PHP 4.3.5之前,这一点,往往被人忽视。
推荐使用require_once()和include_once(),可以检测文件是否有重复包含。

阅读全文

PHP窜红:革命尚未成功 Java仍需努力

相对于Java由简入繁的演变趋势,PHP忠于简单易学原味的坚持受到广大开发者的欢迎,近年来声势大涨,而简单就是力量,这句话套用于近日PHP异军突起,再适合也不过了。老实说,原本觉得它不会太厉害,看到它最近的成长和茁壮,直攻Java阵营输于经营之处,让人对它刮目相看。
 
  Netscape前CEO Marc Andressen在Zend/PHP大会上预言,简单易学的描述语言PHP将会比Java被更多人用于Web应用的开发上;再引用Cnet台湾报导的数据,全球大约有2200万个网站使用PHP,而且数量还在稳定增加中。
 
  为什么PHP会如此受欢迎呢?我想简单好用是最大原因。如果网站只是提供使用者搜寻资讯的入口,网际网路上有许多现成、免费的、容易拿到,且已经做好的网站软体,如行事历、网站管理、新闻、报名系统、电子报、天气预报等免费的应用模组供下载安装使用,如此好康的事情,何乐而不为?而且只要买一本书,装一装,简单的设定就有讨论区,不用写任何程式,这对没有程式经验的人来说是好的进入点,也符合中小企业低成本建置网站的需求。作为Java人士,PHP的窜起给了我三个启示:
  

阅读全文

PHP程序加速探索之加速工具软件

接着我们要关注一下PHP加速的另一个领域—缓存工具软件。这类软件都是从优化PHP运行环境来提速的,不需要改变任何代码。我们可以大概地将它们称为“执行码优化/缓存工具”,你可以理解为它们用来实现比较底层的优化/缓存。
 
以下列出目前比较常用的此类工具,具体哪种效果最好,请用自己的服务器环境测试:
  (一) APC Alternative PHP Cache
  http://pecl.php.net/package-info.php?package=APC
  APC运行于Linux和FreeBSD,你需要自己编译安装。按照其开发人员的说法,在他们的测试环境下可以提高脚本速度50%-400%。并且APC是个开源项目,已经加入了PHP的PECL库,很值得一试。
  (二) Turck MMCache
  http://turck-mmcache.sourceforge.net/
  Turck MMCache似乎是此类软件中目前最受欢迎的一种,它开放源代码,完全免费。它将PHP代码预编译并缓存起来,同时也对PHP运行环境进行一定优化。按照其官方文档的说法,MMCache可以明显地减轻服务器的负载,并提高脚本执行速度1-10倍。
  MMCache与另一个知名的加速软件Zend Optimizer兼容,但注意必需先安装MMCache(php.ini中设置)。除了加快PHP程序的速度,MMCache还可以将PHP代码加密。
  Turck MMCache同时支持Linux和Win32平台。
  (三) PHPA the PHP Accelerator
  http://www.php-accelerator
  PHPA又是另一个流行的PHP加速软件。在其官方网站上有分别使用PHPA与APC、Zend Cache的PHP脚本执行测试对比,其表现略优于APC,略逊于Zend Cache。
  PHPA支持Linux, FreeBSD, OpenBSD, BSDi和Solaris系统.
  (四) Zend Performance Suite
  http://www.zend.com/
  Zend Performance Suite是老牌的PHP加速/优化软件,依托于PHP领域最知名的Zend公司。目前已经推出4.0版本,它可以为PHP应用提供程序加速,内容缓存,文件压缩,下载服务等,功能十分强大,获得好几个PHP杂志的推荐奖—但是不得不提起,它也很昂贵,目前的价格是1875美元。
  以上几种加速软件,希望读者按照服务器环境自行测试并选择其中最适用的,因为我没有办法提供一个普遍适用的测试标准来判断哪种方案是最有效的。综合起来看,我个人认为Turck MMCache是个值得推荐的选择,免费而且功能相当出色。

阅读全文

Windows下Perl开发环境的安装与配置

Perl是一种深受世界各地开发者喜爱的实用摘要和报表语言,虽然它是在Unix上诞生和发展起来的,但在Windows编程领域也已经占有一席之地。
 
在ActiveState等公司的领导之下,从1995年中期开始Perl开始了稳定地发展,不仅增加了标准的Perl功能,而且增加了许多面向Windows的功能,比如OLE和COM集成等。
 
事实上,到目前为止所有Perl程序员都已经能够确信,自己为UNIX服务器写的Perl应用移植到Windows服务器后同样能够流畅、稳定地运行,即使是fork实现这类长期以来最令人头疼的移植问题也已经得到解决。
 
而且我们有理由相信,Perl/Windows集成还将进一步发展。自Windows版Perl开发初期开始Microsoft已经成为它的主要资助者,这一事实足以证实Microsoft所承诺的对Perl的支持。按照最近Microsoft和ActiveState所签署的为期三年的投资协议,Perl无疑将成为未来Windows发展的一部分。
 
如果你正在寻找有关Windows版Perl的更多信息,你可以从网络上找到许多优秀的网站,其中包括:



阅读全文

几个比较有用的正则表达式

匹配中文字符的正则表达式: [u4e00-u9fa5]匹配双字节字符(包括汉字在内):[^x00-xff]应用:计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)String.prototype.len=function(){return this.replace([^x00-xff]/g,"aa").length;}匹配空行的正则表达式: [s| ]*匹配HTML标记的正则表达式:/<(.*)>.*</1>|<(.*) />/匹配首尾空格的正则表达式:(^s*)|(s*$)验证jpg和GIF图片:^.{1,}.((j|J)(p|P)(g|...
阅读全文

PHP 挑战 J2EE 和 .NET

>>摘自对Zend 的marketing VP Pamela Roussos的访问
继PHP获得“Programming Language of 2004”大奖之后,由Zend公司主导的PHP,开始向J2EE和.NET发起挑战,抢夺WEB企业应用开发市场。
根据 Forrester公司的调研,预计到2006市场上将会 有22%的企业应用使用J2EE开发,13%使.NET,56%为二者结合,还有9%使用其它语言和平台。Zend公司的目标正是这9%(甚至更多,因为Zend认为J2EE过于复杂,而使用PHP来高效率地开发出高速的应用是不难的 。Zend公司已经推出了Zend Platform 1.1, 目的正是在于提高PHP的企业级应用竞争力。这是一个完整的解决方案,甚至为PHP和Java的结合提供了一个PHP/Java Integration Bridge ,使用两者可以方便地结合。它将被集中到Zend Studio中。Zend Platform支持 Linux, Sparc Solaris, FreeBSD 4.x/5.x 和 Mac OS X. ,其单CPU服务器版本价格为999美元,双CPU服务器版本价格为1495美元。
 
除了推出Zend Platform外,Zend公司正在加紧推出Zend Studio4.0,大约在情人节(05.02.14)可以推出Beta版本。
 ZendStudio提供了MySQL, PostgreSQL, SQLite, Oracle, SQL Server, DB2 和 Cloudscape 数据库集成和支持。
顺便提一下Zend公司,这个在以色列成立五年的公司已经拥有8000多个客户(如ufthansa, Lockheed Martin, Disney Online, Dresdner Bank, Orange and ADP)。2003年其总部迁往美国加利福尼亚州,并开始在德国和日本开设办事处。

阅读全文

安装并使用phpMyAdmin管理MySQL数据库

学会使用基于Web数据库的管理工具phpMyAdmin。
  如果使用合适的工具,MySQL数据库的管理就会为得相当简单。应用MySQL命令行方式需要对MySQL知识非常熟悉,对SQL语言也是同样的道理。不仅如此,如果数据库的访问量很大,列表中数据的读取就会相当困难。
  当前出现很多GUI MySQL客户程序,其中最为出色的是基于Web的phpMyAdmin工具。这是一种MySQL数据库前台的基于PHP的工具。PhpMyAdmin的缺点是必须安装在你的Web服务器中,所以如果没有合适的访问权限,其它用户有可能损害到你的SQL数据。
  功受奖者PhpMyAdmin的安装过程非常简单。从http://www.phpmyadmin.net/下载PhpMyAdmin,当前最新版本是2.6.4-pl3。将下载文件解压缩到你选择的路径,比如 /srv/www/domain.com/html/admin。在将phpMyAdmin与数据库连接之前,请确保phpMyAdmin处于受保护状态,其中可以通过建立一个an .htaccess文件来完成:
<code>
AuthUserFile /srv/www/domain.com/.htpasswd
AuthGroupFile /dev/null
AuthName adminAuthType basic
<Files *>
Order Deny,Allow
Deny From All
Allow From localhost
require user admin
satisfy any
</Files>
</code>
  以上代码段使得假设路径/srv/www/domain.com没有受保护因此.htaccess文件处于Web路径之外(比如Apache中的 DocumentRoot为/srv/www/domain.com/html)。使用htpasswd工具建立 /srv/www/domain.com/.htpasswd文件:Create the /srv/www/domain.com/.htpasswd file using the htpasswd tool:
<code>
# htpasswd -cm /srv/www/domain.com/.htpasswd admin
</code>
  一旦你已经提供了管理员的密码,可以编辑包含phpMyAdmin 的config.inc.php文件。你将可以编辑$cfg['PmabsoluteUri']关键字以指向安装在服务器中phpMyAdmin的位置,然后编辑$cfg['Servers']数组。为了快速建立和运行,并且能够编辑服务器上所有的数据库,你将需要提供的权限证明:
<code>
$cfg['Servers'][$i]['host'] = 'localhost';
$cfg['Servers'][$i]['extension'] = 'mysql';
$cfg['Servers'][$i]['auth_type'] = 'config';
$cfg['Servers'][$i]['user'] = 'root';$cfg['Servers'][$i]['password'] = 'mysecretrootpass';
</code>
  现在你可以进入http://www.domain.com/admin/phpMyAdmin-2.6.4-pl3/并访问你的MySQL数据,并可将路径重命名为phpMyAdmin/以更为方便的访问。

阅读全文

apache的几个设置(目录,权限等)


1、假设充许连结图片的主机域名为:www.demo.com.cn
2、修改httpd.conf
Code:
SetEnvIfNoCase Referer "^http://www.demo.com.cn/" local_ref=1
<FilesMatch ".(gif|jpg)">
Order Allow,Deny
Allow from env=local_ref
</FilesMatch>

这个简单的应用不光可以解决图片盗链的问题,稍加修改还可以防止任意文件盗链下载的问题。
 
使用以上的方法当从非指定的主机连结图片时,图片将无法显示,如果希望显示一张“禁止盗链”的图片,我们可以用mod_rewrite 来实现。
 
首先在安装 apache 时要加上 --enable-rewrite 参数加载 mod_rewrite 模组。
 
假设“禁止盗链”的图片为abc.gif,我们在 httpd.conf 中可以这样配置:

Code:
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www.)?demo.com.cn /.*$ [NC]
RewriteRule .(gif|jpg)$ http://www.demo.com.cn/abc.gif [R,L]
++++++++++++++++++++++++++++++++++++++
DocumentRoot "/usr/local/apache/htdocs"
#设置存放站点html文件的目录。
 
<Directory />
Options FollowSymLinks
AllowOverride None
</Directory>
#设置/目录的指令。具体地说明:
Option:定义在目录内所能执行的操作。
 
None:表示只能浏览,
FollowSymLinks:允许页面连接到别处,
ExecCGI:允许执行CGI,
MultiViews:允许看动画或是听音乐之类的操作,
Indexes:允许服务器返回目录的格式化列表,
Includes:允许使用SSI。这些设置可以复选。
 
All:则可以做任何事,但不包括MultiViews。
 
AllowOverride:加None参数表示任何人都可以浏览该目录下的文件。
 
另外的参数有:FileInfo、AuthConfig、Limit。

阅读全文

罕见蠕虫瞄准PHP漏洞 Linux安全不在

据国外媒体报道,Linux和其他开源软件遭到病毒或黑客袭击的概率一般比较小。不过,最近所发现的一个蠕虫病毒引发了开源界的关注。因为这个病毒的袭击目标正是Linux平台上广为流行的WEB应用服用工具(平台)PHP。
 
  这个蠕虫病毒利用了PHP的XML-RPC组件中的一个漏洞。可以对网站服务器发起攻击。
  据悉,XML-RPC作为PHP的一部分,被诸如PostNuke、Drupal、b2evolution、Xoops、WordPress、PHPGroupWare和TikiWiki等产品所使用。在Lupper蠕虫病毒的消息传出以后,这些组件的开发商已经先后进行了升级或是推出了补丁包。
  由于Linux及其开源应用软件安全性比较高,杀毒软件厂商并未及时对这个蠕虫提出警告。
  XML-RPC的漏洞最初发现于今年6月,8月份报出了第二个安全警告。由于大多数用户没有升级XML-RPC,导致蠕虫病毒逐渐传播开来。

阅读全文