垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
Windows Apache PHP MySQL 搭建
安装php,有两种方式,这里采用其中一种,成为apache的组件
下载php: php-5.1.2-win32 和 php-5.1.2-installer.exe我就下了这两个~~~
然后将php里面的dll文件拷贝到windows/system32里面,将php.ini-dist 改位php-ini拷贝到windows目录
下载apache 安装到一个文件夹
然后修改安装后文件夹apache2conf
里面的配置文件httpd.conf
修改
Listen 127.0.0.1:80 // 其中127.0.0.1是你的ip地址
添加
使用MD5变换算法防穷举(冲撞)破译密码
MD5是在Web应用程序中最常用的密码加密算法。由于MD5是不可逆的,因而经过MD5计算得到后的密文,不能通过逆向算法得到原文。
回顾在Web应用程序中使用MD5加密文本密码的初衷,就是为了防止数据库中保存的密码不幸泄露后被直接获得。但攻击者不但拥有数据量巨大的密码字典,而且建立了很多MD5原文/密文对照数据库,能快速地找到常用密码的MD5密文,是破译MD5密文的高效途径。然而,MD5密文数据库所使用的是最常规的MD5加密算法:原文-->MD5-->密文。因此,我们可以使用变换的MD5算法,使现成的MD5密文数据库无所作为。
下面演示一些变换算法的例子
罕见蠕虫瞄准PHP漏洞 Linux安全不在
据国外媒体报道,Linux和其他开源软件遭到病毒或黑客袭击的概率一般比较小。不过,最近所发现的一个蠕虫病毒引发了开源界的关注。因为这个病毒的袭击目标正是Linux平台上广为流行的WEB应用服用工具(平台)PHP。
这个蠕虫病毒利用了PHP的XML-RPC组件中的一个漏洞。可以对网站服务器发起攻击。
据悉,XML-RPC作为PHP的一部分,被诸如PostNuke、Drupal、b2evolution、Xoops、WordPress、PHPGroupWare和TikiWiki等产品所使用。在Lupper蠕虫病毒的消息传出以后,这些组件的开发商已经先后进行了升级或是推出了补丁包。
由于Linux及其开源应用软件安全性比较高,杀毒软件厂商并未及时对这个蠕虫提出警告。
XML-RPC的漏洞最初发现于今年6月,8月份报出了第二个安全警告。由于大多数用户没有升级XML-RPC,导致蠕虫病毒逐渐传播开来。
apache的几个设置(目录,权限等)
1、假设充许连结图片的主机域名为:www.demo.com.cn
2、修改httpd.conf
Code:
SetEnvIfNoCase Referer "^http://www.demo.com.cn/" local_ref=1
<FilesMatch ".(gif|jpg)">
Order Allow,Deny
Allow from env=local_ref
</FilesMatch>
这个简单的应用不光可以解决图片盗链的问题,稍加修改还可以防止任意文件盗链下载的问题。
使用以上的方法当从非指定的主机连结图片时,图片将无法显示,如果希望显示一张“禁止盗链”的图片,我们可以用mod_rewrite 来实现。
首先在安装 apache 时要加上 --enable-rewrite 参数加载 mod_rewrite 模组。
假设“禁止盗链”的图片为abc.gif,我们在 httpd.conf 中可以这样配置:
Code:
RewriteEngine on
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www.)?demo.com.cn /.*$ [NC]
RewriteRule .(gif|jpg)$ http://www.demo.com.cn/abc.gif [R,L]
++++++++++++++++++++++++++++++++++++++
DocumentRoot "/usr/local/apache/htdocs"
#设置存放站点html文件的目录。
<Directory />
Options FollowSymLinks
AllowOverride None
</Directory>
#设置/目录的指令。具体地说明:
Option:定义在目录内所能执行的操作。
None:表示只能浏览,
FollowSymLinks:允许页面连接到别处,
ExecCGI:允许执行CGI,
MultiViews:允许看动画或是听音乐之类的操作,
Indexes:允许服务器返回目录的格式化列表,
Includes:允许使用SSI。这些设置可以复选。
All:则可以做任何事,但不包括MultiViews。
AllowOverride:加None参数表示任何人都可以浏览该目录下的文件。
另外的参数有:FileInfo、AuthConfig、Limit。
安装并使用phpMyAdmin管理MySQL数据库
学会使用基于Web数据库的管理工具phpMyAdmin。
如果使用合适的工具,MySQL数据库的管理就会为得相当简单。应用MySQL命令行方式需要对MySQL知识非常熟悉,对SQL语言也是同样的道理。不仅如此,如果数据库的访问量很大,列表中数据的读取就会相当困难。
当前出现很多GUI MySQL客户程序,其中最为出色的是基于Web的phpMyAdmin工具。这是一种MySQL数据库前台的基于PHP的工具。PhpMyAdmin的缺点是必须安装在你的Web服务器中,所以如果没有合适的访问权限,其它用户有可能损害到你的SQL数据。
功受奖者PhpMyAdmin的安装过程非常简单。从http://www.phpmyadmin.net/下载PhpMyAdmin,当前最新版本是2.6.4-pl3。将下载文件解压缩到你选择的路径,比如 /srv/www/domain.com/html/admin。在将phpMyAdmin与数据库连接之前,请确保phpMyAdmin处于受保护状态,其中可以通过建立一个an .htaccess文件来完成:
<code>
AuthUserFile /srv/www/domain.com/.htpasswd
AuthGroupFile /dev/null
AuthName adminAuthType basic
<Files *>
Order Deny,Allow
Deny From All
Allow From localhost
require user admin
satisfy any
</Files>
</code>
以上代码段使得假设路径/srv/www/domain.com没有受保护因此.htaccess文件处于Web路径之外(比如Apache中的 DocumentRoot为/srv/www/domain.com/html)。使用htpasswd工具建立 /srv/www/domain.com/.htpasswd文件:Create the /srv/www/domain.com/.htpasswd file using the htpasswd tool:
<code>
# htpasswd -cm /srv/www/domain.com/.htpasswd admin
</code>
一旦你已经提供了管理员的密码,可以编辑包含phpMyAdmin 的config.inc.php文件。你将可以编辑$cfg['PmabsoluteUri']关键字以指向安装在服务器中phpMyAdmin的位置,然后编辑$cfg['Servers']数组。为了快速建立和运行,并且能够编辑服务器上所有的数据库,你将需要提供的权限证明:
<code>
$cfg['Servers'][$i]['host'] = 'localhost';
$cfg['Servers'][$i]['extension'] = 'mysql';
$cfg['Servers'][$i]['auth_type'] = 'config';
$cfg['Servers'][$i]['user'] = 'root';$cfg['Servers'][$i]['password'] = 'mysecretrootpass';
</code>
现在你可以进入http://www.domain.com/admin/phpMyAdmin-2.6.4-pl3/并访问你的MySQL数据,并可将路径重命名为phpMyAdmin/以更为方便的访问。
PHP 挑战 J2EE 和 .NET
>>摘自对Zend 的marketing VP Pamela Roussos的访问
继PHP获得“Programming Language of 2004”大奖之后,由Zend公司主导的PHP,开始向J2EE和.NET发起挑战,抢夺WEB企业应用开发市场。
根据 Forrester公司的调研,预计到2006市场上将会 有22%的企业应用使用J2EE开发,13%使.NET,56%为二者结合,还有9%使用其它语言和平台。Zend公司的目标正是这9%(甚至更多,因为Zend认为J2EE过于复杂,而使用PHP来高效率地开发出高速的应用是不难的 。Zend公司已经推出了Zend Platform 1.1, 目的正是在于提高PHP的企业级应用竞争力。这是一个完整的解决方案,甚至为PHP和Java的结合提供了一个PHP/Java Integration Bridge ,使用两者可以方便地结合。它将被集中到Zend Studio中。Zend Platform支持 Linux, Sparc Solaris, FreeBSD 4.x/5.x 和 Mac OS X. ,其单CPU服务器版本价格为999美元,双CPU服务器版本价格为1495美元。
除了推出Zend Platform外,Zend公司正在加紧推出Zend Studio4.0,大约在情人节(05.02.14)可以推出Beta版本。
ZendStudio提供了MySQL, PostgreSQL, SQLite, Oracle, SQL Server, DB2 和 Cloudscape 数据库集成和支持。
顺便提一下Zend公司,这个在以色列成立五年的公司已经拥有8000多个客户(如ufthansa, Lockheed Martin, Disney Online, Dresdner Bank, Orange and ADP)。2003年其总部迁往美国加利福尼亚州,并开始在德国和日本开设办事处。
几个比较有用的正则表达式
PHP-Nuke存在远程SQL注入漏洞 后台数据库堪忧
描述:
PHP-Nuke是一个广为流行的网站创建和管理工具,它可以使用很多数据库软件作为后端,比如MySQL、PostgreSQL、mSQL、Interbase、Sybase等。
PHP-Nuke的Your_Account模块实现上存在输入验证漏洞,远程攻击者可能利用此漏洞对服务器程序执行SQL注入攻击。
PHP-Nuke的Your_Account模块没有对username参数做充分的过滤检查,远程攻击者可能在此参数中插入恶意的SQL命令,从而非授权获取对后台数据库的操作。
受影响系统:
PHP-Nuke PHP-Nuke 7.8
不受影响系统:
PHP-Nuke PHP-Nuke 7.9 patch 3.1
补丁下载:
目前厂商已经发布了升级补丁以修复这个安全问题,请到厂商的主页下载:
http://phpnuke.org/
用php把现有动态新闻页面改成静态页的方案
请问,当我浏览某个网页时,我想在服务器的某个路径下生成对应的静态网页,以方便调用,该怎么处理比较好?
我的程序以前写的,没有这个功能.因此我想有没有比较好的在不大量改动到原程序的情况下实现该功能.
回复人:arcow(冲星) ( 五级(中级)) 信誉:100 2006-2-28 18:02:45
比如你的动态显示页面为
display.php?id=1
的话
你可以在diplay里判断一下是否在对应目录存在对应id的文件名(这里假设文件为id号 html即1.html,2.html,...)
你判断 $id."html"这个文件是否存在于服务器,如果存在就直接跳转到这个页面,要是不存在的话就创建(建义用一个函数来创建,这样对页面改动不大,比如createHTML($_GET['id']),至于这个函数怎么写,我想你应该知道)然后再跳转
-------------------------------------------------
回复人:ice_berg16(寻梦的稻草人) ( 三星(高级)) 信誉:125 2006-2-28 21:33:13
假设你显示文章的页面为
showNews.php?id=34
那么可以这么做
ob_start();
//你的正常程序代码
$html=ob_get_contents();
ob_end_clean();
$fp=fopen($_GET['id'].".htm", "w");
fwrite($fp, $html);
fclose($fp);
有关在Windows下配置PHP Apache Optimizer失败的问题解决方案
昨晚在Windows XP Professional [带IIS]下安装了PHP 5.0.5和 Apache 2.0.54[监听端口8088].
今天在安装Discuz论坛时被要求安装Zend-Optimizer以支持加密过的PHP文件.
下载到Zend-Optimizer 2.5.7的Win32安装文件
在安装时,开始很顺利
Apache Root和php.ini选择路径分别为:
E:/Program Files/Apache Group/Apache2
E:/PHP5
可是到后来需要重启Apache的时候,重启失败.手动重启.提示安装成功.可是在phpinfo.php中察看时,发现Optimizer并没有和PHP关联上.有关Zend的提示信息为:
Zend Engine v2.0.5,Copyright(c) 1998-2004 Zend Technologies. 并没有Optimizer的信息.加密文件也无法正确执行.
开始以为是Apache重启的问题,反复试验后发现Apache正常.后来在网上搜索,也没有发现相关的解决方案.后来突然想到之前复制了一个Php.ini文件到了C:/Windows目录下,想是不是实际上使用的那个ini文件.
尝试重装Optimizer,ini文件路径选择C:/Windows.还是手动重启Apache.
安装结束察看phpinfo.php,Zend提示信息为
Zend Engine v2.0.5,Copyright (c) 1998-2004 Zend Technologies.
With Zend Extention Manager v1.0.6,Copyright(c) 2003-2004,by Zend Technologies
With Zend Optimizer v2.5.7,Copyright(C) 1998-2004,by Zend Technologies
成功安装Optimizer,执行Discuz加密文件正常!
总结:在安装Optimizer时,php.ini文件一定要选择在Windows目录下安装的实际使用的那个.其实在安装时它是提示C:/Windows的,不过自己没有注意,因此导致了安装的失败.
专家预言:PHP将比Java更受欢迎
Netscape共同创办人Marc Andreessen在周三(10/19)举行的Zend/PHP会议上预言,简单的PHP描述性语言撰写工具,在Web-based应用程序的开发上,将会比Java更受欢迎。
在升阳(Sun Microsystems)于1995年发表Java之后,由于Java的友善接口让工程师设计软件更为容易,受到工程师欢迎,但十年下来Java陆陆续续被加入了强大的功能,反而使它变得不容易操作。Marc Andreessen指出,现在的Java可能比C 更难学,在此同时,PHP传承了Java的简单精神,并创造一个比Java更容易使用的程序开发环境。
PHP为一开放原始码项目,其中包括可以简化程序的描述性语言引擎以及一个大的链接库,也有专门开发PHP的公司,如Zend就有销售PHP套装产品、程序撰写工具及技术支持服务。
Andreessen的看法可能很难博得Java拥护者的认同,因为现阶段全球仍有数百万专研Java的工程师,也有数百家公司参与Java Community Process(JCP),在JCP中共同主掌Java的命运。但是,就算是大力扶植Java、甚至以Java为WebSphere服务器软件核心的IBM,也认为PHP的前途会比Java来得好。
IBM新网络科技事业处副总裁Rod Smith就说,「简单」是PHP最大的特色,而且它不会为了与其它语言竞争而加入新的语言功能,Java显然就不是这么做。
而且,PHP的势力也不小,目前约有2200万的网站采用PHP,包括Yahoo!、Lufthansa等知名网站,数量并持续增加中,并有450个软件工程师有权去审核在PHP软件上的任何变动。
与Java相较,PHP可用范畴限制较多,它仅能用在网络服务器上,不像Java,同时可用在网络服务器、个人计算机、手机、芯片卡或其它装置。
Java和PHP除了在某些方面相互竞争之外,某个程度来看,也在彼此靠陇。甲骨文产品策略副总Ken Jacobs表示,即使甲骨文(Oracle)销售同时可执行Java及PHP的Java服务器与数据库软件,但正为Java加上一项额外的新功能,让这两个软件项目可以协同运作;更具体的说,Java规格需求223(JSR 223)将会「协助建构在Java社群与PHP社群之间的那座桥梁」。
日前才发表可以分享照片等内容网站「Ning」的Marc Andreessen也说,现在Ning也同时执行Java与PHP,其中核心系统是由Java组成,比起该站所有可看见的应用程序都是由PHP写成,Java更像是操作系统层级。
就像其它诸如Linux及Apache的开放原始码项目,PHP目前也受到计算机工业主要大厂的庇佑,像IBM跟Oracle都致力开发让PHP软件可以撷取旗下数据库的程序。事实上,IBM与Oracle的行为就像在为PHP背书,连这两大厂都支持PHP,证明PHP也许就是个好东西。