PHP+MySQL+sphinx+scws实现全文检索功能详解

本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。分享给大家供大家参考,具体如下:

我的个人环境是PHP7.1+MariaDB10.1.23

下载安装资源包

  1. sphinx地址

http://sphinxsearch.com/downloads/release/

  1. PHP的sphinx扩展下载

http://pecl.php.net/package/sphinx

  1. SCWS 下载地址

http://www.xunsearch.com/scws/download.php

  1. SCWS 词库下载地址

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2

安装过程

因为我的是PHP 7 版本,安装sphinx的时候遇到点问题

  1. 安装sphinx
[root@MevHost sphinxb]# mkdir -p /usr/local/src/sphinx
[root@MevHost sphinxb]# cd /usr/local/src/sphinx
[root@MevHost sphinxb]# tar -xf sphinx-2.2.11-release.tar.gz
[root@MevHost sphinxb]# cd sphinx-2.2.11-release
// 这里是指定安装的目录,还有引用mysql,(我这里是mariadb的安装目录)
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2 --with-mysql=/usr/local/mariadb/
[root@MevHost sphinxb]# make && make install
  1. 安装sphinx客户端

这个要安装上,不然安装PHP安装sphinx扩展时会出现报错

[root@MevHost sphinxb]# cd /usr/local/src/sphinx/sphinx-2.2.11-release/api/libsphinxclient  //sphinx-2.2.11-release目录下
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/sphinx2/libsphinxclient
[root@MevHost sphinxb]# make && make install
  1. 为PHP安装sphinx扩展
[root@MevHost sphinxb]# cd /usr/local/src/sphinx
[root@MevHost sphinxb]# tar zxvf sphinx-1.3.1.tgz
[root@MevHost sphinxb]# cd sphinx-1.3.1
[root@MevHost sphinxb]# phpize
[root@MevHost sphinxb]# ./configure --with-sphinx=/usr/local/sphinx2/libsphinxclient --with-php-config=/usr/local/php/bin/php-config
[root@MevHost sphinxb]# make && make install

成功后再 php.ini 添加:

extension=sphinx.so

PHP7版本sphinx扩展下载

下载地址

http://git.php.net/?p=pecl/search_engine/sphinx.git;a=shortlog;h=refs/heads/php7

  1. 安装scws
[root@MevHost sphinxb]# tar -jxvf scws-1.2.3.tar.bz2
[root@MevHost sphinxb]# mkdir /usr/local/scws
[root@MevHost sphinxb]# cd scws-1.2.3
[root@MevHost sphinxb]# ./configure --prefix=/usr/local/scws/
[root@MevHost sphinxb]# make && make install
  1. 为PHP安装scws扩展
[root@MevHost sphinxb]# cd /usr/local/src/sphinx/scws-1.2.3/phpext
[root@MevHost sphinxb]# phpize
[root@MevHost sphinxb]# ./configure --with-php-config=/usr/local/php/bin/php-config
[root@MevHost sphinxb]# make && make install

在php.ini 加入

extension = scws.so
scws.default.charset=utf-8
scws.default.fpath = /usr/local/scws/etc
  1. 安装scws词库
[root@MevHost sphinxb]# tar jxvf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/
#www为php-fpm运行用户
[root@MevHost sphinxb]# chown www:www /usr/local/scws/etc/dict.utf8.xdb

创建MySQL数据源

mtest.sql

/*
Navicat MySQL Data Transfer
Source Database    : mtest
Target Server Type  : MYSQL
Target Server Version : 50505
File Encoding     : 65001
Date: 2017-12-10 17:47:58
*/
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for userinfo
-- ----------------------------
DROP TABLE IF EXISTS `userinfo`;
CREATE TABLE `userinfo` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `userid` int(11) unsigned NOT NULL DEFAULT '0',
 `addtime` datetime NOT NULL,
 `post` varchar(20) NOT NULL DEFAULT '',
 `summary` text NOT NULL,
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of userinfo
-- ----------------------------
INSERT INTO `userinfo` VALUES ('17', '1', '2017-12-10 00:24:54', '在CentOS7中使用Sendmail通', 'sendmail');
INSERT INTO `userinfo` VALUES ('18', '2', '2017-12-10 10:24:54', '彻底理解PHP的SESSION机制', 'session');
INSERT INTO `userinfo` VALUES ('19', '3', '2017-12-10 12:24:54', '手把手编写自己的PHPMVC框架实例教程', 'mvc');
INSERT INTO `userinfo` VALUES ('20', '4', '2017-12-10 00:24:54', 'php获取今日、昨日、上周、本月的起始时', '时间');
-- ----------------------------
-- Table structure for users
-- ----------------------------
DROP TABLE IF EXISTS `users`;
CREATE TABLE `users` (
 `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
 `username` varchar(20) NOT NULL DEFAULT '',
 PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;
-- ----------------------------
-- Records of users
-- ----------------------------
INSERT INTO `users` VALUES ('1', 'Lionee');
INSERT INTO `users` VALUES ('2', 'libber');
INSERT INTO `users` VALUES ('3', 'sysmob');
INSERT INTO `users` VALUES ('4', '学习');

配置sphinx

配置文件在/usr/local/sphinx2/etc

cp sphinx-min.conf.dist sphinx.conf
source users
{
  type      = mysql
  sql_host    = 127.0.0.1
  sql_user    = root
  sql_pass    = 123456
  sql_db     = mtest
  sql_port    = 3306 # optional, default is 3306
  sql_query_pre = SET NAMES utf8
    sql_query_pre = SET SESSION query_cache_type=OFF
    sql_query =   SELECT a.id, a.userid,b.username, UNIX_TIMESTAMP(a.addtime) AS addtime, a.post, a.summary  FROM userinfo a left join users b on a.userid = b.id
  sql_attr_uint = userid
  sql_field_string = username
  sql_field_string = post
  sql_attr_timestamp = addtime
  sql_ranged_throttle = 0
  #sql_attr_uint   = group_id
  #sql_attr_timestamp = date_added
  #sql_ranged_throttle  = 0
}
source src1throttled : users
{
  sql_ranged_throttle = 100
}
index users
{
  source = users
  path = /usr/local/sphinx2/var/data/users
  docinfo = extern
  mlock = 0
  morphology = none
  min_word_len = 1
  html_strip = 1
  charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,U+A490..U+A4CF
  ngram_len = 1
  ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,U+3040..U+309F, U+30A0..U+30FF,U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
}
common
{
}
indexer
{
  mem_limit    = 128M
}
searchd
{
  #php
  listen     = 9312
  #mysql
  listen     = 9306:mysql41
  log     = /usr/local/sphinx2/var/log/searchd.log
  query_log    = /usr/local/sphinx2/var/log/query.log
  query_log_format = sphinxql
  read_timeout    = 5
  client_timeout   = 300
  max_children    = 30
  persistent_connections_limit  = 30
  pid_file    = /usr/local/sphinx2/var/log/searchd.pid
  seamless_rotate   = 1
  preopen_indexes   = 1
  unlink_old   = 1
  mva_updates_pool  = 1M
  max_packet_size   = 8M
  max_filters   = 256
  max_filter_values  = 4096
  max_batch_queries  = 32
  workers     = threads # for RT to work
}

启动sphinx

[root@MevHost ~]# pkill searchd
[root@MevHost ~]# /usr/local/sphinx2/bin/indexer --config /usr/local/sphinx2/etc/sphinx.conf --all
[root@MevHost ~]# /usr/local/sphinx2/bin/searchd --config /usr/local/sphinx2/etc/sphinx.conf

如果出现下面的报错

"Oops! It seems that sphinx was built with wrong endianess (cross-compiling?)
either reconfigure and rebuild, defining ac_cv_c_bigendian=no in the environment of
./configure script,
either ensure that '#define USE_LITTLE_ENDIAN = 1' in config/config.h"

我是直接把sphinx下面的config/config.h 改成了他提示的这个 #define USE_LITTLE_ENDIAN = 1,之后make的,

接下来的这段是我们的PHP代码了

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <title>Document</title>
</head>
<body>
  <form method="post" action='test.php'>
    <p>输入:</p> <input type="text" name="q" autocomplete="false">
  </form>
</body>
</html>
<?php
// phpinfo();die;
ini_set('display_errors','1');
error_reporting(E_ALL);
header("Content-type: text/html; charset=utf-8");
if($_POST){
$b_time = microtime(true);
$key = $_POST['q'];
$index = "users";
//========================================分词
$so = scws_new();
$so->set_charset('utf-8');
//默认词库
$so->add_dict(ini_get('scws.default.fpath') . '/dict.utf8.xdb');
//自定义词库
// $so->add_dict('./dd.txt',SCWS_XDICT_TXT);
//默认规则
$so->set_rule(ini_get('scws.default.fpath') . '/rules.utf8.ini');
//设定分词返回结果时是否去除一些特殊的标点符号
$so->set_ignore(true);
//设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
// 按位异或的 1 | 2 | 4 | 8 分别表示: 短词 | 二元 | 主要单字 | 所有单字
//1,2,4,8 分别对应常量 SCWS_MULTI_SHORT SCWS_MULTI_DUALITY SCWS_MULTI_ZMAIN SCWS_MULTI_ZALL
$so->set_multi(false);
//设定是否将闲散文字自动以二字分词法聚合
$so->set_duality(false);
//设定搜索词
$so->send_text($key);
$words_array = $so->get_result();
$words = "";
foreach($words_array as $v)
{
  $words = $words.'|('.$v['word'].')';
}
//加入全词
#$words = '('.$key.')'.$words;
$words = trim($words,'|');
$so->close();
echo '<p>输入:'.$key.'</p>'."\r\n";
echo '<p>分词:'.$words.'</p>'."\r\n";
//========================================搜索
$sc = new SphinxClient();
$sc->SetServer('127.0.0.1',9312);
#$sc->SetMatchMode(SPH_MATCH_ALL);
$sc->SetMatchMode(SPH_MATCH_ANY);
$sc->SetArrayResult(TRUE);
$res = $sc->Query($words,$index);
echo "<hr>";
echo "<pre>";
print_r($res);
$e_time = microtime(true);
$time = $e_time - $b_time;
echo $time;
}
exit;
?>

sphinx 配置文件解析

  • source:数据源,数据是从什么地方来的。
  • index:索引,当有数据源之后,从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后,才会有字典检索。
  • searchd:提供搜索查询服务。它一般是以deamon的形式运行在后台的。
  • indexer:构建索引的服务。当要重新构建索引的时候,就是调用indexer这个命令。
  • attr:属性,属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。

sphinx.conf

## 数据源src1
source src1
{
  ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python
  ## 有人会奇怪,python是一种语言怎么可以成为数据源呢?
  ## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/)
  type      = mysql
  ## 下面是sql数据库特有的端口,用户名,密码,数据库名等。
  sql_host    = localhost
  sql_user    = test
  sql_pass    =
  sql_db     = test
  sql_port    = 3306
  ## 如果是使用unix sock连接可以使用这个。
  # sql_sock   = /tmp/mysql.sock
  ## indexer和mysql之间的交互,需要考虑到效率和安全性。
  ## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl
  ## 那么这个参数就代表这个意思,0/32/2048/32768 无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
  # mysql_connect_flags  = 32
  ## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。
  # mysql_ssl_cert    = /etc/ssl/client-cert.pem
  # mysql_ssl_key   = /etc/ssl/client-key.pem
  # mysql_ssl_ca   = /etc/ssl/cacert.pem
  ## mssql特有,是否使用windows登陆
  # mssql_winauth   = 1
  ## mssql特有,是使用unicode还是单字节数据。
  # mssql_unicode   = 1 # request Unicode data from server
  ## odbc的dsn串
  # odbc_dsn   = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
  ## sql某一列的缓冲大小,一般是针对字符串来说的。
  ## 为什么要有这么一种缓冲呢?
  ## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。
  ## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。
  ## 而如果想要配置这个buffer的话,就可以在这里进行配置了。
  # sql_column_buffers  = content=12M, comments=1M
  ## indexer的sql执行前需要执行的操作。
  # sql_query_pre   = SET NAMES utf8
  # sql_query_pre   = SET SESSION query_cache_type=OFF
  ## indexer的sql执行语句
  sql_query    = \
    SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
    FROM documents
  ## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
  ## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。
  ## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。
  ## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。
  ## 并且这里的后一个查询需要按照id进行升序排列。
  # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
  # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC
  ## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
  ## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。
  # sql_file_field    = content_file_path
  ## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。
  ## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。
  ## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。
  ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
  # sql_query_range    = SELECT MIN(id),MAX(id) FROM documents
  # sql_range_step    = 1000
  # sql_ranged_throttle  = 0
  ## 下面都是些不同属性的数据了
  ## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。
  ## uint无符号整型属性
  sql_attr_uint    = group_id
  ## bool属性
  # sql_attr_bool   = is_deleted
  ## 长整型属性
  # sql_attr_bigint    = my_bigint_id
  ## 时间戳属性,经常被用于做排序
  sql_attr_timestamp = date_added
  ## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。
  ## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。
  ## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
  ## 这,就是这个字段的意义。
  # sql_attr_str2ordinal = author_name
  ## 浮点数属性,经常在查询地理经纬度的时候会用到。
  # sql_attr_float    = lat_radians
  # sql_attr_float    = long_radians
  ## 多值属性(MVA)
  ## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。
  ## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。
  ## 这个字段,sql_attr_multi就是用来做这个事情的。
  # sql_attr_multi    = uint tag from query; SELECT docid, tagid FROM tags
  # sql_attr_multi    = uint tag from ranged-query; \
  #  SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
  #  SELECT MIN(docid), MAX(docid) FROM tags
  ## 字符串属性。
  # sql_attr_string    = stitle
  ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
  # sql_attr_str2wordcount  = stitle
  ## 字符串字段,可全文搜索,可返回原始文本信息。
  # sql_field_string = author
  ## 文档词汇数记录字段,可全文搜索,可返回原始信息
  # sql_field_str2wordcount  = title
  ## 取后查询,在sql_query执行后立即操作。
  ## 它和sql_query_post_index的区别就是执行时间不同
  ## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。
  ## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。
  # sql_query_post    =
  ## 参考sql_query_post的说明。
  # sql_query_post_index = REPLACE INTO counters ( id, val ) \
  #  VALUES ( 'max_indexed_id', $maxid )
  ## 命令行获取信息查询。
  ## 什么意思呢?
  ## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。
  ## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。
  ## 同时这个字段只在控制台有效,在api中是无效的。
  sql_query_info   = SELECT * FROM documents WHERE id=$id
  ## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。
  ## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。
  ## 这个时候就使用到了这个字段了。
  ## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。
  # sql_query_killlist  = SELECT id FROM documents WHERE edited>=@last_reindex
  ## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。
  ## SQL数据源解压字段设置
  # unpack_zlib    = zlib_column
  ## MySQL数据源解压字段设置
  # unpack_mysqlcompress = compressed_column
  # unpack_mysqlcompress = compressed_column_2
  ## MySQL数据源解压缓冲区设置
  # unpack_mysqlcompress_maxsize = 16M
  ## xmlpipe的数据源就是一个xml文档
  # type     = xmlpipe
  ## 读取数据源的命令
  # xmlpipe_command    = cat /home/yejianfeng/instance/coreseek/var/test.xml
  ## 字段
  # xmlpipe_field   = subject
  # xmlpipe_field   = content
  ## 属性
  # xmlpipe_attr_timestamp  = published
  # xmlpipe_attr_uint = author_id
  ## UTF-8修复设置
  ## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题
  ## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。
  # xmlpipe_fixup_utf8  = 1
}
## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性
source src1throttled : src1
{
  sql_ranged_throttle = 100
}
## 索引test1
index test1
{
  ## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
  # type     = plain
  ## 索引数据源
  source     = src1
  ## 索引文件存放路径
  path      = /home/yejianfeng/instance/coreseek/var/data/test1
  ## 文档信息的存储模式,包括有none,extern,inline。默认是extern。
  ## docinfo指的就是数据的所有属性(field)构成的一个集合。
  ## 首先文档id是存储在一个文件中的(spa)
  ## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。
  ## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。
  ## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。
  ## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用extern
  docinfo     = extern
  ## 缓冲内存锁定。
  ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。
  ## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。
  mlock      = 0
  ## 词形处理器
  ## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。
  ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
  morphology   = none
  ## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。
  # min_stemming_len = 1
  ## 词形处理后是否还要检索原词?
  # index_exact_words = 1
  ## 停止词,停止词是不被索引的词。
  # stopwords   = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt
  ## 自定义词形字典
  # wordforms   = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt
  ## 词汇特殊处理。
  ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。
  # exceptions    = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt
  ## 最小索引词长度,小于这个长度的词不会被索引。
  min_word_len    = 1
  ## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
  charset_type    = sbcs
  ## 字符表和大小写转换规则。对于Coreseek,这个字段无效。
  # 'sbcs' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
  #
  # 'utf-8' default value is
  # charset_table   = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F
  ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
  # ignore_chars   = U+00AD
  ## 是否启用通配符,默认为0,不启用
  # enable_star    = 1
  ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
  ## 最小前缀索引长度
  ## 为什么要有这个配置项呢?
  ## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。
  ## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。
  # min_prefix_len    = 0
  ## 最小索引中缀长度。理解同上。
  # min_infix_len   = 0
  ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
  # prefix_fields   = filename
  # infix_fields   = url, domain
  ## 词汇展开
  ## 是否尽可能展开关键字的精确格式或者型号形式
  # expand_keywords    = 1
  ## N-Gram索引的分词技术
  ## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文)
  ## 对coreseek来说,这两个配置项可以忽略。
  # ngram_len   = 1
  # ngram_chars    = U+3000..U+2FA1F
  ## 词组边界符列表和步长
  ## 哪些字符被看做分隔不同词组的边界。
  # phrase_boundary    = ., ?, !, U+2026 # horizontal ellipsis
  # phrase_boundary_step = 100
  ## 混合字符列表
  # blend_chars    = +, &, U+23
  # blend_mode    = trim_tail, skip_pure
  ## html标记清理,是否从输出全文数据中去除HTML标记。
  html_strip   = 0
  ## HTML标记属性索引设置。
  # html_index_attrs = img=alt,title; a=title;
  ## 需要清理的html元素
  # html_remove_elements = style, script
  ## searchd是预先打开全部索引还是每次查询再打开索引。
  # preopen      = 1
  ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
  # ondisk_dict    = 1
  ## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引
  ## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用
  ## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。
  # inplace_enable    = 1
  # inplace_hit_gap    = 0 # preallocated hitlist gap size
  # inplace_docinfo_gap  = 0 # preallocated docinfo gap size
  # inplace_reloc_factor = 0.1 # relocation buffer size within arena
  # inplace_write_factor = 0.1 # write buffer size within arena
  ## 在经过过短的位置后增加位置值
  # overshort_step    = 1
  ## 在经过 停用词 处后增加位置值
  # stopword_step   = 1
  ## 位置忽略词汇列表
  # hitless_words   = all
  # hitless_words   = hitless.txt
  ## 是否检测并索引句子和段落边界
  # index_sp     = 1
  ## 字段内需要索引的HTML/XML区域的标签列表
  # index_zones    = title, h*, th
}
index test1stemmed : test1
{
  path      = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
  morphology   = stem_en
}
index dist1
{
  type      = distributed
  local      = test1
  local      = test1stemmed
  ## 分布式索引(distributed index)中的远程代理和索引声明
  agent      = localhost:9313:remote1
  agent      = localhost:9314:remote2,remote3
  # agent     = /var/run/searchd.sock:remote4
  ## 分布式索引( distributed index)中声明远程黑洞代理
  # agent_blackhole    = testbox:9312:testindex1,testindex2
  ## 远程代理的连接超时时间
  agent_connect_timeout  = 1000
  ## 远程查询超时时间
  agent_query_timeout = 3000
}
index rt
{
  type      = rt
  path      = /home/yejianfeng/instance/coreseek/var/data/rt
  ## RT索引内存限制
  # rt_mem_limit   = 512M
  ## 全文字段定义
  rt_field    = title
  rt_field    = content
  ## 无符号整数属性定义
  rt_attr_uint    = gid
  ## 各种属性定义
  # rt_attr_bigint    = guid
  # rt_attr_float   = gpa
  # rt_attr_timestamp = ts_added
  # rt_attr_string    = author
}
indexer
{
  ## 建立索引的时候,索引内存限制
  mem_limit    = 32M
  ## 每秒最大I/O操作次数,用于限制I/O操作
  # max_iops   = 40
  ## 最大允许的I/O操作大小,以字节为单位,用于I/O节流
  # max_iosize    = 1048576
  ## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位
  # max_xmlpipe2_field  = 4M
  ## 写缓冲区的大小,单位是字节
  # write_buffer   = 1M
  ## 文件字段可用的最大缓冲区大小,字节为单位
  # max_file_field_buffer = 32M
}
## 搜索服务配置
searchd
{
  # listen      = 127.0.0.1
  # listen      = 192.168.0.1:9312
  # listen      = 9312
  # listen      = /var/run/searchd.sock
  ## 监听端口
  listen     = 9312
  listen     = 9306:mysql41
  ## 监听日志
  log     = /home/yejianfeng/instance/coreseek/var/log/searchd.log
  ## 查询日志
  query_log    = /home/yejianfeng/instance/coreseek/var/log/query.log
  ## 客户端读超时时间
  read_timeout    = 5
  ## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。
  client_timeout   = 300
  ## 并行执行搜索的数目
  max_children    = 30
  ## 进程id文件
  pid_file    = /home/yejianfeng/instance/coreseek/var/log/searchd.pid
  ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
  max_matches   = 1000
  ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
  ## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。
  ## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间
  seamless_rotate   = 1
  ## 索引预开启,是否强制重新打开所有索引文件
  preopen_indexes   = 1
  ## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝
  unlink_old   = 1
  ## 属性刷新周期
  ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
  # attr_flush_period = 900
  ## 索引字典存储方式
  # ondisk_dict_default  = 1
  ## 用于多值属性MVA更新的存储空间的内存共享池大小
  mva_updates_pool  = 1M
  ## 网络通讯时允许的最大的包的大小
  max_packet_size   = 8M
  ## 崩溃日志文件
  # crash_log_path    = /home/yejianfeng/instance/coreseek/var/log/crash
  ## 每次查询允许设置的过滤器的最大个数
  max_filters   = 256
  ## 单个过滤器允许的值的最大个数
  max_filter_values  = 4096
  ## TCP监听待处理队列长度
  # listen_backlog    = 5
  ## 每个关键字的读缓冲区的大小
  # read_buffer    = 256K
  ## 无匹配时读操作的大小
  # read_unhinted   = 32K
  ## 每次批量查询的查询数限制
  max_batch_queries  = 32
  ## 每个查询的公共子树文档缓存大小
  # subtree_docs_cache  = 4M
  ## 每个查询的公共子树命中缓存大小
  # subtree_hits_cache  = 8M
  ## 多处理模式(MPM)。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。
  workers     = threads # for RT to work
  ## 并发查询线程数
  # dist_threads   = 4
  ## 二进制日志路径
  # binlog_path    = # disable logging
  # binlog_path    = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there
  ## 二进制日志刷新
  # binlog_flush   = 2
  ## 二进制日志大小限制
  # binlog_max_log_size  = 256M
  ## 线程堆栈
  # thread_stack     = 128K
  ## 关键字展开限制
  # expansion_limit    = 1000
  ## RT索引刷新周期
  # rt_flush_period    = 900
  ## 查询日志格式
  ## 可选项,可用值为plain、sphinxql,默认为plain。
  # query_log_format   = sphinxql
  ## MySQL版本设置
  # mysql_version_string = 5.0.37
  ## 插件目录
  # plugin_dir      = /usr/local/sphinx/lib
  ## 服务端默认字符集
  # collation_server   = utf8_general_ci
  ## 服务端libc字符集
  # collation_libc_locale = ru_RU.UTF-8
  ## 线程服务看守
  # watchdog       = 1
  ## 兼容模式
  # compat_sphinxql_magics  = 1
}

更多关于PHP相关内容感兴趣的读者可查看本站专题:《PHP扩展开发教程》、《PHP网络编程技巧总结》、《php curl用法总结》、《PHP数组(Array)操作技巧大全》、《PHP数据结构与算法教程》、《php程序设计算法总结》及《php字符串(string)用法总结》

希望本文所述对大家PHP程序设计有所帮助。

(0)

相关推荐

  • centos+php+coreseek+sphinx+mysql之一coreseek安装篇

    首先附上coreseek4.1版本下载 前期准备工作: yum install make gcc g++ automake libtool MySQL-client libMySQLclient15-dev libxml2-dev libexpat1-dev autoconf automake libtool 假设我们将文件包下载在 /usr/local/src下 cd /usr/local/src tar zxvf coreseek-4.1-beta.tar.gz cd coreseek-4.

  • php利用scws实现mysql全文搜索功能的方法

    本文实例讲述了php利用scws实现mysql全文搜索功能的方法.分享给大家供大家参考.具体方法如下: scws这样的中文分词插件比较不错,简单的学习了一下,它包涵一些专有名称.人名.地名.数字年代等规则集合,可以直接将语句按这些规则分开成一个一个关键词,准确率在90%-95%之间,按照安装说明把scws的扩展放入php的扩展目录里,下载规则文件和词典文件,并在php配置文件中引用它们,就可以用scws进行分词了. 1) 修改 php 扩展代码以兼容支持 php 5.4.x 2) 修正 php

  • php启用sphinx全文搜索的实现方法

    本文实例讲述了php启用sphinx全文搜索的实现方法.分享给大家供大家参考.具体分析如下: 在编译安装 sphinx 的时候出现很多中文乱码,最后抛出错误卡住了,我去到官方直接下载一个 rpm 包,安装就很爽,具体错误不想研究了,忙开发呢. 安装两个包,一个是 mmseg 这个是生成中文字典的程序,一个是  csft 也就是中国版的sphinx . rpm -ivh 安装完以后,很顺利~~不到半分钟就装完了. 中文字典库,我直接去 csft 官方下载了,挺好的想得很周到. unigram.tx

  • php实现scws中文分词搜索的方法

    本文实例讲述了php实现scws中文分词搜索的方法.分享给大家供大家参考,具体如下: 1.4个文件(本站下载地址.)解压后,放到一个地方 eg:E:/wamp/scws 2.php.ini 中配置 extension = php_scws.dll scws.default.charset = utf8 //配置默认的编码方式 scws.default.fpath = "E:/wamp/scws" //加压后文件的路径 3.使用 $so = scws_new(); $so->set

  • PHP中检索字符串的方法分析【strstr与substr_count方法】

    本文实例分析了PHP中检索字符串的方法.分享给大家供大家参考,具体如下: 在PHP中,提供了很多用于查找字符串的函数,PHP也可以像Word那样实现对字符串的查找功能. 应用strstr()函数检索指定的关键字 获取一个指定字符串在另一个字符串中首次出现的位置到后者末尾的子字符串.如果执行成功,则返回剩余字符串(存在相匹配的字符):如果没有找到相匹配的字符,则返回false. 语法如下: string strstr (string haystack,string needle) 参数haysta

  • PHP实现从PostgreSQL数据库检索数据分页显示及根据条件查找数据示例

    本文实例讲述了PHP实现从PostgreSQL数据库检索数据分页显示及根据条件查找数据.分享给大家供大家参考,具体如下: 主要功能是从postgreSql查询数据,并检索,由于自己刚开始接触,所以难点在于多条数据同时筛选并分页显示出来,写下自己的代码与大家共享. <html> <head> <script type="text/javascript"> /** * 分页函数 * pno--页数 * psize--每页显示记录数 * 分页部分是从真实数

  • 深入解析php之sphinx

    <?php //参数筛选 //筛选cat_id=2$cl->SetFilter("cat_id",array(2));//仅在id为1.3.7的子论坛中搜索$cl->SetFilter("forum_id",array(1,3,7)); //范围筛选//筛选发布时间为今天,参数为int时间戳$cl->SetFilterRange("starttime",123,124);//筛选价格$cl->SetFilterRan

  • 开源php中文分词系统SCWS安装和使用实例

    一.SCWS简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统).这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词. 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点.SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK.UTF-8 等.此外还提供了 PHP 扩展模

  • PHP+sqlite数据库操作示例(创建/打开/插入/检索)

    本文实例讲述了PHP+sqlite数据库操作的方法.分享给大家供大家参考,具体如下: SQLite是一款轻型的数据库,它的设计目标是嵌入式的,而且目前已经在很多嵌入式产品中使用了它,它占用资源非 常的低,在嵌入式设备中,可能只需要几百K的内存就够了.它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相 结合,比如Tcl.PHP.Java等,还有ODBC接口,同样比起MySQL.PostgreSQL这两款开源世界著名的数据库管理系统来讲,它的处理 速度比他们都

  • php mysql like 实现多关键词搜索的方法

    或者叫,分词检索数据库 $res = mysql_query("select * from peter where id like '%中草药%' and '%6%'"); //这样写是报错的: $res = mysql_query("select * from peter where id like '%中草药%' or '%6%'"); //而这样写是正确的:奇怪~ $res = mysql_query("select * from peter whe

  • PHP redis实现超迷你全文检索

    情景: 我们平台有好多游戏, 运营的同事在查询某一款游戏的时候, 目前使用的是html的select下拉列表的展现形式, 运营的同事得一个个去找,然后选中,耗时又费眼 效果: 输入"三国"或者"国三", 将自动列出所有包含"三国"的游戏名字, 输入不限顺序; 例如输入"杀三国",仍然会将"三国杀"这款游戏找出来 实现: 我用redis的集合+PHP的array_intersect()和mb系列函数, 实现了

随机推荐