浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

2025-03-29 10:59:32

Sphinx是一个基于SQL的全文检索引擎；普遍使用于很多网站

Sphinx的特性如下：

a) 高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);

b) 高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);

c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

Sphinx本身对中文的支持并不好。

主要体现在对一段话断词；英文只需按照空格对其分词即可；但对于博大精深的中文来说，却是件困难的事情。

分词在两个地方会用到；

1、索引时，根据分词索引原始数据

2、搜索时，对用户输入分词，到索引中查询

目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws

1、Coreseek 为国人基于Sphinx开发的方案，目前最稳定版，是基于经典的Sphinx0.9.9版

优点：有成熟的文档、以及社区；其分词mmseg为目前国内最为好用分词，索引和搜索分词都可以用到；

缺点：深度开发、版本更新较慢；索引较慢

策略：一个词库管理后台，维护词库；定期生成字典；此套件会自动分词索引；

适用场景：普通青年、搭建差不多的搜索，适用于普遍网站

2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版

优点：部署简单，易操作，内嵌分词和词库，索引和搜索分词都可以用到；

缺点：版本更新较慢；分词较弱；索引相对较慢

策略：同一

适用场景：普通青年、快速搭建搜索的小站

3、Sphinx+Scws 为两套独立系统，单独部署，所谓高内聚低耦合，强烈推荐

优点：两套系统，相对独立，各自单独Server；分词可以做其他用途；版本更新较快；

缺点：部署稍复杂，使用稍复杂；索引分词只能用一元分词，数据量较大

策略：词库管理外；使用时，先调用分词服务，后调用搜索

适用场景：文艺青年、搭建像样点的搜索；好吧文艺青年

以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

解析coreseek for sphinx的使用

1.将下载下来的文件包解压,重新命名为sphinx或者其他.然后放到一个比较合适的位置,一般放到d盘根目录下面.2.找到D:\sphinx\etc里面的csft_mysql.conf这个文件,打开它,推荐用ue或者editplus.因为记事本打开会没有样式.这是因为在linux下面的文件的缘故.3.做必要的修改.因为这个修改因表不同和你想要取的内容不同,这里就没有标准的,只能给个实例我的修改是这样的: 复制代码代码如下: #源定义source main{ type = mysql sq
php启用sphinx全文搜索的实现方法

本文实例讲述了php启用sphinx全文搜索的实现方法.分享给大家供大家参考.具体分析如下: 在编译安装 sphinx 的时候出现很多中文乱码,最后抛出错误卡住了,我去到官方直接下载一个 rpm 包,安装就很爽,具体错误不想研究了,忙开发呢. 安装两个包,一个是 mmseg 这个是生成中文字典的程序,一个是 csft 也就是中国版的sphinx . rpm -ivh 安装完以后,很顺利~~不到半分钟就装完了. 中文字典库,我直接去 csft 官方下载了,挺好的想得很周到. unigram.tx
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

Sphinx是一个基于SQL的全文检索引擎:普遍使用于很多网站 Sphinx的特性如下: a) 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒); b) 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒); c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档); Sphinx本身对中文的支持并不好. 主要体现在对一段话断词:英文只需按照空格对其分词即可:但对于博大精深的中文来说,却是件困
浅谈python中copy和deepcopy中的区别

在下是个编程爱好者,最近将魔爪伸向了Python编程.....遇到copy和deepcopy感到很困惑,现在针对这两个方法进行区分,一种是浅复制(copy),一种是深度复制(deepcopy). 首先说一下deepcopy,所谓的深度复制,在这里我理解的是完全复制然后变成一个新的对象,复制的对象和被复制的对象没有任何关系,彼此之间无论怎么改变都相互不影响. 然后说一下copy,在这里我分为两类来说,一种是字典数据类型的copy函数,一种是copy包的copy函数. 一.字典数据类型的copy函数
浅谈js函数的多种定义方法与区别

定义一个函数一般有如下三种方式: 1.函数关键字(function)语句: function fnMethodName(x){ alert(x); } 2.函数字面量(Function Literals): var fnMethodName = function(x){alert(x);} 3.Function()构造函数: var fnMethodName = new Function('x', 'alert(x);') 上面三种方法定义了同一个方法函数fnMethodName,第1种就是最常
浅谈maven的jar包和war包区别以及打包方法

jar文件包括java普通类.资源文件和普通文件,在maven中即是打包src/main/java和src/main/resources资源文件夹下的所有文件.在打包的时候会自动生成MATA-INF文件夹,用于存储maven的pom信息和MANIFEST.MF文件.例如: war文件包含全部的web应用程序,即所有的java类,配置信息和jsp.js等静态资源.但是需要注意war引用war的时候会将应用war的资源全部拷贝到当前war的相同文件下,重名的文件会被替换.例如: war包依赖: <d
浅谈Spring单例Bean与单例模式的区别

Spring单例Bean与单例模式的区别在于它们关联的环境不一样,单例模式是指在一个JVM进程中仅有一个实例,而Spring单例是指一个Spring Bean容器(ApplicationContext)中仅有一个实例. 首先看单例模式,在一个JVM进程中(理论上,一个运行的JAVA程序就必定有自己一个独立的JVM)仅有一个实例,于是无论在程序中的何处获取实例,始终都返回同一个对象,以Java内置的Runtime为例(现在枚举是单例模式的最佳实践),无论何时何处获取,下面的判断始终为真: // 基
浅谈Pandas中map, applymap and apply的区别

1.apply() 当想让方程作用在一维的向量上时,可以使用apply来完成,如下所示 In [116]: frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon']) In [117]: frame Out[117]: b d e Utah -0.029638 1.081563 1.280300 Ohio 0.647747 0.831136 -1.
浅谈python 中的 type(), dtype(), astype()的区别

如下所示: 函数说明 type() 返回数据结构类型(list.dict.numpy.ndarray 等) dtype() 返回数据元素的数据类型(int.float等) 备注:1)由于 list.dict 等可以包含不同的数据类型,因此不可调用dtype()函数 2)np.array 中要求所有元素属于同一数据类型,因此可调用dtype()函数 astype() 改变np.array中所有数据元素的数据类型. 备注:能用dtype() 才能用 astype() 测试代码: import nu
浅谈Python里面None True False之间的区别

None虽然跟True False一样都是布尔值. 虽然None不表示任何数据,但却具有很重要的作用. 它和False之间的区别还是很大的! 例子: >>> t = None >>> if t: ... print("something") ... else: ... print("nothing") ... nothing 区分None和False.使用is来操作! >>> if t is None: ...
浅谈vue-props的default写不写有什么区别

注意 default 不要写成 defaults 例如有一个名为mk-test的组件如下: <template> <div>{{maxLength}}</div> </template> <script> export default { props: { maxLength: { type: Number, default: 1 } } } </script> 当父组件这样调用时: <mk-test></mk-te
浅谈SpringBoot项目打成war和jar的区别

首先给大家来讲一个我们遇到的一个奇怪的问题: 1.我的一个springboot项目,用mvn install打包成jar,换一台有jdk的机器就直接可以用java -jar 项目名.jar的方式运行,没任何问题,为什么这里不需要tomcat也可以运行了? 2.然后我打包成war放进tomcat运行,发现端口号变成tomcat默认的8080(我在server.port中设置端口8090)项目名称也必须加上了. 也就是说我在原来的机器的IDEA中运行,项目接口地址为 ip:8090/listall,

浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别

相关推荐

随机推荐