浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别
Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站
Sphinx的特性如下:
a) 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
b) 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);
Sphinx本身对中文的支持并不好。
主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。
分词在两个地方会用到;
1、索引时,根据分词索引原始数据
2、搜索时,对用户输入分词,到索引中查询
目前最常用的三种方案Coreseek、Sphinx-for-chinaese、Sphinx+Scws
1、Coreseek 为国人基于Sphinx开发的方案,目前最稳定版,是基于经典的Sphinx0.9.9版
优点:有成熟的文档、以及社区;其分词mmseg为目前国内最为好用分词,索引和搜索分词都可以用到;
缺点:深度开发、版本更新较慢;索引较慢
策略:一个词库管理后台,维护词库;定期生成字典;此套件会自动分词索引;
适用场景:普通青年、搭建差不多的搜索,适用于普遍网站
2、Sphinx-for-chinaese 为国人2基于经典的Sphinx0.9.9版开发的扩展版
优点:部署简单,易操作,内嵌分词和词库,索引和搜索分词都可以用到;
缺点:版本更新较慢;分词较弱;索引相对较慢
策略:同一
适用场景:普通青年、快速搭建搜索的小站
3、Sphinx+Scws 为两套独立系统,单独部署,所谓高内聚低耦合,强烈推荐
优点:两套系统,相对独立,各自单独Server;分词可以做其他用途;版本更新较快;
缺点:部署稍复杂,使用稍复杂;索引分词只能用一元分词,数据量较大
策略:词库管理外;使用时,先调用分词服务,后调用搜索
适用场景:文艺青年、搭建像样点的搜索;好吧文艺青年
以上这篇浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
相关推荐
-
解析coreseek for sphinx的使用
1.将下载下来的文件包解压,重新命名为sphinx或者其他.然后放到一个比较合适的位置,一般放到d盘根目录下面.2.找到D:\sphinx\etc里面的csft_mysql.conf这个文件,打开它,推荐用ue或者editplus.因为记事本打开会没有样式.这是因为在linux下面的文件的缘故.3.做必要的修改.因为这个修改因表不同和你想要取的内容不同,这里就没有标准的,只能给个实例我的修改是这样的: 复制代码 代码如下: #源定义source main{ type = mysql sq
-
php启用sphinx全文搜索的实现方法
本文实例讲述了php启用sphinx全文搜索的实现方法.分享给大家供大家参考.具体分析如下: 在编译安装 sphinx 的时候出现很多中文乱码,最后抛出错误卡住了,我去到官方直接下载一个 rpm 包,安装就很爽,具体错误不想研究了,忙开发呢. 安装两个包,一个是 mmseg 这个是生成中文字典的程序,一个是 csft 也就是中国版的sphinx . rpm -ivh 安装完以后,很顺利~~不到半分钟就装完了. 中文字典库,我直接去 csft 官方下载了,挺好的想得很周到. unigram.tx
-
浅谈Coreseek、Sphinx-for-chinaese、Sphinx+Scws的区别
Sphinx是一个基于SQL的全文检索引擎:普遍使用于很多网站 Sphinx的特性如下: a) 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒); b) 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒); c) 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档); Sphinx本身对中文的支持并不好. 主要体现在对一段话断词:英文只需按照空格对其分词即可:但对于博大精深的中文来说,却是件困
-
浅谈python中copy和deepcopy中的区别
在下是个编程爱好者,最近将魔爪伸向了Python编程.....遇到copy和deepcopy感到很困惑,现在针对这两个方法进行区分,一种是浅复制(copy),一种是深度复制(deepcopy). 首先说一下deepcopy,所谓的深度复制,在这里我理解的是完全复制然后变成一个新的对象,复制的对象和被复制的对象没有任何关系,彼此之间无论怎么改变都相互不影响. 然后说一下copy,在这里我分为两类来说,一种是字典数据类型的copy函数,一种是copy包的copy函数. 一.字典数据类型的copy函数
-
浅谈js函数的多种定义方法与区别
定义一个函数一般有如下三种方式: 1.函数关键字(function)语句: function fnMethodName(x){ alert(x); } 2.函数字面量(Function Literals): var fnMethodName = function(x){alert(x);} 3.Function()构造函数: var fnMethodName = new Function('x', 'alert(x);') 上面三种方法定义了同一个方法函数fnMethodName,第1种就是最常
-
浅谈maven的jar包和war包区别 以及打包方法
jar文件包括java普通类.资源文件和普通文件,在maven中即是打包src/main/java和src/main/resources资源文件夹下的所有文件.在打包的时候会自动生成MATA-INF文件夹,用于存储maven的pom信息和MANIFEST.MF文件.例如: war文件包含全部的web应用程序,即所有的java类,配置信息和jsp.js等静态资源.但是需要注意war引用war的时候会将应用war的资源全部拷贝到当前war的相同文件下,重名的文件会被替换.例如: war包依赖: <d
-
浅谈Spring单例Bean与单例模式的区别
Spring单例Bean与单例模式的区别在于它们关联的环境不一样,单例模式是指在一个JVM进程中仅有一个实例,而Spring单例是指一个Spring Bean容器(ApplicationContext)中仅有一个实例. 首先看单例模式,在一个JVM进程中(理论上,一个运行的JAVA程序就必定有自己一个独立的JVM)仅有一个实例,于是无论在程序中的何处获取实例,始终都返回同一个对象,以Java内置的Runtime为例(现在枚举是单例模式的最佳实践),无论何时何处获取,下面的判断始终为真: // 基
-
浅谈Pandas中map, applymap and apply的区别
1.apply() 当想让方程作用在一维的向量上时,可以使用apply来完成,如下所示 In [116]: frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon']) In [117]: frame Out[117]: b d e Utah -0.029638 1.081563 1.280300 Ohio 0.647747 0.831136 -1.
-
浅谈python 中的 type(), dtype(), astype()的区别
如下所示: 函数 说明 type() 返回数据结构类型(list.dict.numpy.ndarray 等) dtype() 返回数据元素的数据类型(int.float等) 备注:1)由于 list.dict 等可以包含不同的数据类型,因此不可调用dtype()函数 2)np.array 中要求所有元素属于同一数据类型,因此可调用dtype()函数 astype() 改变np.array中所有数据元素的数据类型. 备注:能用dtype() 才能用 astype() 测试代码: import nu
-
浅谈Python里面None True False之间的区别
None虽然跟True False一样都是布尔值. 虽然None不表示任何数据,但却具有很重要的作用. 它和False之间的区别还是很大的! 例子: >>> t = None >>> if t: ... print("something") ... else: ... print("nothing") ... nothing 区分None和False.使用is来操作! >>> if t is None: ...
-
浅谈vue-props的default写不写有什么区别
注意 default 不要写成 defaults 例如有一个名为mk-test的组件如下: <template> <div>{{maxLength}}</div> </template> <script> export default { props: { maxLength: { type: Number, default: 1 } } } </script> 当父组件这样调用时: <mk-test></mk-te
-
浅谈SpringBoot项目打成war和jar的区别
首先给大家来讲一个我们遇到的一个奇怪的问题: 1.我的一个springboot项目,用mvn install打包成jar,换一台有jdk的机器就直接可以用java -jar 项目名.jar的方式运行,没任何问题,为什么这里不需要tomcat也可以运行了? 2.然后我打包成war放进tomcat运行,发现端口号变成tomcat默认的8080(我在server.port中设置端口8090)项目名称也必须加上了. 也就是说我在原来的机器的IDEA中运行,项目接口地址为 ip:8090/listall,
随机推荐
- 简单实现nodejs上传功能
- 怎么选择Javascript框架(Javascript Framework)
- java邮件发送的实现
- javascript 实现滚动效果代码整理
- 收藏整理的一些Python常用方法和技巧
- android 引导界面的实现方法
- mysql 行列动态转换的实现(列联表,交叉表)
- PHP实现批量生成App各种尺寸Logo
- Node.js环境下编写爬虫爬取维基百科内容的实例分享
- js 日期比较相关天数代码
- ECSHOP中实现ajax弹窗登录功能
- jQuery 限制输入字符串长度
- 深入理解Java中的克隆
- dmysql自己封装的mysql库
- 微信小程序 弹窗自定义实例代码
- 深入解读JavaScript中的Hoisting机制
- php获取QQ头像并显示的方法
- [图文]IIS6不能下载未注册的文件解决方法
- android实现静默安装与卸载的方法
- 详解Android中处理崩溃异常