mysql中使用sphinx搜索子域名需注意的问题

2025-02-02 14:34:28

搜索子域名

比如搜索jb51.net会把www.jb51.net、jb51.net、host.jb51.net等都搜索出来。

如果使用mysql用like的话效率是非常低的，几百万甚至上千万的数据那是没有办法使用的，于是采取sphinx来做。

在使用的过程中发现了诸多问题，这里将其总结起来，也让不知道的朋友注意下这些字符。

分析：
sphinx是全文索引，它搜索的是包含的记录。

首先如果我们不做任何设置的话，搜索jb51.net会出现把aajb51.net、jb51.a.cn、jb51.net.com(当然这个域名后缀不存在，但是会有符合相应规则的域名，这里只举例)等等。

为什么会出现这种情况呢？

我们使用./search -c 配置文件 -i 索引名 'jb51.net' 搜索的时候会发现下面words部分被分成了两部分'jb51'和'cn'，默认以.作为分隔符，如果我们不想让它做为分隔符，就需要把.添加到charset_table里面，这里需要说的是我们搜索域名只需要有字母、数字、"-"等字符，其他的不需要。设置如下：
charset_table = 0..9,A..Z->a..z, a..z,U+002e,U+002d,U+0040,U+0060 #其中U+002e代表".",U+002d代表"-",U+0040代表"@",U+0060代表"`"，这里为ascii码值。
这样会解决掉搜出jb51.a.cn这类域名。

那么jb51.net.com这类呢？我们可以在索引的字段中增加惟一后缀比如“XXXXX”，concat(search,'XXXXX')这样，就不会出来了。

现在就剩下aajb51.net这类域名，我们使用关键字“ '".jb51.net"' ”（注意是单引号里面套双引号）这样来搜索，主域名单独加上，但是使用的过程中发现这样搜出了与这个域名无关的域名，比如aa.bb.cn这样，经后来研究是"."的问题，后来把"."替换成"@"，来搜索又出现12306等好多域名无法读取到的问题，后来经研究估计这些特殊字符在sphinx中都有特殊的意义，于是找到了"`"这个字符，换成这个以后一切才算正常了。

注意：将"."替换成"`"等相应字符后需在charset_table里增加这个字符，不然是被忽略的。

所以在搜索的过程中我们需要注意下这些特殊字符。

mysql中使用sphinx搜索子域名需注意的问题

搜索子域名比如搜索jb51.net会把www.jb51.net.jb51.net.host.jb51.net等都搜索出来. 如果使用mysql用like的话效率是非常低的,几百万甚至上千万的数据那是没有办法使用的,于是采取sphinx来做. 在使用的过程中发现了诸多问题,这里将其总结起来,也让不知道的朋友注意下这些字符. 分析:sphinx是全文索引,它搜索的是包含的记录. 首先如果我们不做任何设置的话,搜索jb51.net会出现把aajb51.net.jb51.a.cn.jb51.net.c
在MySQL中使用Sphinx实现多线程搜索的方法

MySQL.Sphinx及许多数据库和搜索引擎中的查询是单线程的.比如说,在一台32个CPU核心.16个磁盘的R910服务器上执行一个查询,它最多只会用到一个核心和一个磁盘.没错,只会使用一个. 如果查询是CPU密集型作业,那么会使用大约3%的整机CPU能力(以上述32核机器为例).如果是磁盘密集型,则大约会使用6%的整机IO能力(也是与上例同样的配置,16个磁盘组成RAID10或RAID0). 我再换个说法吧.如果你在一台单核单磁盘的机器上执行了某个查询,花了10秒,那么把同样的查询放到一台3
mysql+mybatis下全文搜索的使用方法

第一步在你的需要全文搜索的列上点击全文搜索full text类型索引,注意我的例子是该列是个longText类型的列第一步建立fulltext类型索引如下图索引类型选择full text 第二步: 验证全文搜索sql好不好使第三步: 我用的是mybatis框架,改自动生成的example条件设置和mapper.xml文件内容 Page<TLog> page = (Page<TLog>) logMapper.selectByExample(tLogExample); 最后m
MySQL中字段名和保留字冲突的解决办法

我们知道通常的SQL查询语句是这么写的: 复制代码代码如下: select col from table; 这当然没问题,但如果字段名是"from"呢? 复制代码代码如下: select from from table; 若真的这么写,必然出错,当字段名与MySQL保留字冲突时,可以用字符"`"将字段名括起来: 复制代码代码如下: select `from` from table; 总结刚发现我原先设计的数据库表里有两个字段都用了保留字(add,commen
小心陷阱！MySQL中处理Null时需注意两点

MySQL数据库是一个基于结构化数据的开源数据库.SQL语句是MySQL数据库中核心语言.不过在MySQL数据库中执行SQL语句,需要小心两个陷阱. 陷阱一:空值不一定为空空值是一个比较特殊的字段.在MySQL数据库中,在不同的情形下,空值往往代表不同的含义.这是MySQL数据库的一种特性.如在普通的字段中(字符型的数据),空值就是表示空值.但是如果将一个空值的数据插入到TimesTamp类型的字段中,空值就不一定为空.此时为出现什么情况呢(如下图)? 我先创建了一个表.在这个表中有两个字段:
查询mysql中执行效率低的sql语句的方法

一些小技巧1. 如何查出效率低的语句?在MySQL下,在启动参数中设置 --log-slow-queries=[文件名],就可以在指定的日志文件中记录执行时间超过long_query_time(缺省为10秒)的SQL语句.你也可以在启动配置文件中修改long query的时间,如: 复制代码代码如下: # Set long query time to 8 seconds long_query_time=8 2. 如何查询某表的索引?可使用SHOW INDEX语句,如: 复制代码代码如下
一文弄懂MySQL中redo log与binlog的区别

目录前言 1. 什么是redo log? 1.1 redo日志文件名 1.2 影响redo log参数 1.3 redo log大小怎么设置? 2. 什么是binlog 2.1 binlog文件名 2.2 影响binlog的参数 2.3 查看binlog 3. redo log与binlog的区别总结前言 MySQL中有六种日志文件,分别是:重做日志(redo log).回滚日志(undo log).二进制日志(binlog).错误日志(errorlog).慢查询日志(slow query
MySQL 中如何归档数据的实现方法

目录什么是pt-archiver 安装简单入门实现原理批量归档不同归档参数之间的速度对比其它常见用法 (1)删除数据 (2)将数据归档到文件中如何避免主从延迟常用参数总结归档,在 MySQL 中,是一个相对高频的操作. 它通常涉及以下两个动作: 迁移.将数据从业务实例迁移到归档实例. 删除.从业务实例中删除已迁移的数据. 在处理类似需求时,都是开发童鞋提单给 DBA,由 DBA 来处理. 于是,很多开发童鞋就好奇,DBA 都是怎么执行归档操作的?归档条件没有索引会锁表吗?安全
MySQL中IO问题的深入分析与优化

目录前言一.业务背景二.分析方法 1. MySQL 指标 (1) Redo 写次数 (2) Row Operations (3) Buffer Pool 请求次数 (4) 慢 SQL (5) 其他指标 2. 机器I/O分析 (1) iostat (2) iotop 三.解决方案 1. 硬件升级 2. 存储优化 3. SQL优化 4. 配置优化四.总结参考目录前言在业务迭代中,随着数据量的上升,会出现慢SQL情况,但是当我们去分析单条SQL的时候,发现其执行速度并没有那么慢,原因是
MySQL中的 Binlog 深度解析及使用详情

目录配置文件参数说明常用的Binlog操作命令写Binlog的时机 Binlog文件以及扩展 Binlog与Redo log区别 Binlog写入过程二阶段提交 redo 与 binlog 的刷盘时机能否只用 redo log 不要 binlog? Binlog 组提交机制 Binlog的日志格式 Statement Row Mixed Binlog 相关参数清理过期的Binlog日志手工删除binlog 自动删除binlog 用途主从同步复制线程主从复制优化数据恢复 my

mysql中使用sphinx搜索子域名需注意的问题

相关推荐

随机推荐