浅析MySQL的基数统计

2025-04-02 16:29:32

一、基数是啥？
Cardinality指的就是MySQL表中某一列的不同值的数量。

如果这一类是唯一索引，那基数 = 行数。

如果这一列是sex，枚举类型只有男女，那它是基数就是2

Cardinality越高，列就越有成为索引的价值。MySQL执行计划也会基于Cardinality选择索引。

通过下面的方式可以看到表中各列的基数。

比如这个经典的例子：
有一列为sex，那对于sex列中存储的值来说非男即女，它的基数最大就是2。
那也就完全没有必要为sex建立索引。因为，为了提升你基于sex的查询速度，MySQL会为你选择的这个新索引创建一棵全新的B+Tree。但你sex只有两种值，对于MySQL来说，即使它为你指定的列建立了B+Tree索引，真正执行查询时，最多进行一次二分查询，剩下的操作只能是遍历，所以为sex创建索引意义不大。

二、InnoDB更新基数的时机？
参数：innodb_stats_auto_recalc控制MySQL是否主动重新计算这些持久性的信息。默认为1表示true，0表示false。
默认情况下当表中的行变化超过10%时，重新计算基数信息。

三、基数是估算出来

基数并不会实时更新！而且它是通过采样估算出来的值！

至于基数的公式是怎样的，可能并不重要。

重要的是你得知道，他是通过随机采样数据页的方式统计出来的一个估算值。

而且随机采样的页数可以通过参数innodb_stats_persistent_sample_pages 设置，默认值是20。

这就意味着基数值并不准确，甚至你每次计算的结果相擦还是蛮大的。

四、持久化基数

可以通过参数innodb_stats_persistent 控制是否持久化基数，默认为off。

当然你可以为一个单独的表设置 STATS_PERSISTENT=1 那么它的 innodb_stats_persistent将自动被启用。

开启它的好处是：重启MySQL不会再重复计算这个值，加快重启速度。

五、如何主动更新基数？

执行下面的SQL时都会触发InnoDB更新基数（即使你并没有意识到它会更新基数）。

所以尽量选择一个业务低峰期

analyze table tableName;

如果因为采样的数量太少了，计算的基数错的离谱。那很可能会导致MySQL的优化器选错索引。这是你可以将这个值适当调大。但是增加太多可能会导致 ANALYZE TABLE运行缓慢。

反之， ANALYZE TABLE运行太慢。你可以适度调整参数innodb_stats_persistent_sample_pages 的值。但是这又可能导致基数计算的不准确。

如果没有办法平衡两者的关系。可以考虑减少表中索引列的数量或限制分区的数量以降低 ANALYZE TABLE复杂性。表的主键中的列数也很重要，因为主键列被附加到每个非唯一索引中。

参考：

https://dev.mysql.com/doc/refman/5.7/en/innodb-persistent-stats.html

https://dev.mysql.com/doc/refman/5.7/en/innodb-analyze-table-complexity.html

以上就是浅析MySQL的基数统计的详细内容，更多关于MySQL 基数统计的资料请关注我们其它相关文章！

MySQL 8.0统计信息不准确的原因

前言不管是Oracle还是MySQL,新版本推出的新特性,一方面给产品带来功能.性能.用户体验等方面的提升,另一方面也可能会带来一些问题,如代码bug.客户使用方法不正确引发问题等等. 案例分享 MySQL 5.7下的场景 (1)首先,创建两张表,并插入数据 mysql> select version(); +------------+ | version() | +------------+ | 5.7.30-log | +------------+ 1 row in set (0.00 s
sqlserver/mysql按天、按小时、按分钟统计连续时间段数据

一,写在前面的话最近公司需要按天,按小时查看数据,可以直观的看到时间段的数据峰值.接到需求,就开始疯狂百度搜索,但是搜索到的资料有很多都不清楚,需要自己去总结和挖掘其中的重要信息.现在我把分享出来了呢,希望大家喜欢. 针对sqlserver, 有几点需要给大家说清楚(不懂的自行百度): •master..spt_values 是什么东西?能用来做什么? •如何产生连续的时间段(年, 月, 天,小时,分钟) 二,master..spt_values是什么东西?能用来做什么呢? 相对固定通用的取数
mysql实现多表关联统计(子查询统计)示例

本文实例讲述了mysql实现多表关联统计的方法.分享给大家供大家参考,具体如下: 需求: 统计每本书打赏金额,不同时间的充值数据统计,消费统计, 设计四个表,book 书本表,orders 订单表 reward_log打赏表 consume_log 消费表 ,通过book_id与book表关联, 问题: 当关联超过两张表时导致统计时数据重复,只好用子查询查出来,子查询只能查一个字段,这里用CONCAT_WS函数将多个字段其拼接实现: 查询代码如下 SELECT b.id, b.book_
Mysql出生日期转换为年龄并分组统计人数的方法示例

查询数据库 SELECT * FROM `student` 查询结果 id name birthday 1 张三 1970-10-01 2 李四 1990-10-01 3 王五 2002-10-01 4 马六 2003-10-01 转换为年龄的查询语句,使用函数TIMESTAMPDIFF SELECT id, name, birthday, TIMESTAMPDIFF(YEAR,student.birthday,CURDATE()) as age FROM `student` 查询结果 d na
详解mysql 获取某个时间段每一天、每一个小时的统计数据

获取每一天的统计数据做项目的时候需要统对项目日志做分析,其中有一个需求是获取某个给定的时间段内,每一天的日志数据,比如说要获取从2018-02-02 09:18:36到2018-03-05 23:18:36这个时间段内,统计出每一天的日志数据,一般情况下,看到这种需求都是考虑使用函数来搞定,直接上sql语句 SELECT DATE_FORMAT(trigger_time, '%Y-%m-%d') triggerDay, COUNT(id) triggerCount FROM `job_qrtz
一个Shell小脚本精准统计Mysql每张表的行数实现

前言对于开发或者运维人员来说,Mysql数据库每张表的数量肯定是要了解下,有助于我们清理无用数据或者了解哪张表比较占用空间. 另外多次统计表的行数,还能发现Mysql表的增量情况,能够预测表未来会有多大的量. 废话不多说,直接带大家写一个简单的Shell小脚本循环获取数据库名直接上Shell代码,show databases获取所有的库名.结果有一个我们不想要的,就是Database,这个grep -v掉,轻松获取所有数据库 [root@shijiangeit ~]# mysql -h 1
概述MySQL统计信息

MySQL执行SQL会经过SQL解析和查询优化的过程,解析器将SQL分解成数据结构并传递到后续步骤,查询优化器发现执行SQL查询的最佳方案.生成执行计划.查询优化器决定SQL如何执行,依赖于数据库的统计信息,下面我们介绍MySQL 5.7中innodb统计信息的相关内容. MySQL统计信息的存储分为两种,非持久化和持久化统计信息. 一.非持久化统计信息非持久化统计信息存储在内存里,如果数据库重启,统计信息将丢失.有两种方式可以设置为非持久化统计信息: 1 全局变量, INNODB_STATS
MySQL按时间统计数据的方法总结

在做数据库的统计时,经常会需要根据年.月.日来统计数据,然后配合echarts来制作可视化效果. 数据库:MySQL 思路按照时间维度进行统计的前提是需要数据库中有保留时间信息,建议是使用MySQL自带的datetime类型来记录时间. `timestamp` datetime DEFAULT NULL, 在MySQL中对于时间日期的处理的函数主要是DATE_FORMAT(date,format).可用的参数如下格式描述 %a 缩写星期名 %b 缩写月名 %c 月,数值 %D 带有英文前缀
php 广告点击统计代码(php+mysql)

php 广告点击统计代码,昨天晚上有几个IDC网想与本站合作放些广告,但是我想看看广告效果后想了就写了一个简单的广告统计代码了,这里只是等的统计不能IP限制或是恶心点击等等了. 先来创建数据库. CREATE TABLE IF NOT EXISTS `ad_count` ( `ad_id` int(8) NOT NULL auto_increment, `ad_hit` int(8) NOT NULL default '0', `ad_name` varchar(200) character s
laravel实现按月或天或小时统计mysql数据的方法

在PHP里怎么比较简单的实现按时间(如按月,按天,按小时)来统计表里的数据呢? 如:要实现获取下图曲线图数据(ps:当然也可能是柱状图等,数据都是一样的),默认获取七天内的数据,点击今天,7天,15天,30天可任意切换,其中今天是按小时统计. 不过我的实现方法有一个小缺点,当某个小时内是没有数据的,那么该小时不会出现,不过这个应该可以通过前端的形式弥补好了,废话不多说,上图上代码! 1. 控制器内容 /** * [getsellerdata 获取某时间段内商户结算查询数据] * @param
PHP+MySQL实现对一段时间内每天数据统计优化操作实例

本文实例讲述了PHP+MySQL实现对一段时间内每天数据统计优化操作.分享给大家供大家参考,具体如下: 在互联网项目中,对项目的数据分析必不可少.通常会统计某一段时间内每天数据总计变化趋势调整营销策略.下面来看以下案例. 案例在电商平台中通常会有订单表,记录所有订单信息.现在我们需要统计某个月份每天订单数及销售金额数据从而绘制出如下统计图,进行数据分析. 订单表数据结构如下: order_id order_sn total_price enterdate 25396 A4E610E250C2D
浅谈MySQL 统计行数的 count

MySQL count() 函数我们并不陌生,用来统计每张表的行数.但如果你的表越来越大,且是 InnoDB 引擎的话,会发现计算的速度会越来越慢.在这篇文章里,会先介绍 count() 实现的原理及原因,然后是 count 不同用法的性能分析,最后给出需要频繁改变并需要统计表行数的解决方案. Count() 的实现 InnoDB 和 MyISAM 是 MySQL 常用的数据引擎,由于两者实现的不同,导致 count() 操作计算的效率也不同. 对于 MyISAM 来说,它把每个表的总行数都存在

浅析MySQL的基数统计

相关推荐

随机推荐