mysql大数据查询优化经验分享(推荐)

2025-04-11 10:02:39

正儿八经mysql优化！

mysql数据量少，优化没必要，数据量大，优化少不了，不优化一个查询10秒，优化得当，同样查询10毫秒。

这是多么痛的领悟！

mysql优化，说程序员的话就是：索引优化和where条件优化。

实验环境：MacBook Pro MJLQ2CH/A，mysql5.7，数据量：212万+

ONE：

 select * from article
 INNER JOIN (
 SELECT id
 FROM article
 WHERE
  length(content_url) > 0 and
  (select status from source where id = article.source_id)=1 and
  (select status from category where id = article.category_id)=1 and
  status = 1 and id < 2164931
 order by stick desc,pub_time desc
 limit 240,15
 ) AS t
USING(id);

咋一看，大佬肯定会想杀了我，没事做啥自关联，还是inner join。XX楼的，把我的杀猪刀拿来，我要宰了博主！！！

说实话，早上出门我的脑袋没被门挤，我也不想这样的。

1.数据量大了，你要做offset很大的分页查询，还真的这样提速，原因 ---> 用join子表中的id覆盖到全表，避免全表扫描。

看我的order by（细语：不就是个order by，TM谁不会写），你把这个order by换成你自己的表中的字段desc or explain看看。Extra ---> filesort ! shit !

2.针对这种多个条件的order by，通常我们会直接给两个字段分别加index，然而还是会Extra ---> filesort。另辟蹊径，给order by后面的所有条件加一个联合索引，注意顺序一定要和你的order by顺序一致。这样Extra就只剩下where了。

再看看where，(select status from source where id = article.source_id)=1 and ...又啥JB写法！

3.想过用join+index的方式，最后测试出来，和这种方式几乎无差别。生产环境是这样写的，那就这样吧，还能少两个索引（source_id，category_id），懒病犯了谁都阻挡不了，以后吃亏了又回来继续优化呗。

4.这个点是我昨晚才get到的，where条件的满足顺序是优先满足最后一个条件，从右到左，经过删除index测试，确实有效果，能从6秒降到4秒，优化了index之后再次测试发现顺序对耗时影响几乎可以忽略不计，0.X毫秒。

TWO：

 select * from article
 INNER JOIN (
 SELECT id FROM article WHERE INSTR(ifnull(title,''),'战狼') > 0 and status != 9
 order by pub_time desc
 limit 100,10

 ) AS t USING(id);

嗯——又是inner join.......

INSTR(ifnull(title,''),'战狼') > 0，为啥不用like......

1.考虑到这是管理平台的搜索，没有去搜索引擎上搜，搜索引擎是一个小时才同步一次数据，数据不全。管理人员搜索时只管他要的结果，like %XX%不能走索引，效率比instr低了5倍，又测试了regexp '.*XX*.'，还是比instr耗时多一点，索性.....

desc or explain看看，filesort.....给pub_time加个index看看，还是filesort.....

2.这种情况有另外一种方案，SELECT id FROM article force index(pub_time)，指定使用这个索引。但是这种写法太缺灵活性了，OUT！百度一下，有高人指点迷津：把status和pub_time建个联合索引（pub_time_status，order的条件在前），让where查询的时候，把这个index自动force上。

THREE：

select * from article where status != 9 order by pub_time desc limit 100000,25;
desc or explain，还是filesort.....前面不是给status和pub_time建了联合索引了吗，tell me why......

好吧，我也不知道，把status和pub_time再建个联合索引status_pub_time，这次where条件在前，explain没filesort了，但是这个index却没有被使用，它勾搭出了pub_time_status。搞不懂啊

同时我又explain了TWO的SQL，都是如下图：

这二者中删除任何一个都不行，删除一个，就有sql会filesort！

FOUR：

SELECT * from follow
 where (((SELECT status FROM source WHERE id=follow.source_id)=1 and follow.type=1) or ((select status from topic WHERE id=follow.source_id)=1 and follow.type=2)) AND user_id=10054
 ORDER BY sort limit 15,15;
 SELECT * from follow inner join(
 SELECT id from follow
 where (((SELECT status FROM source WHERE id=follow.source_id)=1 and follow.type=1) or ((select status from topic WHERE id=follow.source_id)=1 and follow.type=2)) AND user_id=10054
 ORDER BY sort limit 15,15
 ) as t using(id);
 (SELECT id, source_id, user_id, temporary, sort, follow_time, read_time,type from follow where (SELECT status FROM source WHERE id=follow.source_id)=1 and follow.type=1 and user_id=10054)
 union all
 (SELECT id, source_id, user_id, temporary, sort, follow_time, read_time,type from follow where (select status from topic WHERE id=follow.source_id)=1 and follow.type=2 and user_id=10054)
 ORDER BY sort limit 15,15;

看看这三句sql，interesting，是不是！

为了公平起见，我已经优化了索引，user_id_sort(user_id,sort)，让where在用user_id判断时force上这个索引。

第一句：0.48ms

第二句：0.42ms

第三句：6ms，导致时间长那么多的原因是union(查询两次表，合并成子表)后不能用index覆盖到order by的sort上

有的时候union不一定比or快。

总结

以上所述是小编给大家分享的mysql大数据查询优化经验，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！

30个mysql千万级大数据SQL查询优化技巧详解

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则引擎将放弃使用
vue大数据表格卡顿问题的完美解决方案

前言 vue渲染小数据挺快,大数据vue开始出现卡顿现象,本文讲给大家详细介绍关于vue大数据表格卡顿问题的解决方法点我在线体验Demo(请用电脑查看) 亲测苹果电脑,chrome浏览器无卡顿现象,其它浏览器并未测试,如遇到卡顿请备注系统和浏览器,方便我后续优化,谢谢先看一下效果,一共1000 X 100 = 10W个单元格基本感受不到卡顿,而且每个单元格点击可以编辑,支持固定头和固定列项目源代码地址 Github (本地下载) 解决问题核心点:横向滚动加载,竖向滚动加载项目背景笔者最
Python3实现将本地JSON大数据文件写入MySQL数据库的方法

本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法.分享给大家供大家参考,具体如下: 最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使用本地文件,选择python来分析,那么效率是非常低的:另一方面使用SQL来储存文本文件最为安全,之前使用CSV,txt存储的文本文件最后莫名其妙地出现一些奇怪字符,导致读取数据分割时出现错乱.下面给出一个简单的代码,将本地JSON文件内容存入数据库. 说明:python版本为3.5,使用第三方库为
为什么入门大数据选择Python而不是Java?

马云说:"未来最大的资源就是数据,不参与大数据十年后一定会后悔."毕竟出自wuli马大大之口,今年二月份我开始了学习大数据的道路,直到现在对大数据的学习脉络和方法也渐渐清晰.今天我们就来谈谈学习大数据入门语言的选择.当然并不只是我个人之见,此外我搜集了各路大神的见解综合起来跟大家做个讨论. java和python的区别到底在哪里? 官方解释:Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承.指针等概念,因此Java语言具有功能强大和简单易
2019最新系统学习路线零基础如何转行大数据

都知道大数据薪资高,前景好.而大数据又需要Java基础.对于稍微懂些Java的童鞋来说,到底如何转行大数据呢?今天小编给你一个大数据工程师具体的学习路线图.[ps:无java基础也可以学习大数据] 分享转行经验路线对于Java程序员,大数据的主流平台hadoop是基于Java开发的,所以Java程序员往大数据开发方向转行从语言环境上更为顺畅,另外很多基于大数据的应用框架也是Java的,所以在很多大数据项目里掌握Java语言是有一定优势的. 当然,hadoop核心价值在于提供了分布式文件系统和分
mysql大数据查询优化经验分享(推荐)

正儿八经mysql优化! mysql数据量少,优化没必要,数据量大,优化少不了,不优化一个查询10秒,优化得当,同样查询10毫秒. 这是多么痛的领悟! mysql优化,说程序员的话就是:索引优化和where条件优化. 实验环境:MacBook Pro MJLQ2CH/A,mysql5.7,数据量:212万+ ONE: select * from article INNER JOIN ( SELECT id FROM article WHERE length(content_url) > 0 an
Mysql大数据量查询优化思路详析

目录 1. 千万级别日志查询的优化 2. 几百万黑名单库的查询优化 3. Mybatis批量插入处理问题项目场景: Mysql大表查询优化,理论上千万级别以下的数据量Mysql单表查询性能处理都是可以的. 问题描述: 在我们线上环境中,出现了mysql几千万级别的日志查询.几百万级别的黑名单库查询分页查询及条件查询都慢的问题,针对Mysql表优化做了一些优化处理. 原因分析:首先说一下日志查询,在Mysql中如果索引加的比较合适,走索引情况下千万级别查询不会超过一秒,Mysql查询的速度和检索
使用bootstrap validator的remote验证代码经验分享(推荐)

这里需要说一下,bootstrapvalidator的帮助文档写的比较简单,对于remote验证器的说明更是如此,在经历多方测试之后才明白如何使用这个验证器. 一个典型的ajax验证代码如下: 服务端验证代码(使用spring mvc)如下: /* * 返回String类型的结果 * 检查用户名的合法性,如果用户已经存在,返回false,否则返回true(返回json数据,格式为{"valid",true}) */ @RequestMapping(value = "/chec
MySQL从库维护经验分享

前言: MySQL 主从架构应该是最常用的一组架构了.从库会实时同步主库传输来的数据,一般从库可以作为备用节点或作查询使用.其实不只是主库需要多关注,从库有时候也要经常维护,本篇文章将会分享几点从库维护经验,一起来学习吧. 1.主从复制建议采用 GTID 模式 GTID 即全局事务 ID(Global Transaction ID),GTID 实际上是由 server_uuid:transaction_id 组成的.其中 server_uuid 是一个 MySQL 实例的唯一标识, transa
php 在线导入mysql大数据程序

php 在线导入 mysql 大数据程序 <?php header("content-type:text/html;charset=utf-8"); error_reporting(E_ALL); set_time_limit(0); $file='./test.sql'; $data=file($file); echo "<pre>"; //print_r($data); $data_new=array(); $tmp=array(); fore
浅谈Mysql大数据分页查询解决方案

目录 1.简介 2.分页插件使用 3.sql测试与分析 3.1 limit现象分析 3.2 解决之道 4 测试时走过的坑 4.1 百万数据内容都一样 4.2 写sql时,把"77"写成了77: 4.3 一个有趣的现象总结 1.简介之前,面阿里的时候,有个面试官问我有没有使用过分页查询,我说有,他说分页查询是有问题的,怎么解决:后来这个问题我没有回答出来:本着学习的态度,今天来解决一下这个问题: 2.分页插件使用 1.pom文件 <dependency> <grou
mysql innodb 异常修复经验分享

一套测试用的mysql库,之前用的centos6默认源里的mysql 5.1.71的版本 .后来想试用下Percona server 5.7,由于这套库里没有什么重要数据 .所以操作前也未进行备份,配置好源后,直接就进行了安装.数据文件也存放在默认位置,安装完成后,直接启动mysql,发现启动失败,发现无法启动正常启动. 一.回退重新装mysql 为避免再从其他地方导入这个数据的麻烦,先对当前库的数据库文件做了个备份(/var/lib/mysql/位置).接下来将Percona server 5
MySQL 大数据量快速插入方法和语句优化分享

锁定也将降低多连接测试的整体时间,尽管因为它们等候锁定最大等待时间将上升.例如: 复制代码代码如下: Connection 1 does 1000 inserts Connections 2, 3, and 4 do 1 insert Connection 5 does 1000 inserts 如果不使用锁定,2.3和4将在1和5前完成.如果使用锁定,2.3和4将可能不在1或5前完成,但是整体时间应该快大约40%. INSERT.UPDATE和DELETE操作在MySQL中是很快的,通过为在
javaweb学习总结——使用JDBC处理MySQL大数据

BLOB (binary large object),二进制大对象,是一个可以存储二进制文件的容器.在计算机中,BLOB常常是数据库中用来存储二进制文件的字段类型,BLOB是一个大文件,典型的BLOB是一张图片或一个声音文件,由于它们的尺寸,必须使用特殊的方式来处理(例如:上传.下载或者存放到一个数据库). 一.基本概念在实际开发中,有时是需要用程序把大文本或二进制数据直接保存到数据库中进行储存的. 对MySQL而言只有blob,而没有clob,mysql存储大文本采用的是Text,Text和
MYSQL大数据导入

感谢XP提供的代码! 在这里记录一下,因为以后学要用:作用资料查询之用! 第一步:mysql -h localhost -uroot 第二步:show databases; 第三步:use changchunmap; 第四步:show tables; 第五步:load data local infile "d:/c.txt" replace into table changchunmap fields terminated by ' '; 没有了: load data

mysql大数据查询优化经验分享(推荐)

相关推荐

随机推荐