MongoDB数据库查询性能提高40倍的经历分享

2025-02-22 22:09:28

前言

数据库性能对软件整体性能有着至关重要的影响，本文给大家分享了一次MongoDB数据库查询性能提高40倍的经历，感兴趣的朋友们可以参考学习。

背景说明

1、数据库：MongoDB

2、数据集：

A：字段数不定，这里主要用到的两个UID和Date
B：三个字段，UID、Date、Actions。其中Actions字段是包含260元素JSON数组，每个JSON对象有6个字段。共有数据800万条左右。

3、业务场景：求平均数

通过组合条件从A数据表查询出（UID，Date）列表，最多可能包含数万条记录；
然后用第1步的结果从B中查询出对应的数据
用第2步结果去Actions的某个固定位置的元素的进行计算

进化过程

在这里使用Python演示

最直接想到的方法

根据上面的业务场景描述，最容易想到的解决方法就是

from pymongo import MongoClient
# 连接数据库
db = MongoClient('mongodb://127.0.0.1:27017')['my_db']

# 简化的查询数据集A的条件
filter = {...}
# 查询Collection A
a_cursor = db.a.find(_filter)
a_docs = [x for x in a_cursor]

# 变量的初始定义
count = 0
total = 0
# 加入需要用到的元素为第21个
index = 20
# 查询Collection B，同时做累加
for a_doc in a _docs:
 b_doc = db.b.find_one({'uid':a_doc['uid'], 'date': a_doc['date']})
 # 只有能查到相应的结果时，才可以
 if b_doc is not None:
 total += b_doc['actions'][20]['number']
 count += 1

 # 求平均数
 if count > 0 :
 avg = total/count

实现难度当然是最低的，可是整个任务在第一步只有1万条左右的返回时，消耗的时间竟然达到了惊人38秒。当然这是已经加了索引的结果，否则可能都无法得到结果了。

减少查询次数

瓶颈显而易见，在循环中查询Collection B，增加了网络开销，自然也就增加时间，如果一次查询出所有结果，自然会大大提高效率。也就是说，我要把第一步的结果作为条件一次性传递，做一个$in操作。可是怎么才能做到呢？如果在uid和date上分别做$in操作，那么返回的结果就会是二者单独做$操作的合集，很显然这和要求是不符的。

经过上面的分析，似乎进入了死胡同。其实答案也基本显现了，需要有一个字段可以满足上面的要求，那么这个字段就是uid和date的合体，就命名为uid_date。uid_date是一个新字段，在B中并不存在，在使用之前需要将数据库现有的数据做一下处理。

处理完毕改造程序：

# 下面的只体现和本次修改相关的内容
uid_date_list = []
for a_doc in a_docs:
 uid_date_list.append(a_doc['uid'] + '_' + a_doc['date'])

# 查询B
b_cursor = db.b.find({'uid_date':{'$in':uid_date_list}})

# 下面就是取出结果，求平均数
...

这一番改造颇费时间，主要是前期的数据处理。代码改造完毕，执行下看看吧。

可是，可是…… 45秒

我做错了什么？！

增加返回记录数

我还是坚信上面的优化思路是对的，现在看看数据库能给一些什么线索吧。

登录到数据库服务器，找到MongoDB的日志/data/mongodb/logs/mongod.log。仔细查找，发现在查询数据集B时有很多getMore命令。这就奇怪了，我是一次性查询，为什么还有getMore。

赶紧查下官方的文档，然后发现了下面的内容：

batcSize参数指定了每次返回的个数，默认的101个。那看来这个应该是问题所在。找下pymongo的文档，也可以设置这个参数，那就设个大的吧10000。

再次改造程序如下：

# 增加batch_size
b_cursor = db.b.find({'uid_date':{'$in': uid_date_list}}, batch_size=10000)

这次总该可以了。

嗯，好了一些，降到了20秒左右。可是，这离1秒只能还差距20倍呢。

返回值减负

当日不能放弃，继续通过日志查找线索，发现还是有很多getMore。通过各方查找，发现mongodb每次最多返回16M的记录，通过getMore日志的比对，发现的确如此。由于B中每条记录的过去庞大，每次只能几百条记录，因此要一次多返回，那就必须要减少每次返回的记录数。因为在计算时，只用了特定索引位置上的数据，所以只返回该条记录就可以了。

最后的代码就不再写了，具体可以参考官方文档的实例。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

使用aggregate在MongoDB中查询重复数据记录的方法

MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果.有点类似sql语句中的 count(*). aggregate() 方法 MongoDB中聚合的方法使用aggregate(). 语法 aggregate() 方法的基本语法格式如下所示: >db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION) 我们知道,MongoDB属于文档型数据库,其存储的文档类型都是JSON对象.正是由于这一特性,我们
1亿条记录的MongoDB数据库随机查询性能测试

mongdb性能压力测试,随机查询,数据量1亿条记录操作系统centos6.4x64位从测试结果看,当mongodb将数据全部载入到内存后,查询速度根据文档的大小,性能瓶颈通常会是在网络流量和CPU的处理性能(该次测试中当数据全部在内存后,纯粹的查询速度可以稳定在10W/S左右,系统load可以维持在1以下,由于此时CPU已经被使用到极限了,当并发再大时load值会直线飙升,性能急剧下降). 压力生成服务器与Mongodb服务器基本配置 cpu型号:Intel(R) Xeon(R) CPU
PHP中MongoDB数据库的连接、添加、修改、查询、删除等操作实例

PHP 扩展mongon.mod.dll下载http://cn.php.net/manual/en/mongo.installation.php#mongo.installation.windows 然后php.ini添加 extension=php_mongo.dll 最后phpinfo() 查找到表标PHP已经自带了mongo功能,你就可以操作下面的代码(但是你必须有安装mongodb服务器) 一.连接数据库使用下面的代码创建一个数据库链接复制代码代码如下: <?php $conne
MongoDB的基础查询和索引操作方法总结

查询操作 1.查询所有记录 db.userInfo.find(); 相当于: select* from userInfo; 2.查询去掉后的当前聚集集合中的某列的重复数据 db.userInfo.distinct("name"); 会过滤掉name中的相同数据相当于: select disttince name from userInfo; 3.查询age = 22的记录 db.userInfo.find({"age": 22}); 相当于: select * f
MongoDB查询性能优化验证及验证

结论: 1. 200w数据,合理使用索引的情况下,单个stationId下4w数据.mongodb查询和排序的性能理想,无正则时client可以在600ms+完成查询,qps300+.有正则时client可以在1300ms+完成查询,qps140+. 2. Mongodb的count性能比较差,非并发情况下client可以在330ms完成查询,在并发情况下则需要1-3s.可以考虑估算总数的方法,http://blog.sina.com.cn/s/blog_56545fd30101442b.htm
MongoDB数据查询方法干货篇

本文主要给大家介绍了MongoDB数据查询的相关内容,对大家具有一定的参考价值,需要的朋友们一起来学习学习吧. 导入测试数据在开始之前我们应该先准备数据方便演示,这里我插入的了几条数据,数据如下: db.user.insertMany( [{ name:'jack', age:22, sex:'Man', tags:['python','c++','c'], grades:[22,33,44,55], school:{ name:'shida', city:'xuzhou' } },{ nam
MongoDB查询技巧总结

在MongoDB中db.collection.find()方法用于从集合中检索文档.db.collection.find()方法返回一个检索到文档的游标.db.collection.findOne()方法也执行读操作,返回一条文档.在内部实现上,db.collection.findOne()方法是db.collection.find()使用limit 1. 查询集合中的所有文档: 1.一个空的query文档({})可以查出一个集合中的所有文档: 复制代码代码如下: db.inventory.f
MongoDB各种查询操作详解

一.find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可以实现全部和部分查询. 1.查询全部空的查询文档{}会匹配集合的全部内容.如果不指定查询文档,默认就是{}. 2.部分查询 3.键的筛选键的筛选是查询时只返回自己感兴趣的键值,通过指定find的第二个参数来实现.这样可以节省传输的数据量,又能节省客户端解码文档的时间和内存消耗. 查询时,数据库所关心的查询文档的值必须是常量. 二.查询条件 1.比较查询 $lt,$lte,$gt,$gte,$ne和<,<
MongoDB数据库查询性能提高40倍的经历分享

前言数据库性能对软件整体性能有着至关重要的影响,本文给大家分享了一次MongoDB数据库查询性能提高40倍的经历,感兴趣的朋友们可以参考学习. 背景说明 1.数据库:MongoDB 2.数据集: A:字段数不定,这里主要用到的两个UID和Date B:三个字段,UID.Date.Actions.其中Actions字段是包含260元素JSON数组,每个JSON对象有6个字段.共有数据800万条左右. 3.业务场景:求平均数通过组合条件从A数据表查询出(UID,Date)列表,最多可能包含数万条
MySQL数据库查询性能优化策略

优化查询使用Explain语句分析查询语句 Explain 用来分析 SELECT 查询语句,开发人员可以通过分析 Explain 结果来优化查询语句. 通过对查询语句的分析,可以了解查询语句的执行情况,找出查询语句执行的瓶颈,从而优化查询语句. 使用索引查询 MySql中提高性能的一个最有效的方式就是对数据表设计合理的索引. 索引提供了高效访问数据的方法,并且加快查询速度. 如果查询时没有使用索引,那么查询语句将扫描表中所有的记录.在数据量大的时候,这样查询速度会很慢. 使用索引进行查询,查
MySQL数据库查询性能优化的4个技巧干货

目录前言 SQL的执行频率慢查询日志 show profiles详情分析 explain执行计划 1.ID参数 2.select_type参数 3.type参数前言 MySQL性能优化是一个老生常谈的问题,无论是在实际工作中还是面试中,都不可避免遇到相应的场景,下面博主就总结一些能够帮助大家解决这个问题的小技巧. SQL优化之前需要确认哪些SQL需要优化,这时就需要引起SQL性能分析工具,主要优化的是查询语句. SQL的执行频率 SQL性能优化一般是针对查询语句,所以在定位是否需要优化之前
如何在一个千万级的数据库查询中提高查询的效率?

在实际项目中,当数据库的数据达到千万级别时候,普通查询效率直线下降,而且当使用的where条件较多,其查询效率是让人无法容忍的.假如一个taobao订单查询详情要几十秒,可想而知的用户体验是多差. 下面是一些优化方法: 一.数据库设计方面 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引: 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t w
JAVA下单接口优化实战TPS性能提高10倍

概述最近公司的下单接口有些慢,老板担心无法支撑双11,想让我优化一把,但是前提是不允许大改,因为下单接口太复杂了,如果改动太大,怕有风险.另外开发成本和测试成本也非常大.对于这种有挑战性的任务,我向来是非常喜欢的,因为在解决问题的过程中,可以学习到很多东西. 当时我只是知道下单接口慢,但是没人告诉我慢在哪里,也即是说,哪些瓶颈导致下单接口慢了.其实没人知道也没关系的,因为我们可以通过压测来找到具体的瓶颈. 下面会详细介绍一下,在本次压测中遇到的问题以及如何解决,期间用了什么工具. 用到的工具和
数据库查询性能需注意几点经验

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询: select id from t where num=0 3.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放
将你的Apache速度提高十倍的经验分享

这个神通广大的模块就是mod_gzip. 它通过用和gzip一样的压缩算法对apache发出的页面进行压缩,可能的话可以把页面压缩成为原来大小的十份之一.哪,如果10K的页面只要传1K这不就是提速10倍嘛.当然一般网页只可以达到3-6倍.那也很不错.对吧.连google这样一个大的网站都采用这个技术.你还不快跟上? 这样一个好东东,来来来,我告诉你如何安装:分3步,1.下载,2.修改配置,3.测试. 1.下载到http://www.remotecommunications.com/apache
MongoDB创建一个索引而性能提升1000倍示例代码

MongoDB 创建索引的语法 1.为普通字段添加索引,并且为索引命名 db.集合名.createIndex( {"字段名": 1 },{"name":'idx_字段名'}) 说明: (1)索引命名规范:idx_<构成索引的字段名>.如果字段名字过长,可采用字段缩写. (2)字段值后面的 1 代表升序:如是 -1 代表降序. 2.为内嵌字段添加索引 db.集合名.createIndex({"字段名.内嵌字段名":1},{"
Thinkphp使用mongodb数据库实现多条件查询方法

有个项目用了mongodb数据库,查询条件有and也有or,按Thinkphp官方手册,使用复合查询(_complex),getLastSql输出查询语句,发现查询条件是空的.用字符串模式查询(_string),请求字符串查询(_query)无法满足需求.估计用mongodb的用户不多,thinkphp官方对这方面支持也不够.打开thinkphp的mongodb驱动,Thinkphp/Extend/Driver/Db/DbMongo.class.php,找到protected function
Linux下MongoDB数据库实现自动备份详解

本文主要给大家介绍的是关于Linux下MongoDB数据库实现自动备份的相关内容,分享出来供大家参考学习,下面来一起看看详细的介绍: 一.创建MongoDB备份目录 mkdir -p /data/mongodb_bak/mongodb_bak_now mkdir -p /data/mongodb_bak/mongodb_bak_list 二.新建MongoDB数据库备份脚本(/data/mongodb_bak/MongoDB_bak.sh) #!/bin/bash #backup MongoDB

MongoDB数据库查询性能提高40倍的经历分享

相关推荐

随机推荐