pymongo中聚合查询的使用方法

前言

在使用mongo数据库时,简单的查询基本上可以满足大多数的业务场景,但是试想一下,如果要统计某一荐在指定的数据中出现了多少次该怎么查询呢?笨的方法是使用find 将数据查询出来,再使用count() 方法进行数据统计,这个场景还好,但是如果要求其中某个字段的和呢?是不是就非得遍历出相应的数据然后再进行求和运算呢?

在mysql中我们经常会用到count、group by 等查询,在mongodb中我们也可以使用聚合查询。

假设有这样的一组数据


价格

里面记录了每种水果的价格,现在我要统计一下,各种水果在这张表中出现的次数,如果不用聚合查询的话,思路应该是这样,先把表中所有的数据都取出来,然后初始化一个字典,然后再遍历每一行的数据,获取它的fName ,然后再更新字典中的计数,这种方法的时间复杂度是O(N)的,如果数据量很大的话不是很好,下面来看一下使用聚合是怎么查询的。

聚合查询使用的是aggregate函数,它的参数是 pipeline 管道,管道的概念是用于将当前命令的输出结果作为下一个命令的参数,管道是有顺序的,比如通过第一个管道操作以后没有符合的数据那么之后的管道操作也就不会有输入,所以一定得要注意管道操作的顺序。由于对于上述问题,我们要的是所的数据统计,所以这里就不需要$match了

from pymongo import MongoClient

client = MongoClient(host=['%s:%s'%(mongoDBhost,mongoDBport)])
G_mongo = client[mongoDBname]['FruitPrice']

pipeline = [
 {'$group': {'_id': "$fName", 'count': {'$sum': 1}}},
 ]
for i in G_mongo['test'].aggregate(pipeline):
 print i

数据大家可以自已构造,这里主要是看aggregate的用法。
得到的结果是

{u'count': 8, u'_id': u'banana'}
{u'count': 9, u'_id': u'pear'}
{u'count': 14, u'_id': u'apple'}

可以看到,一步操作就可以得到相应的统计了。

如果想要获取价格在50以上的各种统计呢?

这时有pipeline应该再$group 之前加上$match 操作

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName", 'count': {'$sum': 1}}},
 ]

一定要注意顺序

$match里的条件其实就和使用find函数里是一样的。

下面重点来说说$group操作,group意为分组,指数据根据哪个字段进行分组,上面使用的{'$group': {'_id': "$fName", 'count': {'$sum': 1},_id为所要分的组,这里是以fName字段分的,后面的'count': {'$sum': 1},这里的$sum就是求和的意思,后面的值是1,也就是说每出现一次就加1,这样就能达到计数的目的了,如果要计算价格 price 的和,那么这里就应该写成这样

{'$group': {'_id': "$fName", 'count': {'$sum': '$price'}}}

注意这里的字段要有$ 的,如果我想要求价格的平均值呢?也就是先要求出价格的总数,再除以商品的个数,但是这里有一个$avg 操作

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName", 'avg': {'$avg': '$price'}}},
 ]

得到的结果

{u'_id': u'banana', u'avg': 66.200000000000003}
{u'_id': u'pear', u'avg': 77.0}
{u'_id': u'apple', u'avg': 74.0}

类似于$ave的操作还有很多,比较常用的是$min(求最小值),$max(求最大值)

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': "$fName",
  'count':{'$sum':1},
  'priceAll':{'$sum':'$price'},
  'avg': {'$avg': '$price'},
  'min': {'$min':'$price'},
  'max': {'$max':'$price'}
  }
 },
 ]
for i in G_mongo['test'].aggregate(pipeline):
 print i

所有支持的操作可以参考官方文档:group 支持的操作

以哪个字段进行分组时必须使用_id。

接下来看一下多键分组。

以上在使用group 进行分组查询的时候,用到的_id都是单一字段,比如我的数据库中有如下数据


带用户的数据

带有一个user 字段了,那如果我要根据user和fName进行分组该如何操作呢?
这里可以传一个字典进去

pipeline = [
 {'$match':{'price':{'$gte':50}}},
 {'$group': {'_id': {'fName':'$fName','user':'$user'},
  'count':{'$sum':1},
  'priceAll':{'$sum':'$price'},
  'avg': {'$avg': '$price'},
  'min': {'$min':'$price'},
  'max': {'$max':'$price'}
  }
 },
 ]
for i in G_mongo['test2'].aggregate(pipeline):
 print i

得到的结果如下:

{u'count': 1, u'avg': 93.0, u'min': 93, u'max': 93, u'_id': {u'user': u'fanjieying', u'fName': u'pear'}, u'priceAll': 93}
{u'count': 2, u'avg': 88.0, u'min': 87, u'max': 89, u'_id': {u'user': u'yangyanxing', u'fName': u'banana'}, u'priceAll': 176}
{u'count': 2, u'avg': 70.0, u'min': 69, u'max': 71, u'_id': {u'user': u'yangyanxing', u'fName': u'pear'}, u'priceAll': 140}
{u'count': 2, u'avg': 65.5, u'min': 58, u'max': 73, u'_id': {u'user': u'fanjieying', u'fName': u'banana'}, u'priceAll': 131}
{u'count': 3, u'avg': 92.333333333333329, u'min': 86, u'max': 97, u'_id': {u'user': u'fantuan', u'fName': u'banana'}, u'priceAll': 277}
{u'count': 2, u'avg': 78.5, u'min': 73, u'max': 84, u'_id': {u'user': u'yangyanxing', u'fName': u'apple'}, u'priceAll': 157}
{u'count': 3, u'avg': 56.666666666666664, u'min': 51, u'max': 60, u'_id': {u'user': u'fantuan', u'fName': u'pear'}, u'priceAll': 170}
{u'count': 2, u'avg': 81.5, u'min': 73, u'max': 90, u'_id': {u'user': u'fanjieying', u'fName': u'apple'}, u'priceAll': 163}
{u'count': 2, u'avg': 69.5, u'min': 53, u'max': 86, u'_id': {u'user': u'fantuan', u'fName': u'apple'}, u'priceAll': 139}

这里的结果显示出每个用户买了哪个商品,一共花了多少钱,最大最小平均值等都可以一次性的展示了,如果要是使用for循环自已遍历的话这种时间复杂度相当高。

这里只是简单的说了下$group和$match 的用法,聚合查询支持很多种操作(称为stages),可以通官方文档进行查看
pymongo 中pipeline中的stages

参考文章

pymongo 的 group by 方法

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。

(0)

相关推荐

  • pymongo给mongodb创建索引的简单实现方法

    本文实例讲述了pymongo给mongodb创建索引的简单实现方法.分享给大家供大家参考.具体如下: 下面的代码给user的user_name字段创建唯一索引 import pymongo mongo = pymongo.Connection('localhost') collection = mongo['database']['user'] collection.ensure_index('user_name', unique=True) 希望本文所述对大家的Python程序设计有所帮助.

  • Python3安装Pymongo详细步骤

    本篇教程展示如何安装Pymongo库,编辑器使用的当然是pycharm. 准备 我们这里直接使用pycharm来安装Pymongo库,和pycharm的mongodb相关管理插件. 安装Pymongo 这个借助pycharm来安装非常简单.首先根据下面的菜单路径打开相关窗口. 复制代码 代码如下: pycharm : File > Settings > Project python > Project InterPreter 到了上面这一步,应该可以看到一个库的列表,里面列举着一些你常用

  • python之PyMongo使用总结

     PyMongo是什么 PyMongo是驱动程序,使python程序能够使用Mongodb数据库,使用python编写而成. 安装 环境:Ubuntu 14.04+python2.7+MongoDB 2.4 先去官网下载软件包,地址点击打开链接.解压缩后进入,使用python setup.py install 进行安装 或者用pip安装pip -m install pymongo 基本使用 创建连接 import pymongo client = pymongo.MongoClient('loc

  • PyMongo安装使用笔记

    这里是简单的安装和使用记录,首先要有一个可用的mongo环境,win环境或者linux环境都可以. 假定你对mongo有所了解和知道一些命令行操作. 安装和更新 跟大多数py包安装一样,可以源码安装,也可以使用pip或者easy_install来安装 安装 复制代码 代码如下: pip install pymongo 升级 复制代码 代码如下: pip install --upgrade pymongo 其他安装方法请参照文档pymongo安装 操作 官网教程 小案例 复制代码 代码如下: #-

  • pymongo为mongodb数据库添加索引的方法

    本文实例讲述了pymongo为mongodb数据库添加索引的方法.分享给大家供大家参考.具体实现方法如下: from pymongo import ASCENDING, DESCENDING posts.create_index([("date", DESCENDING), ("author", ASCENDING)]) 返回: u'date_-1_author_1' 希望本文所述对大家的Python程序设计有所帮助.

  • Python3中使用PyMongo的方法详解

    前言 本文主要给大家介绍的是关于在Python3使用PyMongo的方法,分享出来供大家参考学习,下面话不多说了,来一起看看详细介绍: MongoDB存储 在这里我们来看一下Python3下MongoDB的存储操作,在本节开始之前请确保你已经安装好了MongoDB并启动了其服务,另外安装好了Python的PyMongo库. 没有安装的朋友们可以参考这篇文章 连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的MongoClient,一般来说传入MongoDB的IP及端口即可,

  • Python的MongoDB模块PyMongo操作方法集锦

    开始之前当然要导入模块啦: >>> import pymongo 下一步,必须本地mongodb服务器的安装和启动已经完成,才能继续下去. 建立于MongoClient 的连接: client = MongoClient('localhost', 27017) # 或者 client = MongoClient('mongodb://localhost:27017/') 得到数据库: >>> db = client.test_database # 或者 >>

  • Python pymongo模块用法示例

    本文实例讲述了Python pymongo模块用法.分享给大家供大家参考,具体如下: MongoDB优点 MongoDB是一个为当代web应用而生的noSQL数据库,它有如下优点: 1.文档型存储.可以把关系型数据库的表理解为一个电子表格,列表示字段,每行的记录其实是按照列的字段顺序排列的值得元组.而存储在MongoDB中的文档被存储为键-值对的形式,值却可以是任意类型且可以嵌套.之前在用关系型数据库的时候,我们把产品信息打散到不同的表中,要通过关系表或者使用join拼接成复杂的SQL语句的方式

  • Windows下PyMongo下载及安装教程

    PyMongo下载 PyMongo下载地址: http://pypi.python.org/pypi/pymongo/#downloads 当前可下载选项: 复制代码 代码如下: pymongo-1.11.tar.gz                                       Source pymongo-1.11.win32-py2.7.exe                        MS Windows installer PyMongo安装 安装pymongo-1.

  • pymongo中聚合查询的使用方法

    前言 在使用mongo数据库时,简单的查询基本上可以满足大多数的业务场景,但是试想一下,如果要统计某一荐在指定的数据中出现了多少次该怎么查询呢?笨的方法是使用find 将数据查询出来,再使用count() 方法进行数据统计,这个场景还好,但是如果要求其中某个字段的和呢?是不是就非得遍历出相应的数据然后再进行求和运算呢? 在mysql中我们经常会用到count.group by 等查询,在mongodb中我们也可以使用聚合查询. 假设有这样的一组数据 价格 里面记录了每种水果的价格,现在我要统计一

  • Java Fluent Mybatis 聚合查询与apply方法详解流程篇

    前言 接着上一篇文章:Java Fluent Mybatis 分页查询与sql日志输出详解流程篇 我把分页已经调整好了,现在实验一下官方给出的聚合查询方法. GitHub代码仓库:GitHub仓库 数据准备 为了聚合查询的条件,添加了几条数据. MIN 我们试着获取最小的年龄. 方法实现 @Override public Integer getAgeMin() { Map<String, Object> result = testFluentMybatisMapper .findOneMap(

  • 关于MySQL中的查询开销查看方法详解

    MySQL逻辑架构 如果能在头脑中构建一幅MySQL各组件之间如何协同工作的架构图,有助于深入理解MySQL服务器.下图展示了MySQL的逻辑架构图. MySQL逻辑架构,来自:高性能MySQL MySQL逻辑架构整体分为三层,最上层为客户端层,并非MySQL所独有,诸如:连接处理.授权认证.安全等功能均在这一层处理. MySQL大多数核心服务均在中间这一层,包括查询解析.分析.优化.缓存.内置函数(比如:时间.数学.加密等函数).所有的跨存储引擎的功能也在这一层实现:存储过程.触发器.视图等.

  • Django中Aggregation聚合的基本使用方法

    Django 的 filter.exclude 等方法使得对数据库的查询很方便了.这在数据量较小的时候还不错,但如果数据量很大,或者查询条件比较复杂,那么查询效率就会很低. 提高数据库查询效率可以通过原生 SQL 语句来实现,但是它的缺点就是需要开发者熟练掌握 SQL.倘若查询条件是动态变化的,则编写 SQL 会更加困难. 对于以便捷著称的 Django,怎么能忍受这样的事.于是就有了 Aggregation聚合 . 聚合最好的例子就是官网给的案例了: # models.py from djan

  • 浅谈mysql中多表不关联查询的实现方法

    大家在使用MySQL查询时正常是直接一个表的查询,要不然也就是多表的关联查询,使用到了左联结(left join).右联结(right join).内联结(inner join).外联结(outer join).这种都是两个表之间有一定关联,也就是我们常常说的有一个外键对应关系,可以使用到 a.id = b.aId这种语句去写的关系了.这种是大家常常使用的,可是有时候我们会需要去同时查询两个或者是多个表的时候,这些表又是没有互相关联的,比如要查user表和user_history表中的某一些数据

  • 在java List中进行模糊查询的实现方法

    比如我有下面这样一个List,里面存放的是多个Employee对象.然后我想对这个List进行按照Employee对象的名字进行模糊查询.有什么好的解决方案么? 比如我输入的查询条件为"wang",那么应该返回只包含employee1的List列表. List list = new ArrayList(); Employee employee1 = new Employee(); employee1.setName("wangqiang"); employee1.s

  • 使用JDBC从数据库中查询数据的方法

    * ResultSet 结果集:封装了使用JDBC 进行查询的结果 * 1. 调用Statement 对象的 executeQuery(sql) 方法可以得到结果集 * 2. ResultSet 返回的实际上就是一张数据表,有一个指针指向数据表的第一行的前面, * 可以调用next()方法检测下一行是否有效,若有效,返回true,且指针下移, * 相当于iterator 对象的 hasNext() 和 next()方法的结合体 * 3. 当指针定位到一行时,可以通过调用getXxx(index)

  • Mysql中分页查询的两个解决方法比较

    mysql中分页查询有两种方式, 一种是使用COUNT(*)的方式,具体代码如下 复制代码 代码如下: SELECT COUNT(*) FROM foo WHERE b = 1; SELECT a FROM foo WHERE b = 1 LIMIT 100,10; 另外一种是使用SQL_CALC_FOUND_ROWS 复制代码 代码如下: SELECT SQL_CALC_FOUND_ROWS a FROM foo WHERE b = 1 LIMIT 100, 10; SELECT FOUND_

  • PHP使用mysql_fetch_object从查询结果中获取对象集的方法

    本文实例讲述了PHP使用mysql_fetch_object从查询结果中获取对象集的方法.分享给大家供大家参考.具体分析如下: mysql_fetch_object函数用于,提取结果行从一个MySQL的结果集作为objectiative数组. mysql_fetch_object语法: array mysql_fetch_object (resource $Result_Set) Result_Set句柄返回一个mysql_query查询结果集. 如果执行成功返回包含了所有数据行的object,

  • MSSql简单查询出数据表中所有重复数据的方法

    本文实例讲述了MSSql简单查询出数据表中所有重复数据的方法.分享给大家供大家参考,具体如下: 这里直接给出下面的例子: SELECT * FROM SYS_LogContent slc WHERE slc.LogInfo_ID IN ( SELECT slc2.LogInfo_ID FROM SYS_LogContent slc2 GROUP BY slc2.LogInfo_ID HAVING COUNT(*)>1 ) 简单说明: 关键代码在于上面的括号中.要想查询出所有重复的数据,可以按照某

随机推荐