MongoDB中强大的统计框架Aggregation使用实例解析

听说项目里面Aggregation用的多,那就专门针对这个多多练习一下。

基本的操作包括:

•$project - 可以从子文档中提取字段,可以重命名字段

•$match - 可以实现查找的功能

•$limit - 接受一个数字n,返回结果集中的前n个文档。

•$skip - 接受一个数字n,丢弃结果集中的前n个文档。效率比较低,依然会遍历前n个文档。

•$unwind - 可以将一个包含数组的文档切分成多个, 比如你的文档有 中有个数组字段 A, A中有10个元素, 那么经过 $unwind处理后会产生10个文档,这些文档只有 字段 A不同

•$group - 统计操作, 还提供了一系列子命令

–$avg, $sum …

•$sort - 排序

Python篇
实验一、学生数据统计
1、生成学生数据:

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint
name1 = ["yang ", "li ", "zhou "]
name2 = [
  "chao",
  "hao",
  "gao",
  "qi gao",
  "hao hao",
  "gao gao",
  "chao hao",
  "ji gao",
  "ji hao",
  "li gao",
  "li hao",
]
provinces = [
  "guang dong",
  "guang xi",
  "shan dong",
  "shan xi",
  "he nan"
]
client = MongoClient('localhost', 27017)
db = client.student
sm = db.smessage
sm.remove()
for i in range(1, 100):
  name = name1[randint(0, 2)] + name2[randint(0, 10)]
  province = provinces[randint(0, 4)]
  new_student = {
    "name": name,
    "age": randint(1, 30),
    "province": province,
    "subject": [
      {"name": "chinese", "score": randint(0, 100)},
      {"name": "math", "score": randint(0, 100)},
      {"name": "english", "score": randint(0, 100)},
      {"name": "chemic", "score": randint(0, 100)},
    ]}
  print new_student
  sm.insert_one(new_student)

print sm.count()

好了,现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄,在mongo控制台输入:

如果想到得到所有省份的平均年龄,那就更加简单了:

db.smessage.aggregate(
{$match: {province: "guang dong"}}
)

{ "_id" : "guang xi", "age" : 15.19047619047619 }
{ "_id" : "guang dong", "age" : 16.05263157894737 }
{ "_id" : "shan dong", "age" : 17.44 }
{ "_id" : "he nan", "age" : 20 }
{ "_id" : "shan xi", "age" : 16.41176470588235 }

如果想得到广东省所有科目的平均成绩:

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}}
)

加上排序:

db.smessage.aggregate(
{$match: {province: "guang dong"}},
{$unwind: "$subject"},
{$group: { _id: {province:"$province",sujname:"$subject.name"}, per:{$avg:"$subject.score"}}},
{$sort:{per:1}}
)

实验二、寻找发帖水王
有一个保存着杂志文章的集合,你可能希望找出发表文章最多的那个作者。假设每篇文章被保存为MongoDB中的一个文档。

1、插入数据

#!/usr/bin/env python
# coding=utf-8
from pymongo import MongoClient
from random import randint

name = [
  'yangx',
  'yxxx',
  'laok',
  'kkk',
  'ji',
  'gaoxiao',
  'laoj',
  'meimei',
  'jj',
  'manwang',
]

title = [
  '123',
  '321',
  '12',
  '21',
  'aaa',
  'bbb',
  'ccc',
  'sss',
  'aaaa',
  'cccc',
]

client = MongoClient('localhost', 30999)
db = client.test
bbs = db.bbs
bbs.remove()
for i in range(1, 10000):
  na = name[randint(0, 9)]
  ti = title[randint(0, 9)]
  newcard = {
    'author': na,
    'title': ti,
  }
  bbs.insert_one(newcard)

print bbs.count()

现在我们拥有了10000条文章数据了。

2、用$project将author字段投射出来

{"$project": {"author":1}}

这个语法与查询中的字段选择器比较像:可以通过指定"fieldname" : 1选择需要投射的字段,或者通过指定"fieldname":0排除不需要的字段。

执行完这个"$project"操作之后,结果集中的每个文档都会以{"_id" : id, "author" : "authorName"}这样的形式表示。这些结果只会在内存中存在,不会被写入磁盘。

3、用group将作者名称分组

{"group":{"_id":"$author","count":{"$sum":1}}}

这样就会将作者按照名字排序,某个作者的名字每出现一次,就会对这个作者的"count"加1。

这里首先指定了需要进行分组的字段"author"。这是由"_id" : "$author"指定的。可以将这个操作想象为:这个操作执行完后,每个作者只对应一个结果文档,所以"author"就成了文档的唯一标识符("_id")。

第二个字段的意思是为分组内每个文档的"count"字段加1。注意,新加入的文档中并不会有"count"字段;这"$group"创建的一个新字段。

执行完这一步之后,结果集中的每个文档会是这样的结构:{"_id" : "authorName", "count" : articleCount}。

4、用sort排序

{"$sort" : {"count" : -1}}

这个操作会对结果集中的文档根据"count"字段进行降序排列。

5、限制结果为前5个文档

{"$limit" : 5}

这个操作将最终的返回结果限制为当前结果中的前5个文档。
在MongoDB中实际运行时,要将这些操作分别传给aggregate()函数:

> db.articles.aggregate({"$project" : {"author" : 1}},
... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}},
... {"$sort" : {"count" : -1}},
... {"$limit" : 5}
... )

aggregate()会返回一个文档数组,其中的内容是发表文章最多的5个作者。

{ "_id" : "yangx", "count" : 1028 }
{ "_id" : "laok", "count" : 1027 }
{ "_id" : "kkk", "count" : 1012 }
{ "_id" : "yxxx", "count" : 1010 }
{ "_id" : "ji", "count" : 1007 }

Java篇

我在db中造了些数据(数据时随机生成的, 能用即可),没有建索引,文档结构如下:

Document结构:

 {
  "_id" : ObjectId("509944545"),
  "province" : "海南",
  "age" : 21,
  "subjects" : [
  {
  "name":"语文",
  "score" : 53
  },
  {
  "name":"数学",
  "score" : 27
  },
  {
  "name":"英语",
  "score" : 35
  }
   ],
  "name" : "刘雨"
 }

接下来要实现两个功能:

  1. 统计上海学生平均年龄
  2. 统计每个省各科平均成绩

接下来一一道来

统计上海学生平均年龄

从这个需求来讲,要实现功能要有几个步骤: 1. 找出上海的学生. 2. 统计平均年龄 (当然也可以先算出所有省份的平均值再找出上海的)。如此思路也就清晰了

首先上 $match, 取出上海学生

{$match:{'province':'上海'}}

接下来 用 $group 统计平均年龄

{$group:{_id:'$province',$avg:'$age'}}

$avg 是 $group的子命令,用于求平均值,类似的还有 $sum, $max ....
上面两个命令等价于

select province, avg(age)
 from student
 where province = '上海'
 group by province

下面是Java代码

Mongo m = new Mongo("localhost", 27017);
 DB db = m.getDB("test");
 DBCollection coll = db.getCollection("student");

 /*创建 $match, 作用相当于query*/
 DBObject match = new BasicDBObject("$match", new BasicDBObject("province", "上海"));

 /* Group操作*/
 DBObject groupFields = new BasicDBObject("_id", "$province");
 groupFields.put("AvgAge", new BasicDBObject("$avg", "$age"));
 DBObject group = new BasicDBObject("$group", groupFields);

 /* 查看Group结果 */
 AggregationOutput output = coll.aggregate(match, group); // 执行 aggregation命令
 System.out.println(output.getCommandResult());

输出结果:

{ "serverUsed" : "localhost/127.0.0.1:27017" ,
 "result" : [
  { "_id" : "上海" , "AvgAge" : 32.09375}
  ] ,
  "ok" : 1.0
 }

如此工程就结束了,再看另外一个需求

统计每个省各科平均成绩

首先更具数据库文档结构,subjects是数组形式,需要先‘劈'开,然后再进行统计

主要处理步骤如下:

1. 先用$unwind 拆数组 2. 按照 province, subject 分租并求各科目平均分

$unwind 拆数组

{$unwind:'$subjects'}

按照 province, subject 分组,并求平均分

{$group:{
   _id:{
     subjname:”$subjects.name”,  // 指定group字段之一 subjects.name, 并重命名为 subjname
     province:'$province'     // 指定group字段之一 province, 并重命名为 province(没变)
   },
   AvgScore:{
    $avg:”$subjects.score”    // 对 subjects.score 求平均
   }
 }

java代码如下:

Mongo m = new Mongo("localhost", 27017);
 DB db = m.getDB("test");
 DBCollection coll = db.getCollection("student");

 /* 创建 $unwind 操作, 用于切分数组*/
 DBObject unwind = new BasicDBObject("$unwind", "$subjects");

 /* Group操作*/
 DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
 groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
 DBObject group = new BasicDBObject("$group", groupFields);

 /* 查看Group结果 */
 AggregationOutput output = coll.aggregate(unwind, group); // 执行 aggregation命令
 System.out.println(output.getCommandResult());

输出结果

{ "serverUsed" : "localhost/127.0.0.1:27017" ,
  "result" : [
   { "_id" : { "subjname" : "英语" , "province" : "海南"} , "AvgScore" : 58.1} ,
   { "_id" : { "subjname" : "数学" , "province" : "海南"} , "AvgScore" : 60.485} ,
   { "_id" : { "subjname" : "语文" , "province" : "江西"} , "AvgScore" : 55.538} ,
   { "_id" : { "subjname" : "英语" , "province" : "上海"} , "AvgScore" : 57.65625} ,
   { "_id" : { "subjname" : "数学" , "province" : "广东"} , "AvgScore" : 56.690} ,
   { "_id" : { "subjname" : "数学" , "province" : "上海"} , "AvgScore" : 55.671875} ,
   { "_id" : { "subjname" : "语文" , "province" : "上海"} , "AvgScore" : 56.734375} ,
   { "_id" : { "subjname" : "英语" , "province" : "云南"} , "AvgScore" : 55.7301 } ,
   .
   .
   .
   .
   "ok" : 1.0
 }

统计就此结束.... 稍等,似乎有点太粗糙了,虽然统计出来的,但是根本没法看,同一个省份的科目都不在一起。囧

接下来进行下加强,

支线任务: 将同一省份的科目成绩统计到一起( 即,期望 'province':'xxxxx', avgscores:[ {'xxx':xxx}, ....] 这样的形式)

要做的有一件事,在前面的统计结果的基础上,先用 $project 将平均分和成绩揉到一起,即形如下面的样子

{ "subjinfo" : { "subjname" : "英语" ,"AvgScores" : 58.1 } ,"province" : "海南" }

再按省份group,将各科目的平均分push到一块,命令如下:

$project 重构group结果

{$project:{province:"$_id.province", subjinfo:{"subjname":"$_id.subjname", "avgscore":"$AvgScore"}}

$使用 group 再次分组

{$group:{_id:"$province", avginfo:{$push:"$subjinfo"}}}

java 代码如下:

Mongo m = new Mongo("localhost", 27017);
DB db = m.getDB("test");
DBCollection coll = db.getCollection("student");

/* 创建 $unwind 操作, 用于切分数组*/
DBObject unwind = new BasicDBObject("$unwind", "$subjects");

/* Group操作*/
DBObject groupFields = new BasicDBObject("_id", new BasicDBObject("subjname", "$subjects.name").append("province", "$province"));
groupFields.put("AvgScore", new BasicDBObject("$avg", "$subjects.scores"));
DBObject group = new BasicDBObject("$group", groupFields);

/* Reshape Group Result*/
DBObject projectFields = new BasicDBObject();
projectFields.put("province", "$_id.province");
projectFields.put("subjinfo", new BasicDBObject("subjname","$_id.subjname").append("avgscore", "$AvgScore"));
DBObject project = new BasicDBObject("$project", projectFields);

/* 将结果push到一起*/
DBObject groupAgainFields = new BasicDBObject("_id", "$province");
groupAgainFields.put("avginfo", new BasicDBObject("$push", "$subjinfo"));
DBObject reshapeGroup = new BasicDBObject("$group", groupAgainFields);

/* 查看Group结果 */
AggregationOutput output = coll.aggregate(unwind, group, project, reshapeGroup);
System.out.println(output.getCommandResult());

结果如下:

{ "serverUsed" : "localhost/127.0.0.1:27017" ,
 "result" : [
    { "_id" : "辽宁" , "avginfo" : [ { "subjname" : "数学" , "avgscore" : 56.46666666666667} , { "subjname" : "英语" , "avgscore" : 52.093333333333334} , { "subjname" : "语文" , "avgscore" : 50.53333333333333}]} ,
    { "_id" : "四川" , "avginfo" : [ { "subjname" : "数学" , "avgscore" : 52.72727272727273} , { "subjname" : "英语" , "avgscore" : 55.90909090909091} , { "subjname" : "语文" , "avgscore" : 57.59090909090909}]} ,
    { "_id" : "重庆" , "avginfo" : [ { "subjname" : "语文" , "avgscore" : 56.077922077922075} , { "subjname" : "英语" , "avgscore" : 54.84415584415584} , { "subjname" : "数学" , "avgscore" : 55.33766233766234}]} ,
    { "_id" : "安徽" , "avginfo" : [ { "subjname" : "英语" , "avgscore" : 55.458333333333336} , { "subjname" : "数学" , "avgscore" : 54.47222222222222} , { "subjname" : "语文" , "avgscore" : 52.80555555555556}]}
  .
  .
  .
  ] , "ok" : 1.0}
(0)

相关推荐

  • 如何对 MongoDB 进行性能优化(五个简单步骤)

    MongoDB 一直是最流行的 NoSQL,而根据 DB-Engines Ranking 最新的排行,时下 MongoDB 已经击败 PostgreSQL 跃居数据库总排行的第四位,仅次于 Oracle.MySQL 和 Microsoft SQL Server,此文中总结了如何对 MongoDB 进行性能调优. 大家在使用MongoDB的时候有没有碰到过性能问题呢?这里总结了MongoDB性能优化的五个步骤,希望能够有所帮助. 第一步:找出慢语句 一般来说查询语句太慢和性能问题瓶颈有着直接的关系

  • Mongodb 数据类型及Mongoose常用CURD

    前言 看完了Node.js实战,其中在数据存储部分提到了Redis.Mongodb,我自己也根据书中的介绍写了几个简单的demo,在demo的过程首先遇到的问题就是数据类型和常见的CURD写法. mongodb的常见操作有两种方式,一个是直接使用API,也就相当于你在SQL Server客户端中使用T-SQL编写SQL语句来操作数据一样,其次就是在程序中使用mongoose驱动来操作数据,相当于我们在程序里用ADO.NET或EF来操作数据,如果你已经写了几个调用API的demo,那么我建议再回过

  • 详解MongoDB管理命令

    MongoDB是一个NoSQL数据库系统:一个数据库可以包含多个集合(Collection),每个集合对应于关系数据库中的表:而每个集合中可以存储一组由列标识的记录,列是可以自由定义的,非常灵活,由一组列标识的实体的集合对应于关系数据库表中的行.下面通过熟悉MongoDB的基本管理命令,来了解MongoDB提供的DBMS的基本功能和行为. MongoDB命令帮助系统  在安装MongoDB后,启动服务器进程(mongod),可以通过在客户端命令mongo实现对MongoDB的管理和监控.看一下M

  • Ubuntu系统中安装MongoDB及其启动命令mongod的教程

    UBuntu上安装MongoDB server 获取最新版本 wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.0.2.tgz 解压缩即可执行 tar zxvf mongodb-linux-x86_64-2.0.2.tgz cd /usr/mongodb-linux-x86_64-2.0.2/bin 但是在运行前,需要创建mongodb需要的存放数据和日志的目录: sudo mkdir -p /data/db/journal

  • PHP中安装使用mongodb数据库

    传统数据库中,我们要操作数据库数据都要书写大量的sql语句,而且在进行无规则数据的存储时,传统关系型数据库建表时对不同字段的处理也显得有些乏力,mongo应运而生,而且ajax技术的广泛应用,json格式的广泛接受,也使得mongo更贴近开发人员. mongo简介及应用场景 MongoDB是一个面向文档的非关系型数据库(NoSQL),使用json格式存储.Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一条记录都是一个Document对象.Mongo DB最大的优

  • MongoDB最基本命令速查笔记

    安装后在控制台输入: mongo启动客户端. show dbs显示所有数据库. use xxx选中数据库为当前使用的数据库. show collections显示当前数据库的所有集合. db.colleciton.find()来查找表格的所有数据. db.serverStatus()查看数据库服务器的状态. db.stats()查询指定数据库的统计信息. use xxx如果数据库不存在则创建数据库(必须在虽然插入一条数据) db.storeCollection.insert({'version'

  • java实现mongodb的数据库连接池

    MongoDB是介于关系数据库和非关系数据库之间的一种产品,文件的存储格式为BSON(一种JSON的扩展),这里就主要介绍Java通过使用mongo-2.7.3.jar包实现mongodb连接池,具体的java代码实现如下: 数据库连接池配置参数: /** *@Description: mongo连接池配置文件 */ package cn.lulei.mongo.pool; public class MongoConfig { private static String userName;//用

  • PHP7之Mongodb API使用详解

    编译安装PHP7 编译安装PHP7 Mongdb扩展 #先安装一个依赖库yum -y install openldap-develwget https://pecl.php.net/get/mongodb-1.1.1.tgz /home/server/php7/bin/phpize   #根据自己编译的PHP环境而定./configure --with-php-config=/home/server/php7/bin/php-config make && make install#如果成功

  • MongoDB服务端JavaScript脚本使用方法

    常用JavaScript语句 复制代码 代码如下: db.getSiblingDB(<dbname>)   db.getCollectionNames()    db.getCollection(<collname>)    db.printCollectionStats() 在mongo shell运行JavaScript脚本   切换数据库: 复制代码 代码如下: use <dbname> 运行如下脚本: var total = 0; var dbaStatColl

  • Linux下的mongodb服务监视脚本(启动服务)

    前些天,一位开发同事找到我,说他测试环境的 mongodb 经常挂掉,要我写一个监控或复活的脚本.我觉得很奇怪,测试环境又没啥负载,经常挂掉肯定有非常规原因. 跑过去看了一下日志,发现存在stop记录,我就纳闷了,没人操作他还会自己stop.这明显不是挂掉了,于是到history中看了下同事的启动命令: 复制代码 代码如下: /usr/local/mongodb/bin/mongod --dbpath=/usr/local/mongodb/data/ --logpath=/data/mongod

  • 关于mongoose连接mongodb重复访问报错的解决办法

    具体代码如下所示: var express = require('express'); var mongoose = require('mongoose'); var router = express.Router(); var Person = mongoose.model('Person',{ id:Number, name:String }); /*新增*/ router.get('/insert', function(req, res){ var student = new Person

随机推荐