MongoDB聚合分组取第一条记录的案例与实现方法

前言

今天开发同学向我们提了一个紧急的需求,从集合mt_resources_access_log中,根据字段refererDomain分组,取分组中最近一笔插入的数据,然后将这些符合条件的数据导入到集合mt_resources_access_log_new中。

接到这个需求,还是有些心虚的,原因有二,一是,业务需要,时间紧;二是,实现这个功能MongoDB聚合感觉有些复杂,聚合要走好多步。

数据记录格式如下:

记录1

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C1",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1234",
 "resourceType" : "static_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-22T19:45:46.015+08:00"),
 "disabled" : 0
}

记录2

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C1",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1234",
 "resourceType" : "Dome_resource",
 "ip" : "17.17.13.14",
 "createTime" : ISODate("2018-12-21T19:45:46.015+08:00"),
 "disabled" : 0
}

记录3

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C2",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1235",
 "resourceType" : "static_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-20T19:45:46.015+08:00"),
 "disabled" : 0
}
记录4

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C2",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1235",
 "resourceType" : "Dome_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-20T19:45:46.015+08:00"),
 "disabled" : 0
}

以上是我们的4条记录,类似的记录文档有1500W。

因为情况特殊,业务发版需要这些数据。催的比较急,而 通过 聚合 框架aggregate,短时间有没有思路, 所以,当时就想着尝试采用其他方案。

最后,问题处理方案如下。

Step 1 通过聚合框架 根据条件要求先分组,并将新生成的数据输出到集合mt_resources_access_log20190122 中(共产生95笔数据);

实现代码如下:

db.log_resources_access_collect.aggregate(
      [

      { $group: { _id: "$refererDomain" } },
      { $out : "mt_resources_access_log20190122" }
      ]

     )

Step 2 通过2次 forEach操作,循环处理 mt_resources_access_log20190122和mt_resources_access_log的数据。

代码解释,处理的逻辑为,循环逐笔取出mt_resources_access_log20190122的数据(共95笔),每笔逐行加工处理,处理的逻辑主要是 根据自己的_id字段数据(此字段来自mt_resources_access_log聚合前的refererDomain字段), 去和 mt_resources_access_log的字段 refererDomain比对,查询出符合此条件的数据,并且是按_id 倒序,仅取一笔,最后将Join刷选后的数据Insert到集合mt_resources_access_log_new。

新集合也是95笔数据。

大家不用担心性能,查询语句在1S内实现了结果查询。

db.mt_resources_access_log20190122.find({}).forEach(
 function(x) {
  db.mt_resources_access_log.find({ "refererDomain": x._id }).sort({ _id: -1 }).limit(1).forEach(
   function(y) {
    db.mt_resources_access_log_new.insert(y)
   }
  )
 }
)

Step 3 查询验证新产生的集合mt_resources_access_log_new,结果符合业务要求。

刷选前集合mt_resources_access_log的数据量为1500多W。

刷选后产生新的集合mt_resources_access_log_new 数据量为95笔。

注意:根据时间排序的要求,因为部分文档没有createTime字段类型,且 createTime字段上没有创建索引,所以未了符合按时间排序我们采用了sort({_id:1})的变通方法,因为_id 还有时间的意义。下面的内容为MongoDB对应_id 的相关知识。

最重要的是前4个字节包含着标准的Unix时间戳。后面3个字节是机器ID,紧接着是2个字节的进程ID。最后3个字节存储的是进程本地计数器。计数器可以保证同一个进程和同一时刻内不会重复。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • JAVA mongodb 聚合几种查询方式详解

    一.BasicDBObject 整个聚合查询是统计用户的各种状态下的用户数量为场景: 1.筛选条件: date为查询日期: BasicDBObject Query = new BasicDBObject(); Query.put("time",new BasicDBObject("$gte", date + " 00:00:00") .append("$lte", date + " 23:59:59"));

  • MongoDB教程之聚合(count、distinct和group)

    1. count: 复制代码 代码如下: --在空集合中,count返回的数量为0.     > db.test.count()     0     --测试插入一个文档后count的返回值.     > db.test.insert({"test":1})     > db.test.count()     1     > db.test.insert({"test":2})     > db.test.count()     2  

  • mongodb聚合_动力节点Java学院整理

    今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标. 一:聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce. <1> count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样. <2> distinct 这个操作相信大家也是非常熟悉的,指定了谁,谁就不能重复,直接上图. <3> group 在mongodb里面做group操作有点小

  • mongodb中按天进行聚合查询的实例教程

    前言 最近在写项目的时候遇到一个问题,使用mongodb记录了用例的执行结果,但是在时间的记录上使用的是date格式,现在有一个需求,以天为单位,统计一下每天成功的用例和失败的用例,说到统计,肯定是要用到聚合查询,但是如果以date格式的时间为group依据,那么等同于没有分组,因为在记录用例的时间几乎不可能同时,今天查阅了一下相关文档,可以使用mongodb的$dateToString命令来完成这个需求 问题来源 假如我们以如下的数据 /* 1 */ { "_id" : Object

  • mongoDB中聚合函数java处理示例详解

    1.问题 最近在做项目的时候碰到一个对mongoDB的数据处理,从MongoDB中拿到内嵌文档的时间排序的list. 一开始考虑到直接对mongoDB中的属性排序,后面发现属性存在内嵌文档中,所以处理中需要用到聚合函数. 思考 (key)解决这个问题的过程让我学到很多,发现自己在解决一个问题不仅查找问题的姿势不对,浪费太多时间.而且在碰到问题之后,应该多看看解决办法,甚至解决了之后要去思考问题,回顾问题.而不是像以前一样,解决问题了就万事大吉,抛之脑后. 2.解决 需要对document中的一个

  • MongoDB聚合功能浅析

    MongoDB数据库功能强大!除了基本的查询功能之外,还提供了强大的聚合功能.这里简单介绍一下count.distinct和group. 1.count: --在空集合中,count返回的数量为0. > db.test.count() 0 --测试插入一个文档后count的返回值. > db.test.insert({"test":1}) > db.test.count() 1 > db.test.insert({"test":2}) >

  • Mongodb聚合函数count、distinct、group如何实现数据聚合操作

    上篇文章给大家介绍了Mongodb中MapReduce实现数据聚合方法详解,我们提到过Mongodb中进行数据聚合操作的一种方式--MapReduce,但是在大多数日常使用过程中,我们并不需要使用MapReduce来进行操作.在这边文章中,我们就简单说说用自带的聚合函数进行数据聚合操作的实现. MongoDB除了基本的查询功能之外,还提供了强大的聚合功能.Mongodb中自带的基本聚合函数有三种:count.distinct和group.下面我们分别来讲述一下这三个基本聚合函数. (1)coun

  • MongoDB入门教程之聚合和游标操作介绍

    今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标. 一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce. <1> count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样.  <2> distinct 这个操作相信大家也是非常熟悉的,指定了谁,谁就不能重复,直接上图.  <3> group 在mongodb里面做group操作

  • MongoDB聚合分组取第一条记录的案例与实现方法

    前言 今天开发同学向我们提了一个紧急的需求,从集合mt_resources_access_log中,根据字段refererDomain分组,取分组中最近一笔插入的数据,然后将这些符合条件的数据导入到集合mt_resources_access_log_new中. 接到这个需求,还是有些心虚的,原因有二,一是,业务需要,时间紧:二是,实现这个功能MongoDB聚合感觉有些复杂,聚合要走好多步. 数据记录格式如下: 记录1 { "_id" : ObjectId("5c1e23eaa

  • pyodps中的apply用法及groupby取分组排序第一条数据

    目录 1.apply用法 2.取分组排序后的第一条数据 1.apply用法 apply在pandas里非常好用的,那在pyodps里如何去使用,还是有一些区别的,在pyodps中要对一行数据使用自定义函数,可以使用 apply 方法,axis 参数必须为 1,表示在行上操作. apply 的自定义函数接收一个参数,为上一步 Collection 的一行数据,用户可以通过属性.或者偏移取得一个字段的数据. iris.apply(lambda row: row.sepallength + row.s

  • SQL获取第一条记录的方法(sqlserver、oracle、mysql数据库)

    Sqlserver 获取每组中的第一条记录 在日常生活方面,我们经常需要记录一些操作,类似于日志的操作,最后的记录才是有效数据,而且可能它们属于不同的方面.功能下面,从数据库的术语来说,就是查找出每组中的一条数据.下面我们要实现的就是在sqlserver中实现从每组中取出第一条数据. 例子 我们要从上面获得的有效数据为: 对应的sql语句如下所示: select * from t1 t where id = (select top 1 id from t1 where grp = t.grp o

  • C# ling to sql 取多条记录最大时间

    具体代码如下所述: var _setList = (from f in _postgreDbContext.settlements group f by ( new { f.settlement_code })into g select new { deal_time = g.Max(m => m.deal_time), g.Key.settlement_code }).AsNoTracking().ToList(); 知识点扩展:sql 查询相同记录下日期最大的 一条 日期 编号 仓库 数量

  • vue 循环加载数据并获取第一条记录的方法

    最近使用elment ui和vue.js,遇到需要像c:foreach类似的效果,就找了 vue的API:https://cn.vuejs.org/v2/guide/list.html#v-for-with-v-if element ui:http://element.eleme.io/#/zh-CN/component/input 用法: <el-card class="box-card" v-for="(month,index) in monthdata"

  • mongodb中随机获取1条记录的实现方法

    实现原理如下 1.先查询表中的记录总数 2.随机获取偏移量为0~总记录数-1 3.查询时skip偏移量,再获取1条记录 因本人测试环境php已升级到7.0以上,mongodb扩展使用支持php7.0以上的扩展,很多方法与php5.6不同.因此代码必须在php7.0以上运行.如果是php5.6环境,需要修改代码才能运行. 代码如下: function.php <?php // 连接mongodb function conn($host, $user, $passwd){ $server = 'mo

  • asp下sql和access数据库随机取10条记录的代码newid()

    MSSQL:select top 10 * from [table] order by newid() ACCESS: 复制代码 代码如下: '以利用rs.move嘛   '如随机取10条   n = 10   '先要判断总记录数是否少于10,若小于10,则有多少取多少 if n>10 rs.recordCount then n=rs.recordCount   dim ranNum   for i = 1 to n   Randomize()   ranNum = int(rs.recordC

  • mysql 批量更新与批量更新多条记录的不同值实现方法

    批量更新 mysql更新语句很简单,更新一条数据的某个字段,一般这样写: 复制代码 代码如下: UPDATE mytable SET myfield = 'value' WHERE other_field = 'other_value'; 如果更新同一字段为同一个值,mysql也很简单,修改下where即可: 复制代码 代码如下: UPDATE mytable SET myfield = 'value' WHERE other_field in ('other_values'); 这里注意 'o

  • 关于MYSQL中每个用户取1条记录的三种写法(group by xxx)

    今天以前的同学问我关于这方面的SQL语句,我特意记忆一下,毕竟这个也比较常见了 复制代码 代码如下: select * from (select * from member_payment                 order by id desc) t group by member_id limit 10 第一种是先排序,然后group,这样的话自然可以取到最适合的一条数据.缺点很明显:Using temporary; Using filesort 复制代码 代码如下: select

  • 删除重复的记录,并保存第一条记录或保存最后一条记录

    删除表:dgpage中Mail重复的记录并保留最后一条.  delete dgpage where id in ( select a.id from dgpage a, dgpage b where a.mail = b.mail and a.id > b.id ) 删除表:dgpage中Mail重复的记录并保留最近一条. delete dgpage where id in ( select a.id from dgpage a, dgpage b where a.mail = b.mail a

随机推荐