MongoDB聚合分组取第一条记录的案例与实现方法

2026-03-14 19:55:51

前言

今天开发同学向我们提了一个紧急的需求，从集合mt_resources_access_log中，根据字段refererDomain分组，取分组中最近一笔插入的数据，然后将这些符合条件的数据导入到集合mt_resources_access_log_new中。

接到这个需求，还是有些心虚的，原因有二，一是，业务需要，时间紧；二是，实现这个功能MongoDB聚合感觉有些复杂，聚合要走好多步。

数据记录格式如下：

记录1

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C1",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1234",
 "resourceType" : "static_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-22T19:45:46.015+08:00"),
 "disabled" : 0
}

记录2

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C1",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1234",
 "resourceType" : "Dome_resource",
 "ip" : "17.17.13.14",
 "createTime" : ISODate("2018-12-21T19:45:46.015+08:00"),
 "disabled" : 0
}

记录3

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C2",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1235",
 "resourceType" : "static_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-20T19:45:46.015+08:00"),
 "disabled" : 0
}
记录4

{
 "_id" : ObjectId("5c1e23eaa66bf62c0c390afb"),
 "_class" : "C2",
 "resourceUrl" : "/static/js/p.js",
 "refererDomain" : "1235",
 "resourceType" : "Dome_resource",
 "ip" : "17.17.13.13",
 "createTime" : ISODate("2018-12-20T19:45:46.015+08:00"),
 "disabled" : 0
}

以上是我们的4条记录，类似的记录文档有1500W。

因为情况特殊，业务发版需要这些数据。催的比较急，而通过聚合框架aggregate，短时间有没有思路，所以，当时就想着尝试采用其他方案。

最后，问题处理方案如下。

Step 1 通过聚合框架根据条件要求先分组，并将新生成的数据输出到集合mt_resources_access_log20190122 中（共产生95笔数据）；

实现代码如下：

db.log_resources_access_collect.aggregate(
      [

      { $group: { _id: "$refererDomain" } },
      { $out : "mt_resources_access_log20190122" }
      ]

     )

Step 2 通过2次 forEach操作，循环处理 mt_resources_access_log20190122和mt_resources_access_log的数据。

代码解释，处理的逻辑为，循环逐笔取出mt_resources_access_log20190122的数据（共95笔），每笔逐行加工处理，处理的逻辑主要是根据自己的_id字段数据（此字段来自mt_resources_access_log聚合前的refererDomain字段），去和 mt_resources_access_log的字段 refererDomain比对，查询出符合此条件的数据，并且是按_id 倒序，仅取一笔，最后将Join刷选后的数据Insert到集合mt_resources_access_log_new。

新集合也是95笔数据。

大家不用担心性能，查询语句在1S内实现了结果查询。

db.mt_resources_access_log20190122.find({}).forEach(
 function(x) {
  db.mt_resources_access_log.find({ "refererDomain": x._id }).sort({ _id: -1 }).limit(1).forEach(
   function(y) {
    db.mt_resources_access_log_new.insert(y)
   }
  )
 }
)

Step 3 查询验证新产生的集合mt_resources_access_log_new，结果符合业务要求。

刷选前集合mt_resources_access_log的数据量为1500多W。

刷选后产生新的集合mt_resources_access_log_new 数据量为95笔。

注意：根据时间排序的要求，因为部分文档没有createTime字段类型，且 createTime字段上没有创建索引，所以未了符合按时间排序我们采用了sort({_id:1})的变通方法，因为_id 还有时间的意义。下面的内容为MongoDB对应_id 的相关知识。

最重要的是前4个字节包含着标准的Unix时间戳。后面3个字节是机器ID，紧接着是2个字节的进程ID。最后3个字节存储的是进程本地计数器。计数器可以保证同一个进程和同一时刻内不会重复。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对我们的支持。

MongoDB入门教程之聚合和游标操作介绍

今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标. 一: 聚合常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce. <1> count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样. <2> distinct 这个操作相信大家也是非常熟悉的,指定了谁,谁就不能重复,直接上图. <3> group 在mongodb里面做group操作
JAVA mongodb 聚合几种查询方式详解

一.BasicDBObject 整个聚合查询是统计用户的各种状态下的用户数量为场景: 1.筛选条件: date为查询日期: BasicDBObject Query = new BasicDBObject(); Query.put("time",new BasicDBObject("$gte", date + " 00:00:00") .append("$lte", date + " 23:59:59"));
MongoDB聚合功能浅析

MongoDB数据库功能强大!除了基本的查询功能之外,还提供了强大的聚合功能.这里简单介绍一下count.distinct和group. 1.count: --在空集合中,count返回的数量为0. > db.test.count() 0 --测试插入一个文档后count的返回值. > db.test.insert({"test":1}) > db.test.count() 1 > db.test.insert({"test":2}) >
Mongodb聚合函数count、distinct、group如何实现数据聚合操作

上篇文章给大家介绍了Mongodb中MapReduce实现数据聚合方法详解,我们提到过Mongodb中进行数据聚合操作的一种方式--MapReduce,但是在大多数日常使用过程中,我们并不需要使用MapReduce来进行操作.在这边文章中,我们就简单说说用自带的聚合函数进行数据聚合操作的实现. MongoDB除了基本的查询功能之外,还提供了强大的聚合功能.Mongodb中自带的基本聚合函数有三种:count.distinct和group.下面我们分别来讲述一下这三个基本聚合函数. (1)coun
mongodb聚合_动力节点Java学院整理

今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标. 一:聚合常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce. <1> count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样. <2> distinct 这个操作相信大家也是非常熟悉的,指定了谁,谁就不能重复,直接上图. <3> group 在mongodb里面做group操作有点小
mongoDB中聚合函数java处理示例详解

1.问题最近在做项目的时候碰到一个对mongoDB的数据处理,从MongoDB中拿到内嵌文档的时间排序的list. 一开始考虑到直接对mongoDB中的属性排序,后面发现属性存在内嵌文档中,所以处理中需要用到聚合函数. 思考 (key)解决这个问题的过程让我学到很多,发现自己在解决一个问题不仅查找问题的姿势不对,浪费太多时间.而且在碰到问题之后,应该多看看解决办法,甚至解决了之后要去思考问题,回顾问题.而不是像以前一样,解决问题了就万事大吉,抛之脑后. 2.解决需要对document中的一个
mongodb中按天进行聚合查询的实例教程

前言最近在写项目的时候遇到一个问题,使用mongodb记录了用例的执行结果,但是在时间的记录上使用的是date格式,现在有一个需求,以天为单位,统计一下每天成功的用例和失败的用例,说到统计,肯定是要用到聚合查询,但是如果以date格式的时间为group依据,那么等同于没有分组,因为在记录用例的时间几乎不可能同时,今天查阅了一下相关文档,可以使用mongodb的$dateToString命令来完成这个需求问题来源假如我们以如下的数据 /* 1 */ { "_id" : Object
MongoDB教程之聚合（count、distinct和group）

1. count: 复制代码代码如下: --在空集合中,count返回的数量为0. > db.test.count() 0 --测试插入一个文档后count的返回值. > db.test.insert({"test":1}) > db.test.count() 1 > db.test.insert({"test":2}) > db.test.count() 2
MongoDB聚合分组取第一条记录的案例与实现方法

前言今天开发同学向我们提了一个紧急的需求,从集合mt_resources_access_log中,根据字段refererDomain分组,取分组中最近一笔插入的数据,然后将这些符合条件的数据导入到集合mt_resources_access_log_new中. 接到这个需求,还是有些心虚的,原因有二,一是,业务需要,时间紧:二是,实现这个功能MongoDB聚合感觉有些复杂,聚合要走好多步. 数据记录格式如下: 记录1 { "_id" : ObjectId("5c1e23eaa
pyodps中的apply用法及groupby取分组排序第一条数据

目录 1.apply用法 2.取分组排序后的第一条数据 1.apply用法 apply在pandas里非常好用的,那在pyodps里如何去使用,还是有一些区别的,在pyodps中要对一行数据使用自定义函数,可以使用 apply 方法,axis 参数必须为 1,表示在行上操作. apply 的自定义函数接收一个参数,为上一步 Collection 的一行数据,用户可以通过属性.或者偏移取得一个字段的数据. iris.apply(lambda row: row.sepallength + row.s
SQL获取第一条记录的方法(sqlserver、oracle、mysql数据库)

Sqlserver 获取每组中的第一条记录在日常生活方面,我们经常需要记录一些操作,类似于日志的操作,最后的记录才是有效数据,而且可能它们属于不同的方面.功能下面,从数据库的术语来说,就是查找出每组中的一条数据.下面我们要实现的就是在sqlserver中实现从每组中取出第一条数据. 例子我们要从上面获得的有效数据为: 对应的sql语句如下所示: select * from t1 t where id = (select top 1 id from t1 where grp = t.grp o
C# ling to sql 取多条记录最大时间

具体代码如下所述: var _setList = (from f in _postgreDbContext.settlements group f by ( new { f.settlement_code })into g select new { deal_time = g.Max(m => m.deal_time), g.Key.settlement_code }).AsNoTracking().ToList(); 知识点扩展:sql 查询相同记录下日期最大的一条日期编号仓库数量
vue 循环加载数据并获取第一条记录的方法

最近使用elment ui和vue.js,遇到需要像c:foreach类似的效果,就找了 vue的API:https://cn.vuejs.org/v2/guide/list.html#v-for-with-v-if element ui:http://element.eleme.io/#/zh-CN/component/input 用法: <el-card class="box-card" v-for="(month,index) in monthdata"
mongodb中随机获取1条记录的实现方法

实现原理如下 1.先查询表中的记录总数 2.随机获取偏移量为0~总记录数-1 3.查询时skip偏移量,再获取1条记录因本人测试环境php已升级到7.0以上,mongodb扩展使用支持php7.0以上的扩展,很多方法与php5.6不同.因此代码必须在php7.0以上运行.如果是php5.6环境,需要修改代码才能运行. 代码如下: function.php <?php // 连接mongodb function conn($host, $user, $passwd){ $server = 'mo
asp下sql和access数据库随机取10条记录的代码newid()

MSSQL:select top 10 * from [table] order by newid() ACCESS: 复制代码代码如下: '以利用rs.move嘛 '如随机取10条 n = 10 '先要判断总记录数是否少于10,若小于10,则有多少取多少 if n>10 rs.recordCount then n=rs.recordCount dim ranNum for i = 1 to n Randomize() ranNum = int(rs.recordC
mysql 批量更新与批量更新多条记录的不同值实现方法

批量更新 mysql更新语句很简单,更新一条数据的某个字段,一般这样写: 复制代码代码如下: UPDATE mytable SET myfield = 'value' WHERE other_field = 'other_value'; 如果更新同一字段为同一个值,mysql也很简单,修改下where即可: 复制代码代码如下: UPDATE mytable SET myfield = 'value' WHERE other_field in ('other_values'); 这里注意 'o
关于MYSQL中每个用户取1条记录的三种写法(group by xxx)

今天以前的同学问我关于这方面的SQL语句,我特意记忆一下,毕竟这个也比较常见了复制代码代码如下: select * from (select * from member_payment order by id desc) t group by member_id limit 10 第一种是先排序,然后group,这样的话自然可以取到最适合的一条数据.缺点很明显:Using temporary; Using filesort 复制代码代码如下: select
删除重复的记录,并保存第一条记录或保存最后一条记录

删除表:dgpage中Mail重复的记录并保留最后一条. delete dgpage where id in ( select a.id from dgpage a, dgpage b where a.mail = b.mail and a.id > b.id ) 删除表:dgpage中Mail重复的记录并保留最近一条. delete dgpage where id in ( select a.id from dgpage a, dgpage b where a.mail = b.mail a

MongoDB聚合分组取第一条记录的案例与实现方法

相关推荐

随机推荐