MongoDB游标超时问题的4种解决方法

当我们使用Python从MongoDB里面读取数据时,可能会这样写代码:

import pymongo

handler = pymongo.MongoClient().db.col

for row in handler.find():
 parse_data(row)

短短4行代码,读取MongoDB里面的每一行数据,然后传入parse_data做处理。处理完成以后再读取下一行。逻辑清晰而简单,能有什么问题?只要parse_data(row)不报错,这一段代码就完美无缺。

但事实并非这样。

你的代码可能会在for row in handler.find()这一行报错。它的原因,说来话长。

要解释这个问题,我们首先就需要知道,handler.find()返回的并不是数据库里面的数据,而是一个游标(cursor)对象。如下图所示:

只有当你使用for循环开始迭代它的时候,游标才会真正去数据库里面读取数据。

但是,如果每一次循环都连接数据库,那么网络连接会浪费大量时间。

所以pymongo会一次性获取100行,for row in handler.find()循环第一次的时候,它会连上MongoDB,读取一百条数据,缓存到内存中。于是第2-100次循环,数据都是直接从内存里面获取,不会再连接数据库。

当循环进行到底101次的时候,再一次连接数据库,再读取第101-200行内容……

这个逻辑非常有效地降低了网络I/O耗时。

但是,MongoDB默认游标的超时时间是10分钟。10分钟之内,必需再次连接MongoDB读取内容刷新游标时间,否则,就会导

致游标超时报错:

pymongo.errors.CursorNotFound: cursor id 211526444773 not found

如下图所示:

所以,回到最开始的代码中来,如果parse_data每次执行的时间超过6秒钟,那么它执行100次的时间就会超过10分钟。此时,当程序想读取第101行数据的时候,程序就会报错。

为了解决这个问题,我们有4种办法:

  1. 修改MongoDB的配置,延长游标超时时间,并重启MongoDB。由于生产环境的MongoDB不能随便重启,所以这个方案虽然有用,但是排除。
  2. 一次性把数据全部读取下来,再做处理:
all_data = [row for row in handler.find()]

for row in all_data:
 parse(row)

这种方案的弊端也很明显,如果数据量非常大,你不一定能全部放到内存里面。即使能够全部放到内存中,但是列表推导式遍历了所有数据,紧接着for循环又遍历一次,浪费时间。

3.让游标每次返回的数据小于100条,这样消费完这一批数据的时间就会小于10分钟:

# 每次连接数据库,只返回50行数据
for row in handler.find().batch_size(50):
 parse_data(row)

但这种方案会增加数据库的连接次数,从而增加I/O耗时。

4.让游标永不超时。通过设定参数no_cursor_timeout=True,让游标永不超时:

cursor = handler.find(no_cursor_timeout=True)
for row in cursor:
 parse_data(row)
cursor.close() # 一定要手动关闭游标

然而这个操作非常危险,因为如果你的Python程序因为某种原因意外停止了,这个游标就再也无法关闭了!除非重启MongoDB,否则这些游标会一直留在MongoDB上,占用资源。

当然可能有人会说,使用try...except把读取数据的地方包住,只要抛出了异常,在处理异常的时候关闭游标即可:

cursor = handler.find(no_cursor_timeout=True)
try:
 for row in cursor:
 parse_data(row)
except Exception:
 parse_exception()
finally:
 cursor.close() # 一定要手动关闭游标

其中finally里面的代码,无论有没有异常,都会执行。

但这样写会让代码非常难看。为了解决这个问题,我们可以使用游标的上下文管理器:

with handler.find(no_cursor_timeout=True) as cursor:
 for row in cursor:
  parse_data(row)

只要程序退出了with的缩进,游标自动就会关闭。如果程序中途报错,游标也会关闭。

它的原理可以用下面两段代码来解释:

class Test:
 def __init__(self):
  self.x = 1

 def echo(self):
  print(self.x)

 def __enter__(self):
  print('进入上下文')
  return self

 def __exit__(self, *args):
  print('退出上下文')

with Test() as t:
 t.echo()
print('退出缩进')

运行效果如下图所示:

接下来在with的缩进里面人为制造异常:

class Test:
 def __init__(self):
  self.x = 1

 def echo(self):
  print(self.x)

 def __enter__(self):
  print('进入上下文')
  return self

 def __exit__(self, *args):
  print('退出上下文')

with Test() as t:
 t.echo()
 1 + 'a' # 这里一定会报错
print('退出缩进')

运行效果如下图所示:

无论在with的缩进里面发生了什么,Test这个类中的__exit__里面的代码始终都会运行。

我们来看看pymongo的游标对象里面,__exit__是怎么写的,如下图所示:

可以看到,这里正是关闭游标的操作。

因此,如果我们使用上下文管理器,就可以放心大胆地使用no_cursor_timeout=True参数了。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。

(0)

相关推荐

  • mongodb数据库游标的使用浅析

    mongodb中的游标使用示例如下:   假设执行如下操作: db.XXX.remove(); db.XXX.insert({"name":"BuleRiver1", "age":27}); db.XXX.insert({"name":"BuleRiver2", "age":23}); db.XXX.insert({"name":"BuleRiver3&qu

  • MongoDB入门教程之聚合和游标操作介绍

    今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标. 一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce. <1> count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样.  <2> distinct 这个操作相信大家也是非常熟悉的,指定了谁,谁就不能重复,直接上图.  <3> group 在mongodb里面做group操作

  • MongoDB中游标的深入学习

    前言 MongoDB中的游标与关系型数据库中的游标在功能上大同小异.游标相当于C语言的指针,可以定位到某条记录,在MongoDB中,则是文档.因此在mongoDB中游标也有定义,声明, 打开,读取,关闭这么个过程.客户端通过游标,能够实现对最终结果进行有效的控制,诸如限制结果数量,跳过部分结果或根据任意键按任意顺序的组合对结果进行各种排序等. 通俗的说,游标不是查询结果,可以理解为数据在遍历过程中的内部指针,其返回的是一个资源,或者说数据读取接口. 客户端通过对游标进行一些设置就能对查询结果进行

  • MongoDB 游标详解及实例代码

     MongoDB 游标详解 MongoDB中的游标与关系型数据库中的游标在功能上大同小异.游标相当于C语言的指针,可以定位到某条记录,在MongoDB中,则是文档.因此在mongoDB中游标也有定义,声明, 打开,读取,关闭这么个过程.客户端通过游标,能够实现对最终结果进行有效的控制,诸如限制结果数量,跳过部分结果或根据任意键按任意顺序的组合对结果进行各种排序等.下文是针对MongoDB游标的具体介绍. 一.mongoDB游标介绍 db.collection.find()方法返回一个游标,对于文

  • MongoDB游标超时问题的4种解决方法

    当我们使用Python从MongoDB里面读取数据时,可能会这样写代码: import pymongo handler = pymongo.MongoClient().db.col for row in handler.find(): parse_data(row) 短短4行代码,读取MongoDB里面的每一行数据,然后传入parse_data做处理.处理完成以后再读取下一行.逻辑清晰而简单,能有什么问题?只要parse_data(row)不报错,这一段代码就完美无缺. 但事实并非这样. 你的代

  • MongoDB磁盘IO问题的3种解决方法

    IO概念 在数据库优化和存储规划过程中,总会提到IO的一些重要概念,在这里就详细记录一下,对这个概念的熟悉程度也决定了对数据库与存储优化的理解程度,以下这些概念并非权威文档,权威程度肯定就不能说了. 读/写IO,最为常见说法,读IO,就是发指令,从磁盘读取某段扇区的内容.指令一般是通知磁盘开始扇区位置,然后给出需要从这个初始扇区往后读取的连续扇区个数,同时给出动作是读,还是写.磁盘收到这条指令,就会按照指令的要求,读或者写数据.控制器发出的这种指令+数据,就是一次IO,读或者写. 大/小块IO,

  • java.util.NoSuchElementException原因及两种解决方法

    java输入流报错: Exception in thread "main" java.util.NoSuchElementException    at java.base/java.util.Scanner.throwFor(Unknown Source)    at java.base/java.util.Scanner.next(Unknown Source)    at java.base/java.util.Scanner.nextInt(Unknown Source)  

  • PL/SQL Developer过期的两种解决方法

    方法一: 1.首先,登陆PL/SQL Developer,PL/SQL Developer要到期了 2.输入指令"regedit"打开注册表,如图所示 3.然后,在注册表里按HKEY_CURRENT_USER\Software\Allround Automations 这个路径找到"Allround Automations ",然后删除它. 4.删除上一步中的后,在找到HKEY_CURRENT_USER\Software\Microsoft\Security,删除&

  • jQuery prototype冲突的2种解决方法(附demo示例下载)

    本文实例分析了jQuery prototype冲突的2种解决方法.分享给大家供大家参考,具体如下: jquery和prototype怎么会冲突,归根到底就是因为他们二个都用到了$,同时用,混淆了.这个问题解决过不下5次,每次解决都要查一下.淡疼,嘿嘿. 方法一.在jquery的核心库文件中加代码. 1.一般是jquery.js,或者jquery.min.js,有的带版本号的.知道是哪个文件就行. })( window ); jQuery.noConflict(); //最后面,加上这一行. 2.

  • Json日期格式问题的四种解决方法(超详细)

    开发中有时候需要从服务器端返回json格式的数据,在后台代码中如果有DateTime类型的数据使用系统自带的工具类序列化后将得到一个很长的数字表示日期数据,如下所示: //设置服务器响应的结果为纯文本格式 context.Response.ContentType = "text/plain"; //学生对象集合 List<Student> students = new List<Student> { new Student(){Name ="Tom&q

  • JavaScript监听手机物理返回键的两种解决方法

    JavaScript没有监听物理返回键的API,所以只能使用 popstate 事件监听. 有两个解决办法: 1.返回到指定的页面 pushHistory(); window.addEventListener("popstate", function(e) { window.location = 'http://www.baidu.com'; }, false); function pushHistory() { var state = { title: "title&quo

  • js的form表单提交url传参数(包含+等特殊字符)的两种解决方法

    方法一:(伪装form表单提交) linkredwin = function(A,B,C,D,E,F,G){ var formredwin = document.createElement("form"); formredwin.method = 'POST'; document.body.appendChild(formredwin); formredwin.action = "http://www.A.com/A.wiki?A=" +encodeURI(A) +

  • ASP.NET从客户端中检测到有潜在危险的request.form值的3种解决方法

    当页面编辑或运行提交时,出现"从客户端中检测到有潜在危险的request.form值"问题,该怎么办呢?如下图所示: 下面博主汇总出现这种错误的几种解决方法: 问题原因:由于在asp.net中,Request提交时出现有html代码或javascript等字符串时,程序系统会认为其具有潜在危险的值.环境配置会报出"从客户端 中检测到有潜在危险的Request.Form值"这样的Error. 1.当前提交页面,添加代码 打开当前.aspx页面,页头加上代码:valid

  • 解决中文乱码的几种解决方法(推荐)

    首先说明我的特殊情况: 1. 前台jsp中,我使用的是 form post 请求,设置了 enctype="multipart/form-data" ,页面编码格式都是utf-8 2. 后台中,我使用的是commons-fileUpload组件,ServletFileUpload 解析form表单和文件, 3. 设置 request.setCharacterEncoding("UTF-8"); 4. 设置了ServletFileUpload .setHeaderEn

随机推荐