MongoDB中的参数限制与阀值详析

前言

今天搜索spark mongo的资料,意外发现了MongoDB的一些知识,这些都是之前没有接触过的,所以专门记录下。 (๑• . •๑)

下面话不多说了,来一起看看详细的介绍吧

一、BSON文档

  • BSON文档尺寸:一个document文档最大尺寸为16M;大于16M的文档需要存储在GridFS中。
  • 文档内嵌深度:BSON文档的结构(tree)深度最大为100。

二、Namespaces

  • collection命名空间:.,最大长度为120字节。这也限定了database和collection的名字不能太长。
  • 命名空间的个数:对于MMAPV1引擎,个数最大为大约为24000个,每个collection以及index都是一个namespace;对于wiredTiger引擎则没有这个限制。
  • namespace文件的大小:对于MMAPV1引擎而言,默认大小为16M,可以通过在配置文件中修改。wiredTiger不受此限制。

三、indexes

  • index key:每条索引的key不得超过1024个字节,如果index key的长度超过此值,将会导致write操作失败。
  • 每个collection中索引的个数不得超过64个。
  • 索引名称:我们可以为index设定名称,最终全名为..$,最长不得超过128个字节。默认情况下为filed名称与index类型的组合,我们可以在创建索引时显式的指定index名字,参见createIndex()方法。
  • 组合索引最多能包含31个field。

四、Data

  • Capped Collection:如果你在创建“Capped”类型的collection时指定了文档的最大个数,那么此个数不能超过2的32次方,如果没有指定最大个数,则没有限制。
  • Database Size:MMAPV1引擎而言,每个database不得持有超过16000个数据文件,即单个database的总数据量最大为32TB,可以通过设置“smallFiles”来限定到8TB。
  • Data Size:对于MMAVPV1引擎而言,单个mongod不能管理超过最大虚拟内存地址空间的数据集,比如linux(64位)下每个mongod实例最多可以维护64T数据。wiredTiger引擎没有此限制。
  • 每个Database中collection个数:对于MMAPV1引擎而然,每个database所能持有的collections个数取决于namespace文件大小(用来保存namespace)以及每个collection中indexes的个数,最终总尺寸不超过namespace文件的大小(16M)。wiredTiger引擎不受到此限制。

五、Replica Sets

  • 每个replica set中最多支持50个members。
  • replica set中最多可以有7个voting members。(投票者)
  • 如果没有显式的指定oplog的尺寸,其最大不会超过50G。

六、Sharded Clusters

  • group聚合函数,在sharding模式下不可用。请使用mapreduce或者aggregate方法。
  • Coverd Queries:即查询条件中的Fields必须是index的一部分,且返回结果只包含index中的fields;对于sharding集群,如果query中不包含shard key,索引则无法进行覆盖。虽然_id不是“shard key”,但是如果查询条件中只包含_id,且返回的结果中也只需要_id字段值,则可以使用覆盖查询,不过这个查询似乎并没有什么意义(除非是检测此_id的document是否存在)。
  • 对于已经存有数据的collections开启sharding(原来非sharding),则其最大数据不得超过256G。当collection被sharding之后,那么它可以存储任意多的数据。
  • 对于sharded collection,update、remove对单条数据操作(操作选项为multi:false或者justOne),必须指定shard key或者_id字段;否则将会抛出error。
  • 唯一索引:shards之间不支持唯一索引,除非这个“shard key”是唯一索引的最左前缀。比如collection的shard key为{“zipcode”:1,”name”: 1},如果你想对collection创建唯一索引,那么唯一索引必须将zipcode和name作为索引的最左前缀,比如:collection.createIndex({“zipcode”:1,”name”:1,”company”:1},{unique:true})。
  • 在chunk迁移时允许的最大文档个数:如果一个chunk中documents的个数超过250000(默认chunk大小为64M)时,或者document个数大于 1.3 *(chunk最大尺寸(有配置参数决定)/ document平均尺寸),此chunk将无法被“move”(无论是balancer还是人工干预),必须等待split之后才能被move。

七、shard key

  • shard key的长度不得超过512个字节。
  • “shard key索引”可以为基于shard key的正序索引,或者以shard key开头的组合索引。shard key索引不能是multikey索引(基于数组的索引)、text索引或者geo索引。
  • Shard key是不可变的,无论何时都不能修改document中的shard key值。如果需要变更shard key,则需要手动清洗数据,即全量dump原始数据,然后修改并保存在新的collection中。
  • 单调递增(递减)的shard key会限制insert的吞吐量;如果_id是shard key,需要知道_id是ObjectId()生成,它也是自增值。对于单调递增的shard key,collection上的所有insert操作都会在一个shard节点上进行,那么此shard将会承载cluster的全部insert操作,因为单个shard节点的资源有限,因此整个cluster的insert量会因此受限。如果cluster主要是read、update操作,将不会有这方面的限制。为了避免这个问题,可以考虑使用“hashed shard key”或者选择一个非单调递增key作为shard key。(rang shard key 和hashed shard key各有优缺点,需要根据query的情况而定)。

八、Operations

  • 如果mongodb不能使用索引排序来获取documents,那么参与排序的documents尺寸需要小于32M。
  • Aggregation Pileline操作。Pipeline stages限制在100M内存,如果stage超过此限制将会发生错误,为了能处理较大的数据集,请开启“allowDiskUse”选项,即允许pipeline stages将额外的数据写入临时文件。

九、命名规则

  • database的命名区分大小写。
  • database名称中不要包含:/ .‘'$*<>:|?
  • database名称长度不能超过64个字符。
  • collection名称可以以“_”或者字母字符开头,但是不能包含”$”符号,不能为空字符或者null,不能以“system.”开头,因为这是系统保留字。
  • document字段名不能包含“.”或者null,且不能以“$”开头,因为$是一个“引用符号”。

最后记录下json嵌套中含有列表的查询方法,样例数据:

{
 "_id" : ObjectId("5c6cc376a589c200018f7312"),
 "id" : "9472",
 "data" : {
 "name" : "测试",
 "publish_date" : "2009-05-15",
 "authors" : [
  {
  "author_id" : 3053,
  "author_name" : "测试数据"
  }
 ],
 }
}

我要查询authors中的author_id,query可以这样写:

db.getCollection().find({'data.authors.0.author_id': 3053})

用0来代表第一个索引,点代表嵌套结构。但是spark mongo中是不能这样导入的,需要使用别的方法。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • MongoDB基础入门之创建、删除集合操作

    创建集合 语法格式 db.createCollection(name, {capped: <Boolean>, autoIndexId: <Boolean>, size: <number>, max <number>}) 参数说明 name: 要创建的集合的名称 options: 可选参数,指定有关内存大小及索引的选项 options参数说明 参数名 参数类型 参数说明 capped 布尔 如果为 true,则创建固定集合.默认为不启用<br />

  • PHP使用mongoclient简单操作mongodb数据库示例

    本文实例讲述了PHP使用mongoclient简单操作mongodb数据库.分享给大家供大家参考,具体如下: 最好回到<mongodb shell基础命令[进阶篇]>,再来看这里的内容,否则有些东西我讲的比较笼统. 好了,不废话了,直接贴代码吧,别害怕看代码,基本每行都写了注释了 <!-- 1.本文采用mongoClient类来实现mongodb的简单操作, 2.需要事先熟悉<mongodb基础命令--进阶篇>的内容 3.其中更新数据部分只给出了一个$set的例子,但是跟操作

  • Python使用pymongo库操作MongoDB数据库的方法实例

    python操作mongodb数据库 # !/usr/bin/env python # -*- coding:utf-8 -*- """ 使用pymongo库操作MongoDB数据库 """ import pymongo # 1.连接数据库服务器,获取客户端对象 mongo_client=pymongo.MongoClient('localhost',27017) # 2.获取数据库对象 db=mongo_client.myDB # db=mon

  • PHP封装的简单连接MongoDB类示例

    本文实例讲述了PHP封装的简单连接MongoDB类.分享给大家供大家参考,具体如下: 1. 封装MongoDB类 <?php class MongoDB { private $database; private $mongo; function __construct() { $this->mongo = new MongoClient("mongodb://user:password@server_address:port/admin"); $this->datab

  • node链接mongodb数据库的方法详解【阿里云服务器环境ubuntu】

    本文实例讲述了node链接mongodb数据库的方法.分享给大家供大家参考,具体如下: 一.安装2.6版本以上的mongodb在云服务器上(百度就能查到安装方法,以及验证是否安装成功一般是mongodb –version): 二.因为mongodb的默认开启端口是27017,所以要在Ubuntu上开启这个端口: ufw allow 27017 ufw enable ufw reload ufw status //这是查看这个端口是否开启,iptables --list也可以查看 光在服务器开了端

  • Golang Mongodb模糊查询的使用示例

    前言 在日常使用的Mongodb中,有一项功能叫做模糊查询(使用正则匹配),例如: db.article.find({"title": {$regex: /a/, $options: "im"}}) 这是我们常用Mongodb的命令行使用的方式,但是在mgo中做出类似的方式视乎是行不通的: query := bson.M{"title": bson.M{"$regex": "/a/", "$opt

  • Windows上php5.6操作mongodb数据库示例【配置、连接、获取实例】

    本文实例讲述了Windows上php5.6操作mongodb数据库的方法.分享给大家供大家参考,具体如下: 一.配置 针对不同线程安全.VC版本的 PHP 发行版,可从 PECL 获取到预编译的二进制文件. 解压,并把 php_mongo.dll 放到 PHP 扩展目录(默认是 "ext"). 将以下内容添加到 php.ini 文件: extension=php_mongo.dll Note: 为 Windows 用户添加额外的依赖 DLL 为了使此扩展生效, DLL 文件必须能在 W

  • windows与mac安装mongodb数据库的方法步骤与注意事项

    nosql数据库 --mongodb数据库! Mongo DB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐.Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中每一条记录都是一个Document对象.Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作. windows 安装 这里我说的是命令行安装方法 准备.到官网下载相应的版本 http

  • MongoDB的基本特性与内部构造的讲解

    MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引. 对于大多数的MongoDB的用户来说,MongoDB就像是一个大黑盒.但是如果你能够了解到MongoDB一些内部构造的话,将有利于你更好地理

  • Mongodb设置TTL索引自动清除数据与过期数据的方法

    Mongodb通常会被用来存储缓存数据或大尺寸.低价值的数据,对于这些类型的数据,数据量往往非常大,如果不定期清理,不但会影响性能,也会浪费大量的系统资源. Mongodb其实可以像Redis一样设置数据的过期时间,TTL索引是MongoDB中一种特殊的索引,可以支持文档在一定时间之后自动过期删除,目前TTL索引只能在单字段上建立. 当你在集合中某一个字段建立TTL索引后,后台会有一个单线程,通过不断查询(默认60s一次)索引的值来判断document是否有过期,并且删除文档的动作还依据mong

随机推荐