MongoDB的分片集群基本配置教程

2025-04-03 17:21:32

为何要分片
1.减少单机请求数，降低单机负载，提高总负载
2.减少单机的存储空间，提高总存空间。

常见的mongodb sharding 服务器架构

要构建一个 MongoDB Sharding Cluster，需要三种角色：
1.Shard Server
即存储实际数据的分片，每个Shard可以是一个mongod实例，也可以是一组mongod实例构成的Replication Set。为了实现每个Shard内部的auto-failover(自动故障切换)，MongoDB官方建议每个Shard为一组Replica Set。
2.Config Server
为了将一个特定的collection存储在多个shard中，需要为该collection指定一个shard key(片键)，例如{age: 1} ，shard key可以决定该条记录属于哪个chunk(分片是以chunk为单位,后续会介绍)。Config Servers就是用来存储：所有shard节点的配置信息、每个chunk的shard key范围、chunk在各shard的分布情况、该集群中所有DB和collection的sharding配置信息。
3.Route Process
这是一个前端路由，客户端由此接入，然后询问Config Servers需要到哪个Shard上查询或保存记录，再连接相应的Shard进行操作，最后将结果返回给客户端。客户端只需要将原本发给mongod的查询或更新请求原封不动地发给Routing Process，而不必关心所操作的记录存储在哪个Shard上。（所有操作在mongos上操作即可）

配置分片服务器
下面我们在同一台物理机器上构建一个简单的 Sharding Cluster：

Shard Server 1：27017
Shard Server 2：27018
Config Server ：27027
Route Process：40000

1.步骤一: 启动Shard Server

mkdir -p ./data/shard/s0 ./data/shard/s1 #创建数据目录
mkdir -p ./data/shard/log # 创建日志目录
./bin/mongod --port 27017 --dbpath /usr/local/mongodb/data/shard/s0 --fork --logpath /usr/local/mongodb/data/shard/log/s0.log # 启动Shard Server实例1
./bin/mongod --port 27018 --dbpath /usr/local/mongodb/data/shard/s1 --fork --logpath /usr/local/mongodb/data/shard/log/s1.log # 启动Shard Server实例2

步2.骤二: 启动Config Server

mkdir -p ./data/shard/config #创建数据目录
./bin/mongod --port 27027 --dbpath /usr/local/mongodb/data/shard/config --fork --logpath /usr/local/mongodb/data/shard/log/config.log #启动Config Server实例

注意，这里我们完全可以像启动普通mongodb服务一样启动，不需要添加—shardsvr和configsvr参数。因为这两个参数的作用就是改变启动端口的，所以我们自行指定了端口就可以
3.步骤三: 启动Route Process
./bin/mongos --port 4000 --configdb localhost:27027 --fork --logpath /usr/local/mongodb/data/shard/log/route.log --chunkSize=1 # 启动Route Server实例mongos启动参数中，chunkSize这一项是用来指定chunk的大小的，单位是MB，默认大小为200MB，为了方便测试Sharding效果，我们把chunkSize指定为 1MB。意思是当这个分片中插入的数据大于1M时开始进行数据转移
4.步骤四: 配置Sharding

# 我们使用MongoDB Shell登录到mongos，添加Shard节点
./bin/mongo admin --port 40000 #此操作需要连接admin库
> db.runCommand({ addshard:"localhost:27017" }) #添加 Shard Server 或者用 sh.addshard()命令来添加,下同;
{ "shardAdded" : "shard0000", "ok" : 1 }
> db.runCommand({ addshard:"localhost:27018" })
{ "shardAdded" : "shard0001", "ok" : 1 }
> db.runCommand({ enablesharding:"test" }) #设置分片存储的数据库
{ "ok" : 1 }
> db.runCommand({ shardcollection: "test.users", key: { id:1 }}) # 设置分片的集合名称。且必须指定Shard Key，系统会自动创建索引，然后根据这个shard Key来计算
{ "collectionsharded" : "test.users", "ok" : 1 }
 > sh.status(); #查看片的状态
 > printShardingStatus(db.getSisterDB("config"),1); # 查看片状态(完整版);
 > db.stats(); # 查看所有的分片服务器状态

注意这里我们要注意片键的选择，选择片键时需要根据具体业务的数据形态来选择，切不可随意选择，实际中尤其不要轻易选择自增_id作为片键，除非你很清楚你这么做的目的，具体原因我不在此分析，根据经验推荐一种较合理的片键方式，“自增字段+查询字段”，没错，片键可以是多个字段的组合。
另外这里说明一点，分片的机制：mongodb不是从单篇文档的级别,绝对平均的散落在各个片上, 而是N篇文档,形成一个块"chunk",优先放在某个片上, 当这片上的chunk,比另一个片的chunk区别比较大时(>=3) ,会把本片上的chunk,移到另一个片上, 以chunk为单位,维护片之间的数据均衡。
也就是说，一开始插入数据时，数据是只插入到其中一块分片上的，插入完毕后，mongodb内部开始在各片之间进行数据的移动，这个过程可能不是立即的，mongodb足够智能会根据当前负载决定是立即进行移动还是稍后移动。
在插入数据后，立马执行db.users.stats();两次可以验证如上所说。
这种分片机制,节省了人工维护成本,但是由于其是优先往某个片上插入,等到chunk失衡时,再移动chunk,并且随着数据的增多,shard的实例之间,有chunk来回移动的现象,这将会为服务器带来很大的IO开销,解决这种开销的方法,就是手动预先分片;

手动预先分片
以shop.user表为例：

sh.shardCollection(‘shop.user',{userid:1}); # user表用userid做shard key
for(var i=1;i<=40;i++) { sh.splitAt('shop.user',{userid:i*1000}) } # 预先在1K 2K...40K这样的界限切好chunk(虽然chunk是空的), 这些chunk将会均匀移动到各片上.

通过mongos添加user数据. 数据会添加到预先分配好的chunk上, chunk就不会来回移动了.

repliction set and shard
一般mongoDB如果真的到了分片的级别后,那片服务器避无可免的要用到复制集,部署的基本思路同上,只需要注意两点:
sh.addShard( host ) server:port OR setname/server:port # 如果是复制集的片服务器,我们应该复制集的名称写在前面比如
sh.addShard('ras/192.168.42.168:27017'); # 27017也就是复制集中的primary
另外在启动本机的mongod服务的时候,最好把ip也给写进去,否则有可能会有不可预知的错误。

查看分片配置的方法：

1.列举使用分片的数据库
为了列举使用分片的数据库，需要查询Config数据库。如果partitioned域值为true，则这个库使用了分片技术。
连接一个mongos实例，运行命令获取使用分片功能的数据库：

use config
db.databases.find( { "partitioned" : true} )

例如：使用以下命令返回集群中的所有数据库

use config
db.databases.find()

如果返回结果：

{ "_id" : "admin", "partitioned" : false, "primary" : "config" }
{ "_id" : "mydb", "partitioned" : true, "primary" : "firstset" }
{ "_id" : "test", "partitioned" : false, "primary" : "secondset" }

显示只有mydb使用了分片。

2.列举所有的分片
为了列举当前集合的所有分片，使用listShards命令：

use admin
db.runCommand( { listShards : 1 })

返回结果：

{
    "shards" : [
        {
            "_id" : "firstset",
            "host" : "firstset/mongo01:10001,mongo01:10002,mongo01:10003"
        },
        {
            "_id" : "secondset",
            "host" : "secondset/mongo01:30001,mongo01:30002,mongo01:30003"
        }
    ],
    "ok" : 1
}

3.查看集群的详细信息
为了查看集群的详细信息，可以使用db.printShardingStatus()或者sh.status()。所有的方法返回同样的结果。
例如，使用

sh.status()

查看信息：

--- Sharding Status ---
 sharding version: {
    "_id" : 1,
    "version" : 4,
    "minCompatibleVersion" : 4,
    "currentVersion" : 5,
    "clusterId" : ObjectId("535a2dab0063b308757e1b70")
}
 shards:
    { "_id" : "firstset", "host" : "firstset/mongo01:10001,mongo01:10002,mongo01:10003" }
    { "_id" : "secondset", "host" : "secondset/mongo01:30001,mongo01:30002,mongo01:30003" }
 databases:
    { "_id" : "admin", "partitioned" : false, "primary" : "config" }
    { "_id" : "mydb", "partitioned" : true, "primary" : "firstset" }
        mydb.test_collection
            shard key: { "name" : 1 }
            chunks:
                secondset    6
                firstset    6
            { "name" : { "$minKey" : 1 } } -->> { "name" : "cat" } on : secondset Timestamp(2, 0)
            { "name" : "cat" } -->> { "name" : "cow" } on : secondset Timestamp(3, 0)
            { "name" : "cow" } -->> { "name" : "dog" } on : secondset Timestamp(4, 0)
            { "name" : "dog" } -->> { "name" : "dragon" } on : secondset Timestamp(5, 0)
            { "name" : "dragon" } -->> { "name" : "elephant" } on : secondset Timestamp(6, 0)
            { "name" : "elephant" } -->> { "name" : "horse" } on : secondset Timestamp(7, 0)
            { "name" : "horse" } -->> { "name" : "lion" } on : firstset Timestamp(7, 1)
            { "name" : "lion" } -->> { "name" : "pig" } on : firstset Timestamp(1, 7)
            { "name" : "pig" } -->> { "name" : "rabbit" } on : firstset Timestamp(1, 8)
            { "name" : "rabbit" } -->> { "name" : "snake" } on : firstset Timestamp(1, 9)
            { "name" : "snake" } -->> { "name" : "tiger" } on : firstset Timestamp(1, 10)
            { "name" : "tiger" } -->> { "name" : { "$maxKey" : 1 } } on : firstset Timestamp(1, 11)
    { "_id" : "test", "partitioned" : false, "primary" : "secondset" }

（1）sharding version展示了分片元数据的版本号。
（2）shards展示了在集群中被作为分片的mongod实例。
（3）databases展示了集群中所有的数据库，包括没有使用分片功能的库。
（4）chunks信息展示了mydb库的每个分片上有多少个块和每个块的范围。

深入理解MongoDB分片的管理

前言在MongoDB(版本 3.2.9)中,分片集群(sharded cluster)是一种水平扩展数据库系统性能的方法,能够将数据集分布式存储在不同的分片(shard)上,每个分片只保存数据集的一部分,MongoDB保证各个分片之间不会有重复的数据,所有分片保存的数据之和就是完整的数据集.分片集群将数据集分布式存储,能够将负载分摊到多个分片上,每个分片只负责读写一部分数据,充分利用了各个shard的系统资源,提高数据库系统的吞吐量. 数据集被拆分成数据块(chunk),每个数据块包含多个do
mongodb3.4集群搭建实战之高可用的分片+副本集

前言最近因为工作的原因,在学习使用mongodb数据库,mongodb是最常用的nodql数据库,在数据库排名中已经上升到了前六.这篇文章介绍如何搭建高可用的mongodb(分片+副本)集群,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍: 在搭建集群之前,需要首先了解几个概念:路由,分片.副本集.配置服务器等. 相关概念先来看一张图: 从图中可以看到有四个组件:mongos.config server.shard.replica set. mongos,数据库集群请求的入口,
MongoDB入门教程之分片技术详解

在mongodb里面存在另一种集群,就是分片技术,跟sql server的表分区类似,我们知道当数据量达到T级别的时候,我们的磁盘,内存就吃不消了,针对这样的场景我们该如何应对. 一:分片 mongodb采用将集合进行拆分,然后将拆分的数据均摊到几个片上的一种解决方案. 下面我对这张图解释一下: 人脸: 代表客户端,客户端肯定说,你数据库分片不分片跟我没关系,我叫你干啥就干啥,没什么好商量的. mongos: 首先我们要了解"片键"的概念,也就是说拆分集合的依据是什么
Mongodb 删除添加分片与非分片表维护

MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的. 一.如何移除分片 1.确认balancer已经开启 mongos> sh.getBalancerState() true 2.移除分片注:在admin db下执行命令. mongos> use admin switched to db admin mon
mongodb分片技术_动力节点Java学院整理

在mongodb里面存在另一种集群,就是分片技术,当数据量达到T级别的时候,我们的磁盘,内存就吃不消了,针对这样的场景我们该如何应对. 一:分片 mongodb采用将集合进行拆分,然后将拆分的数据均摊到几个片上的一种解决方案. 下面我对这张图解释一下: 人脸:代表客户端,客户端肯定说,你数据库分片不分片跟我没关系,我叫你干啥就干啥,没什么好商量的. mongos: 首先我们要了解"片键"的概念,也就是说拆分集合的依据是什么?按照什么键值进行拆分集合.... 好了,mongos就是一个路
MongoDB分片测试

分片是mongoDB扩展的一种方式.分片分割一个collection并将不同的部分存储在不同的机器上.当一个数据库的collections相对于当前空间过大时,你需要增加一个新的机器.分片会自动的将collection数据分发到新的服务器上. 1. 连接到mongos可查看系统相关信息 configsvr> show dbs configsvr> use config configsvr> show collections onfigsvr> db.mongos.find() {
MongoDB的分片集群基本配置教程

为何要分片 1.减少单机请求数,降低单机负载,提高总负载 2.减少单机的存储空间,提高总存空间. 常见的mongodb sharding 服务器架构要构建一个 MongoDB Sharding Cluster,需要三种角色: 1.Shard Server 即存储实际数据的分片,每个Shard可以是一个mongod实例,也可以是一组mongod实例构成的Replication Set.为了实现每个Shard内部的auto-failover(自动故障切换),MongoDB官方建议每个Shard为一
分布式文档存储数据库之MongoDB分片集群的问题

前文我们聊到了mongodb的副本集以及配置副本集,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/13953598.html:今天我们来聊下mongodb的分片: 1.什么是分片?为什么要分片? 我们知道数据库服务器一般出现瓶颈是在磁盘io上,或者高并发网络io,又或者单台server的cpu.内存等等一系列原因:于是,为了解决这些瓶颈问题,我们就必须扩展服务器性能:通常扩展服务器有向上扩展和向外扩展:所谓向上扩展就是给服务器加更大的磁盘,使用更大更好的内
MongoDB分片集群部署详解

一.环境说明 1.我们prod环境MongoDB的集群架构是做的分片集群的部署,但是目前我们没有分片,即所有数据都在一个分片上,后期如果数量大,需要分配,集群随时可以分片,对业务方透明 2.各个角色的部署情况角色 IP 端口复制集名称 mongos 172.21.244.101,172.21.244.102,172.21.244.94 27000 无 config server 172.21.244.101,172.21.244.102,172.21.244.94 27100 repl_c
在CentOS中安装Rancher2并配置kubernetes集群的图文教程

准备一台CentOS主机,安装DockerCE,用于安装Rancher2 一台CentOS主机,安装DockerCE,用于安装kubernetes集群管理主机多台CentOS主机,安装DockerCE,用于运行kubernetes工作节点,工作节点需要与集群管理主机在同一个子网中掌握Docker常用操作,了解K8s基本原理安装Rancher2 第一步:执行命令,运行Rancher2,绑定主机端口80和443. docker run -d --restart=unless-stopped
redis 分片集群搭建与使用教程

目录前言搭建集群架构图前置准备搭建步骤创建集群 Redis散列插槽说明集群伸缩(添加节点) 故障转移使用redistemplate访问分片集群前言 redis可以说在实际项目开发中使用的非常频繁,在redis常用集群中,我们聊到了redis常用的几种集群方案,不同的集群对应着不同的场景,并且详细说明了各种集群的优劣,本篇将以redis 分片集群为切入点,从redis 分片集群的搭建开始,详细说说redis 分片集群相关的技术点: 单点故障: 单机写(高并发写)瓶颈: 单机存储数据
关于CentOS 8 搭建MongoDB4.4分片集群的问题

目录一,简介 1.分片 2.为什么使用分片 3.分片原理概述二,准备环境三,集群配置部署四,测试服务器分片功能一,简介 1.分片在MongoDB里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求. 在MongoDB存储海量数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量.这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据. 2.为什么使用分片复制所有的写入操作到主节点延迟的敏感数据会在主节点查询单个副本
ol7.7安装部署4节点spark3.0.0分布式集群的详细教程

为学习spark,虚拟机中开4台虚拟机安装spark3.0.0 底层hadoop集群已经安装好,见ol7.7安装部署4节点hadoop 3.2.1分布式集群学习环境首先,去http://spark.apache.org/downloads.html下载对应安装包解压 [hadoop@master ~]$ sudo tar -zxf spark-3.0.0-bin-without-hadoop.tgz -C /usr/local [hadoop@master ~]$ cd /usr/local
使用docker部署hadoop集群的详细教程

最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群. 0. 写在前面网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程. 目标:使用docker搭建一个一主两从三台机器的hadoop2.7.7版本的集群准备: 首先要有一台内存8G以上的centos7机器,我用的是阿里云主机. 其次将jdk和hadoop包上传到服务器中. 我安装的是hadoop2.7.7.包给大家准备好了,链接:https://pan.baidu.com/s/15n
Redis 分片集群的实现

目录 1 搭建分片集群 1.1 集群结构 1.2 准备实例和配置 1.3 启动 1.4 创建集群 1.5 测试 2 散列插槽 3 集群伸缩 3.1 创建节点并添加到集群 3.2 转移插槽 4 故障转移 4.1.自动故障转移 4.2 手动故障转移 5 RedisTemplate访问分片集群 1 搭建分片集群主从和哨兵可以解决高可用.高并发读的问题.但是依然有两个问题没有解决: 海量数据存储问题,单个Redis节点对于数据的存储量是有上限的高并发写的问题,高并发读的问题我们可以用主从集群来解决,
使用docker快速搭建Spark集群的方法教程

前言 Spark 是 Berkeley 开发的分布式计算的框架,相对于 Hadoop 来说,Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到广泛关注.下面来一起看看使用docker快速搭建Spark集群的方法教程. 适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with hadoop Spark集群 Spark运行时架构图如上图: Spark集群由以下两个部分组成集

MongoDB的分片集群基本配置教程

相关推荐

随机推荐