mongodb 数据块的迁移流程分析

2025-02-11 16:20:51

1. 基本概念

1.1 Chunk（数据块）

表示特定服务器上面，连续范围的分片键值所包含的一组数据，是一个逻辑概念。

例如，某数据块记录如下：

{
    "_id" : "chunk-a",  // 数据块Id
    "ns" : "user.address",  // 该数据块对应的数据库名和表名
    "min" : {               // 该数据块对应的分片键值的起始值（包含），是“Shi Jiazhuang”
        "city" : "Shi Jiazhuang"
    },
    "max" : {               // 该数据块对应的分片键值的结束值（不包含），是“Nanjjing”
        "city" : "Nan Jing"
    },
    "shard" : "repa"        // 该数据块存储在repa分片服务器
}
// 即该数据块记录表示，数据库user中的表address中的“city”字段中，其值从“Shi Jiazhuang”（包含）到“Nan Jing”（不包含）这段连续区间的数据，都存储在名为repa的分片服务器。

1.2 Chunk Size（数据块大小）

数据块所对应的数据，如果超过64M（默认值），则会被系统自动切分为两个数据，即数据块会从1块切分为2块，图示如下：

1.3 Migration（数据块迁移）

mongodb有一个后台的平衡器进程，它会监控各个分片服务器上面的数据块的数量，如果发现不同的分片服务器上面数据块的数量差异，超过阈值，则会启动数据块迁移任务，

直至不同的分片服务器之间的数据块的数量差异落在阈值之内，图示如下：

1.4 Migration Thresholds（迁移阈值）

数据块的迁移阈值，是和该表的数据块总数相关的，具体如下：

数据块总数量	阈值
小于20	2
20-79	4
大于等于80	8

2. 迁移流程

数据块的迁移对于用户和应用层来说是透明的，当然可能会有些性能的损失，整个迁移流程有7个步骤，图示如下

各个步骤的内容如下：

1. 平衡器发送迁移命令给源节点。

2. 源节点启动了一个内部的数据块迁移命令给目标节点，同时在数据块迁移期间，对于该数据块的请求依然路由到源节点。

3. 目标节点首先创建该数据块上缺失的索引（如果需要的话）。

4. 目标节点到源节点拉取数据。

5. 目标节点需要到源节点再请求在步骤4执行期间的增量变更数据（新增、更新和删掉），如果有则跳转到步骤4，直到没有增量数据。

6. 数据全部迁移成功后，源节点会向配置服务器（config server）发送请求，更新该数据块的元数据中的"分片服务器（shard）"的值为目标节点。

7. 源节点删除本地的该数据块对应的数据。

3. 最佳实践

以上分享了数据块和数据块迁移的一些基本概念和流程，下面是一些最佳实践。

3.1 关于数据块大小的选择

数据块的大小，默认是64M，通常情况下是不需要修改它的，但是有时候该值的大小根据不同的业务场景会带来不同的影响，需要综合多方面的因素来设置该值。

数据块大小太小：通常情况下，较小的数据块大小，会带来更频繁的数据块迁移，数据在集群间的分布会更加均衡，但是如果分片键设置的不够合理，则会产生很多无法切分（split）的大数据块，太大的数据块无法在分片之间迁移，从而导致数据分布的不均衡性，此时需要把数据块大小调大。

数据块大小太大：较大的数据块，意味着更少的数据块迁移，数据在集群间的分布容易出现不平衡，同时也容易产生读写热点（可手动切分），此时需要把数据块大小调小。

3.2 关于数据块迁移对集群性能的影响

数据块迁移除了占用目标节点和源节点的带宽和磁盘读写资源外，在迁移流程中的步骤6会短暂阻塞对该数据块的访问，影响应用的访问，因此建议设置平衡器的活跃时间窗口，设置为业务低估时进行，步骤如下：

1. 连接到mongos。

2. 切换到config数据库

use config

3. 启动平衡器

如果平衡器是关闭状态，则设置活跃时间窗口也是不会做数据迁移的，命令如下：

sh.startBalancer()

4. 修改活跃时间窗口

db.settings.updateOne(
   { _id: "balancer" },
   { $set: { activeWindow : { start : "01:00", stop : "06:00" } } },  // start和stop的格式为"HH:MM"，其中HH的取值范围是0到23，MM的取值范围是00到59
   { upsert: true }
)

https://github.com/tomliugen

到此这篇关于mongodb 数据块的迁移流程介绍的文章就介绍到这了,更多相关mongodb 数据迁移内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

mongodb数据库迁移变更的解决方案

目录前言使用安装简单使用后续前言在版本迭代过程中,存在数据库变更的几率,如增加某张表某个字段,删除某个字段等: 缺乏变更历史的记录,要么在升级多套不同版本环境时,需要耗费大量时间去寻找数据库变更记录以及执行脚本: 该方案提供一种数据库变更记录方式: 使用到开源库:migrate, 目前已经支持多种不同类型数据库(可视化目前使用的为mongodb,已经支持): 使用 migrate提供两种方式进行变更操作:1. 命令行方式 2. SDK方式(使用Go) 在本方案中
迁移sqlserver数据到MongoDb的方法

前言随着数据量的日积月累,数据库总有一天会不堪重负的,除了通过添加索引.分库分表,其实还可以考虑一下换个数据库.我强烈推荐使用MongoDb,我举例说一下我的经历:我的项目中有一张表的数据大概是3000万行数据,sqlserver查找的速度是16秒左右.我导入到MongoDb中后查询的速度大概能快一倍多,7秒左右,如果还是不能满足需求,MongoDb同样可以:索引,分库分表.那么下面就开干吧: 迁移方案:sqlserver和mongodb都支持导入导出csv格式,这肯定是比手动编码写个查询然后
mongodb 数据块的迁移流程分析

目录 1. 基本概念 1.1 Chunk(数据块) 1.2 Chunk Size(数据块大小) 1.3 Migration(数据块迁移) 1.4 Migration Thresholds(迁移阈值) 2. 迁移流程 3. 最佳实践 3.1 关于数据块大小的选择 3.2 关于数据块迁移对集群性能的影响 1. 基本概念 1.1 Chunk(数据块) 表示特定服务器上面,连续范围的分片键值所包含的一组数据,是一个逻辑概念. 例如,某数据块记录如下: { "_id" : "chunk
MySQL延迟问题和数据刷盘策略流程分析

一.MySQL复制流程官方文档流程如下: MySQL延迟问题和数据刷盘策略 1.绝对的延时,相对的同步 2.纯写操作,线上标准配置下,从库压力大于主库,最起码从库有relaylog的写入. 二.MySQL延迟问题分析 1.主库DML请求频繁原因:主库并发写入数据,而从库为单线程应用日志,很容易造成relaylog堆积,产生延迟. 解决思路:做sharding,打散写请求.考虑升级到MySQL5.7+,开启基于逻辑时钟的并行复制. 2.主库执行大事务原因:类似主库花费很长时间更新了一张大表,
ubuntu安装mongodb创建账号和库及添加坐标索引的流程分析

摘要: 作为开发,nosql我们用的越来越多,代表性的是mongodb,速度快性能好,还能完美的创建二维索引．这里我们梳理一下ubuntu上安装mongodb创建账号和库及添加坐标索引一安装 1.1 安装php-mongodb sudo apt-get install php-mongodb 1.2 安装mongodb-org sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 0C49F3730359A145
R语言数据建模流程分析

目录 Intro 项目背景前期准备数据描述数据清洗预分析及预处理数值型数据类别型数据特征 Boruta算法建模模型对比 Intro 近期在整理数据分析流程,找到了之前写的一篇代码,分享给大家.这是我上学时候做的一个项目,当时由于经验不足产生了一些问题,这些问题会在之后一点一点给大家讨论,避免各位踩坑.本篇分享会带一些讲解,可能有些地方不够清楚,欢迎留言讨论. 本次除了分享之外也是对自己之前项目的一个复盘.还是使用R语言(毕竟是我钟爱的语言).Python的如果有需求之后会放别的
python FastApi实现数据表迁移流程详解

目录啥是数据迁移 1.需要新的数据表 2.需要对现有表结构进行调整回到ORM 迁移手段安装alembic 初始化项目修改alembic.ini 修改alembic/env.py 开始生成迁移工作变更数据库 FAQ 啥是数据迁移在我们平时的开发过程中,经常需要对一些数据进行调整.一般会有以下几种场景: 1.需要新的数据表我们的接口自动化平台虽然已经较为完善了,但难免会继续迭代一些新的功能,假设我们需要做一个订阅用例的功能. 大体想一下就可以知道,订阅用例以后这个数据得持久化(即入库)
使用Python打造一款间谍程序的流程分析

知识点这次我们使用python来打造一款间谍程序程序中会用到许多知识点,大致分为四块 win32API 此处可以在MSDN上查看 Python基础重点在cpytes库的使用,使用方法请点击此处 C语言基础 Hook 程序的基本原理在于通过注册Hook,记录系统事件那么什么是Hook呢 Hook 技术又叫做钩子函数,系统在调用函数之前,钩子程序就先捕获该消息,钩子函数先得到控制权,这时钩子函数既可以加工处理(改变)该函数的执行行为,还可以强制结束消息的传递注册Hook时我们需要先导入DLL
python+mongodb数据抓取详细介绍

分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: headers = { ..... } r = requests.get(url,headers,timeout=30) html = r.content soup = BeautifulSoup(html,"lxml") url = soup.find_all(正则表达式) for i
基于NodeJS+MongoDB+AngularJS+Bootstrap开发书店案例分析

这章的目的是为了把前面所学习的内容整合一下,这个示例完成一个简单图书管理模块,因为中间需要使用到Bootstrap这里先介绍Bootstrap. 示例名称:天狗书店功能:完成前后端分离的图书管理功能,总结前端学习过的内容. 技术:NodeJS.Express.Monk.MongoDB.AngularJS.BootStrap.跨域效果: 一.Bootstrap Bootstrap是一个UI框架,它支持响应式布局,在PC端与移动端都表现不错. Bootstrap是Twitter推出的一款简洁.直
基于MongoDB数据库索引构建情况全面分析

前面的话本文将详细介绍MongoDB数据库索引构建情况分析概述创建索引可以加快索引相关的查询,但是会增加磁盘空间的消耗,降低写入性能.这时,就需要评判当前索引的构建情况是否合理.有4种方法可以使用 1.mongostat工具 2.profile集合介绍 3.日志 4.explain分析 mongostat mongostat是mongodb自带的状态检测工具,在命令行下使用.它会间隔固定时间获取mongodb的当前运行状态,并输出.如果发现数据库突然变慢或者有其他问题的话,首先就要考虑采用
Oracle数据块实现原理深入解读

下午在学习oracle 10g r2 concepts 在这留一笔. Oracle对数据库数据文件(datafile)中的存储空间进行管理的单位是数据块(data block).数据块是数据库中最小的(逻辑)数据单位.与数据块对应的,所有数据在操作系统级的最小物理存储单位是字节(byte).每种操作系统都有一个被称为块容量(block size)的参数.Oracle每次获取数据时,总是访问整数个(Oracle)数据块,而不是按照操作系统块的容量访问数据. 数据库中标准的数据块(data bloc