一文带你彻底搞懂Docker中的cgroup的具体使用

2025-01-31 10:35:21

前言

进程在系统中使用CPU、内存、磁盘等计算资源或者存储资源还是比较随心所欲的，我们希望对进程资源利用进行限制，对进程资源的使用进行追踪。这就让cgroup的出现成为了可能，它用来统一将进程进行分组，并在分组的基础上对进程进行监控和资源控制管理。

什么是cgroup

Linux CGroup(Linux Contral Group)，它其实是Linux内核的一个功能，它是Linux下的一种将进程按组进行管理的机制。最开始是由Google工程师Paul Menage和Rohit Seth于2006年发起的，最早起名叫进程容器。在2007之后随着容器得提出，为了避免混乱重命名为cgroup，并且被合并到了内核2.6.24版本中去了。
在用户层看来，cgroup技术就是把系统中的所有进程组织成一颗一颗独立的树，每棵树都包含系统的所有进程，树的每个节点是一个进程组，而每颗树又和一个或者多个subsystem关联。树主要用来将进程进行分组，而subsystem用来对这些组进行操作。

cgroup的组成

cgroup主要包含以下两个部分

subsystem：一个subsystem就是一个内核模块，它被关联到一颗cgroup树之后，就会在树节点进行具体的操作。subsystem经常被称作"resource controller"，因为它主要被用来调度或者限制每个进程组的资源，但是这个说法不完全准确，因为有时我们将进程分组只是为了做一些监控，观察一下他们的状态，比如perf_event subsystem。
hierarchy：一个hierarchy可以理解为一棵cgroup树，树的每个节点就是一个进程组，每棵树都会与多个subsystem关联。在一颗树里面，会包含Linux系统中的所有进程，但每个进程只能属于一个节点（进程组）。系统中可以有很多颗cgroup树，每棵树都和不同的subsystem关联，一个进程可以属于多颗树，即一个进程可以属于多个进程组，这些进程组和不同的subsystem关联。

可以通过查看/proc/cgroup目录查看当前系统支持哪些subsystem关联

第一列：表示subsystem名

第二列：表示关联到的cgroup树的ID，如果多个subsystem关联到同一颗cgroup树，那么它们的这个字段将一样。比如图中的cpuset、cpu和cpuacct。

第三列：表示subsystem所关联的cgroup树中进程组的个数，即树上节点的个数。

cgroup提供的功能

它提供了如下功能

Resource limitation:资源使用限制
Prioritization:优先级控制
Accounting:一些审计或者统计
Control:挂起进程，恢复执行进程

一般我们可以用cgroup做以下事情

隔离一个进程集合（比如MySQL的所有进程），限定他们所占用的资源，比如绑定的核限制
为这组进程分配内存
为这组进程的分配足够的带宽及进行存储限制
限制访问某些设备

cgroup在Linux中表现为一个文件系统，运行如下命令

mount成功后，可以看到，在/sys/fs下有个cgroup目录,这个目录下有很多子系统。比如cpu、cpuset、blkio等。
然后在/sys/fs/cgroup/cpu目录下建个子目录test,这个时候会发现在该目录下多了很多文件

限制cgroup中的CPU

在cgroup里面，跟CPU相关的子系统有cpusets、cpuacct和cpu。
其中cpuset主要用于设置CPU的亲和性，可以限制cgroup中的进程只能在指定的CPU上运行，或者不能在指定的CPU上运行，同时cpuset还能设置内存的亲和性。cpuacct包含当前cgroup所使用的CPU的统计信息。这里我们只说以下cpu。

然后我们在/sys/fs/cgroup/cpu下创建一个子group, 该目录下文件列表

cpu.cfs_period_us用来配置时间周期长度，cpu.cfs_quota_us用来配置当前cgroup在设置的周期长度内所能使用的CPU时间数，两个文件配合起来设置CPU的使用上限。两个文件的单位都是微秒（us），cpu.cfs_period_us的取值范围为1毫秒（ms）到1秒（s），cpu.cfs_quota_us的取值大于1ms即可。
下面来举个例子讲解如何使用cpu限制
假如我们写了一个死循环

运行起来用top查看下占用率达到了100%

我们执行如下命令对cfs_quota_us进行设置

echo 20000 > /sys/fs/cgroup/cpu/test/cpu.cfs_quota_us

这条命令表示把进程的CPU利用率下降20%，然后把进程PID加入到cgroup中

再执行top可以看到cpu利用率下降了

限制cgroup中的内存

代码如果有bug，比如内存泄露等会榨干系统内存，让其它程序由于分配不了足够的内存而出现异常，如果系统配置了交换分区，会导致系统大量使用交换分区，从而系统运行很慢。
而cgroup对进程内存控制主要控制如下：

限制cgroup中所有进程使用的内存总量
限制cgroup中所有进程使用的物理内容+swap交换总量
限制cgroup中所有进程所能使用的内核内存总量及其它一些内核资源(CONFIG_MEMCG_KMEM)。

这里限制内核内存就是限制cgroup当前所使用的内核资源，包括当前进程的内核占空间，socket所占用的内存空间等。当内存吃紧时，可以阻止当前cgroup继续创建进程以及向内核申请分配更多的内核资源。

下面通过一个例子带大家理解cgroup做内存控制的

#include <iostream>
#include <sys/types.h>
#include <cstdlib>
#include <cstdio>
#include <string.h>
#include <unistd.h>

#define CHUNK_SIZE 512

int main()
{
   int size = 0;
   char *p = nullptr;
   while(1)
   {
          if((p = (char*)malloc(CHUNK_SIZE))==nullptr)
          {
              break;
         }

      memset(p, 0, CHUNK_SIZE);
       printf("[%u]-- [%d]MB is allocated ", getpid(), ++size);
       sleep(1);
   }

   return 0;
}

首先，在/sys/fs/cgroup/memory下创建一个子目录即创建了一个子cgroup，比如这里我们创建了一个test目录

$mkdir /sys/fs/cgroup/memory/test

test目录包含以下文件

每个文件的作用大概介绍下：

文件	说明
cgroup.event_control	用于eventfd的接口
memory.usage_in_bytes	显示当前已用的内存
memory.limit_in_bytes	设置/显示当前限制的内存额度
memory.failcnt	显示内存使用量达到限制值的次数
memory.max_usage_in_bytes	历史内存最大使用量
memory.soft_limit_in_bytes	设置/显示当前限制的内存软额度
memory.stat	显示当前cgroup的内存使用情况
memory.use_hierarchy	设置/显示是否将子cgroup的内存使用情况统计到当前cgroup里面
memory.force_empty	触发系统立即尽可能的回收当前cgroup中可以回收的内存
memory.pressure_level	设置内存压力的通知事件，配合cgroup.event_control一起使用
memory.swappiness	设置和显示当前的swappiness
memory.move_charge_at_immigrate	设置当进程移动到其他cgroup中时，它所占用的内存是否也随着移动过去
memory.oom_control	设置/显示oom controls相关的配置
memory.numa_stat	显示numa相关的内存

然后通过写文件memory.limit_in_bytes来设置限额。这里设置5M的限制，如下图所示

把上面示例进程加入这个cgroup，如下图所示

为了避免受swap空间的影响，设置swappiness为0来禁止当前cgroup使用swap，如下图所示

当物理内存达到上限后，系统的默认行为是kill掉cgroup中继续申请内存的进程。那么怎么控制这个行为呢？那就是配置memory.oom_control。这个文件里面包含了一个控制是否为当前cgroup启动OOM-killer的标识。如果写0到这个文件，将启动OOM-killer，当内核无法给进程分配足够的内存时，将会直接kill掉该进程；如果写1到这个文件，表示不启动OOM-killer，当内核无法给进程分配足够的内存时，将会暂停该进程直到有空余的内存之后再继续运行；同时，memory.oom_control还包含一个只读的under_oom字段，用来表示当前是否已经进入oom状态，也即是否有进程被暂停了。还有一个只读的killed_oom字段，用来表示当前是否有进程被kill掉了。

限制cgoup的进程数

cgroup中有一个subsystem叫pids，功能是限制cgroup及其所有子孙cgroup里面能创建的总的task数量。这里的task指通过fork和clone函数创建的进程，由于clone函数也能创建线程，所以这里的task也包含线程。
之前cgroup树是已经挂载好的，这里就直接创建子cgroup，取名为test。命令如下图所示

再来看看test目录下的文件

其中pids.current表示当前cgroup和其所有孙子cgroup现有的总的进程数量。

pids.max 当前cgroup和其所有孙子cgroup所允许创建的最大进程数量。

下面我们做个实验，将pids.max设置为1

然后将当前bash进程加入到该cgroup中

随便运行一个命令，由于在当前窗口pids.current已经等于pids.max了，所以创建进程失败

当前cgroup中的pids.current和pids.max代表了当前cgroup及所有子孙cgroup的所有进程，所以子孙cgroup中的pids.max大小不能超过父cgroup中的大小，如果超过了会怎么样？我们把pids.max设置为3

当前进程数为2

重新打开一个shell窗口，创建个孙子cgroup，将其中的pids.max设置为5

讲当前shell的bash进程写入croup.procs

回到原来的shell窗口随便执行一条命令可以看到执行失败

可以看到，子cgroup中的进程数不仅受制与自己的pids.max，还受制于祖先cgroup的pids.max

到此这篇关于一文带你彻底搞懂Docker中的cgroup的具体使用的文章就介绍到这了,更多相关Docker cgroup内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

详解Docker 容器使用 cgroups 限制资源使用

上一篇文章将到 Docker 容器使用 linux namespace 来隔离其运行环境,使得容器中的进程看起来就像爱一个独立环境中运行一样.但是,光有运行环境隔离还不够,因为这些进程还是可以不受限制地使用系统资源,比如网络.磁盘.CPU以及内存等.为了让容器中的进程更加可控,Docker 使用 Linux cgroups 来限制容器中的进程允许使用的系统资源. 1. 基础知识:Linux control groups 1.1 概念 Linux Cgroup 可让您为系
Docker核心原理之 Cgroup详解

内核中强大的工具cgroup,不仅可以限制被NameSpace隔离起来的资源,还可以为资源设置权重,计算用量等什么是cgroup cgroup全称是control groups control groups:控制组,被整合在了linux内核当中,把进程(tasks)放到组里面,对组设置权限,对进程进行控制.可以理解为用户和组的概念,用户会继承它所在组的权限. cgroups是linux内核中的机制,这种机制可以根据特定的行为把一系列的任务,子任务整合或者分离,按照资源划分的等级的不同,从而实现
docker cgroup 资源监控的详解

docker cgroup 资源监控的详解 1.cgroup术语解析: blkio: 这个subsystem可以为块设备设定输入/输出限制,比如物理驱动设备(包括磁盘.固态硬盘.USB等). cpu: 这个subsystem使用调度程序控制task对CPU的使用. cpuacct: 这个subsystem自动生成cgroup中task对CPU资源使用情况的报告. cpuset: 这个subsystem可以为cgroup中的task分配独立的CPU(此处针对多处理器系统)和内存. devices
Docker底层技术Namespace Cgroup应用详解

Docker底层技术: docker底层的2个核心技术分别是Namespaces和Control groups Namespace:是容器虚拟化的核心技术,用来隔离各个容器,可解决容器之间的冲突. 主要通过以下六项隔离技术来实现: 有两个伪文件系统:/proc和/sys/ UTS:允许每个container拥有独立的hostname(主机名)和domainname(域名),使其在网络上可以被视作一个独立的节点而非Host上的一个进程. IPC:contaner中进程交互还是采用linux常见的进
一文带你彻底搞懂Docker中的cgroup的具体使用

目录什么是cgroup cgroup的组成 cgroup提供的功能限制cgroup中的CPU 限制cgroup中的内存限制cgoup的进程数前言进程在系统中使用CPU.内存.磁盘等计算资源或者存储资源还是比较随心所欲的,我们希望对进程资源利用进行限制,对进程资源的使用进行追踪.这就让cgroup的出现成为了可能,它用来统一将进程进行分组,并在分组的基础上对进程进行监控和资源控制管理. 什么是cgroup Linux CGroup(Linux Contral Group),它其实是Lin
一文带你彻底搞懂Lambda表达式

1. 为什么使用Lambda表达式 Lambda是一个匿名函数,我们可以把Lambda表达式理解为是一段可以传递的代码(将代码像数据一样进行传递).可以写出更简洁.更灵活的代码.作为一种更紧凑的代码风格,使Java的语言表达能力得到了提升. 我们来看一下使用lambda之前创建匿名内部类: new Thread(new Runnable() { @Override public void run() { System.out.println("执行Runnable方法"); } });
一文带你彻底搞懂JavaScript正则表达式

目录正则表达式的概述什么是正则表达式正则表达式的作用正则表达式的特点正则表达式在js中的使用创建正则表达式测试正则表达式 test 正则表达式中的特殊字符正则表达式的组成边界符字符类量词符预定义类正则表达式的替换开发中常用正则表达式小结正则表达式的概述什么是正则表达式正则表达式( Regular Expression ) 是用于匹配字符串中字符组合的模式.在js中,正则表达式也是对象! 正则表达式的作用正则表达式通常被用来检索.替换那些符合某个模式(规则)的
一文带你搞懂JS中六种For循环的使用

目录一.各个 for 介绍 1.for 2.for ... in 3.for ... of 4.for await...of 5.forEach 6.map 二.多个 for 之间区别 1.使用场景差异 2.功能差异 3.性能差异三.for 的使用 for 循环在平时开发中使用频率最高的,前后端数据交互时,常见的数据类型就是数组和对象,处理对象和数组时经常使用到 for 遍历,因此下班前花费几分钟彻底搞懂这 5 种 for 循环.它们分别为: for for ... in for ... o
一文带你搞懂Numpy中的深拷贝和浅拷贝

目录 1. 引言 2. 浅拷贝 2.1 问题引入 2.2 问题剖析 3. 深拷贝 3.1 举个栗子 3.2 探究原因 4. 技巧总结 4.1 判断是否指向同一内存 4.2 其他数据类型 5. 总结 1. 引言深拷贝和浅拷贝是Python中重要的概念,本文重点介绍在NumPy中深拷贝和浅拷贝相关操作的定义和背后的原理. 闲话少说,我们直接开始吧! 2. 浅拷贝 2.1 问题引入我们来举个栗子,如下所示我们有两个数组a和b,样例代码如下: import numpy as np a = np.ar
一文带你搞懂Java中的泛型和通配符

目录概述泛型介绍和使用泛型类泛型方法类型变量的限定通配符使用无边界通配符通配符上界通配符下界概述泛型机制在项目中一直都在使用,比如在集合中ArrayList<String, String>, Map<String,String>等,不仅如此,很多源码中都用到了泛型机制,所以深入学习了解泛型相关机制对于源码阅读以及自己代码编写有很大的帮助.但是里面很多的机制和特性一直没有明白,特别是通配符这块,对于通配符上界.下界每次用每次百度,经常忘记,这次我就做一个总结,加
一文带你搞懂Java中Get和Post的使用

目录 1 Get请求数据 1.1 Controller 1.2 Service 1.3 Application 1.4 Postman 2 Post接收数据 2.1 Controller 2.2 Service 2.3 Application 2.4 Postman 3 Post发送数据 3.1 Controller 3.2 Service 3.3 ResponseResult 3.4 Config 3.5 Application 3.6 Postman 1 Get请求数据项目地址:https
一文带你搞懂Python中的文件操作

目录一.文件的编码二.文件的读取 2.1 open()打开函数 2.2 mode常用的三种基础访问模式 2.3 读操作相关方法三.文件的写入写操作快速入门四.文件的追加追加写入操作快速入门五.文件操作综合案例一.文件的编码计算机中有许多可用编码: UTF-8 GBK Big5 等 UTF-8是目前全球通用的编码格式除非有特殊需求,否则,一律以UTF-8格式进行文件编码即可. 二.文件的读取 2.1 open()打开函数注意:此时的f是open函数的文件对象,对象是Pytho
一文带你搞懂Java中的递归

目录概述递归累加求和计算1 ~ n的和代码执行图解递归求阶乘递归打印多级目录综合案例文件搜索文件过滤器优化 Lambda优化概述递归:指在当前方法内调用自己的这种现象. 递归的分类: 递归分为两种,直接递归和间接递归. 直接递归称为方法自身调用自己. 间接递归可以A方法调用B方法,B方法调用C方法,C方法调用A方法. 注意事项: 递归一定要有条件限定,保证递归能够停止下来,否则会发生栈内存溢出. 在递归中虽然有限定条件,但是递归次数不能太多.否则也会发生栈内存溢出. 构造方
一文带你搞懂JavaScript中的进制与进制转换

目录进制介绍进制转换 parseInt(str, radix) Number() +(一元运算符) Number.prototype.toString(radix) 自定义转换十进制与十六进制转换十进制和二进制转换进制介绍 JavaScript 中提供的进制表示方法有四种:十进制.二进制.十六进制.八进制. 对于数值字面量,主要使用不同的前缀来区分: 十进制(Decimal):取值数字 0-9:不用前缀. 二进制(Binary):取值数字 0 和 1 :前缀 0b 或 0B. 十六进制