详解Linux Namespace之User

User namespace 是 Linux 3.8 新增的一种 namespace,用于隔离安全相关的资源,包括 user IDs and group IDs,keys, 和 capabilities。同样一个用户的 user ID 和 group ID 在不同的 user namespace 中可以不一样(与 PID nanespace 类似)。换句话说,一个用户可以在一个 user namespace 中是普通用户,但在另一个 user namespace 中是超级用户。

User namespace 可以嵌套(目前内核控制最多32层),除了系统默认的 user namespace 外,所有的 user namespace 都有一个父 user namespace,每个 user namespace 都可以有零到多个子 user namespace。 当在一个进程中调用 unshare 或者 clone 创建新的 user namespace 时,当前进程原来所在的 user namespace 为父 user namespace,新的 user namespace 为子 user namespace。

说明:本文的演示环境为 ubuntu 16.04。

创建 user namespace

我们可以通过 unshare 命令的 --user 选项来创建新的 user namespace:

$ unshare -user -r /bin/bash

通过 -r 参数,我们把新的 user namespace 中的 root 用户映射到了外面的 nick 用户(接下来会介绍映射相关的概念)。在新的 user namespace 中,root 用户是有权限创建其它的 namespace 的,比如 uts namespace。这是因为当前的 bash 进程拥有全部的 capabilities:

下面我们创建一个新的 uts namespace 试试:

$ unshare --uts /bin/bash

我们看到,新的 uts namespace 被顺利的创建了。这是因为除了 user namespace 外,创建其它类型的 namespace 都需要 CAP_SYS_ADMIN 的 capability。当新的 user namespace 创建并映射好 uid、gid 了之后, 这个 user namespace 的第一个进程将拥有完整的所有 capabilities,意味着它就可以创建新的其它类型 namespace。

其实没有必要把上面的操作(创建两个 namespace)分成两步,我们可以通 unshare 一次创建多个 namespace:

在 unshare 的实现中,其实就是传入了 CLONE_NEWUSER | CLONE_NEWUTS,大致如下:

unshare(CLONE_NEWUSER | CLONE_NEWUTS);

在上面这种情况下,内核会保证 CLONE_NEWUSER 先被执行,然后执行剩下的其他 CLONE_NEW*,这样就使得不用 root 用户而创建新的容器成为可能,这条规则对于clone 函数也同样适用。

理解 UID 和 GID 的映射

在前面的演示中我们提到了用户在 user namespace 之间的映射,下面我们同样通过演示来理解映射是什么。我们先查看下当前用户的 ID 和 user namespace 情况:

然后执行 unshare --user /bin/bash 命令创建一个新的 user namespace,注意这次没 -r 参数:

$ unshare --user /bin/bash

在新的 user namespace 中,当前用户变成了 nobody,并且 ID 也变成了 65534。

这是因为我们还没有映射父 user namespace 的 user ID 和 group ID 到子 user namespace 中来,这一步是必须的,因为这样系统才能控制一个 user namespace 里的用户在其他 user namespace 中的权限(比如给其它 user namespace 中的进程发送信号,或者访问属于其它 user namespace 挂载的文件)。

如果没有映射,当在新的 user namespace 中用 getuid() 和 getgid() 获取 user ID 和 group ID 时,系统将返回文件 /proc/sys/kernel/overflowuid 中定义的 user ID 以及 proc/sys/kernel/overflowgid 中定义的 group ID,它们的默认值都是 65534。也就是说如果没有指定映射关系的话,会默认会把 ID 映射到 65534。

下面我们来完成 nick 用户在新的 user namespace 中的映射。

映射 ID 的方法就是添加映射信息到 /proc/PID/uid_map 和 /proc/PID/gid_map (这里的 PID 是新 user namespace 中的进程 ID,刚开始时这两个文件都是空的)文件中。这两个文件中的配置信息的格式如下(每个文件中可以有多条配置信息):

ID-inside-ns ID-outside-ns length

比如 0 1000 500 这条配置就表示父 user namespace 中的 1000~1500 映射到新 user namespace 中的 0~500。

对 uid_map 和 gid_map 文件的写入操作有着严格的权限控制,简单点说就是:这两个文件的拥有者是创建新的 user namespace 的用户,所以和这个用户在一个 user namespace 中的 root 账号可以写;这个用户自己是否有写 map 文件的权限还要看它有没有 CAP_SETUID 和 CAP_SETGID 的 capability。注意:只能向 map 文件写一次数据,但可以一次写多条,并且最多只能 5 条。

我们把刚才打开的 shell 窗口称为第一个 shell 窗口开始执行用户的映射操作(把用户 nick 映射为新 user namespace 中的 root)。

第一步,先在第一个 shell 窗口中查看当前进程的 ID:

第二步,新打开一个 shell 窗口,我称之为第二个 shell 窗口。查看进程 3049 的映射文件属性:

用户 nick 是这两个文件的所有者,让我们尝试向这两个文件写入映射信息:

看上去很奇怪呀,明明是文件的所有者,却没有权限向文件中写入内容!其实根本的原因在于当前的 bash 进程没 CAP_SETUID 和 CAP_SETGID 的权限:

下面我们为 /bin/bash 程序设置相关的 capabilities:

代码如下:

$ sudo setcap cap_setgid,cap_setuid+ep /bin/bash

$ sudo setcap cap_setgid,cap_setuid+ep /bin/bash

然后重新加载 bash,就可以看到相应的 capabilities 了:

现在重新向 map 文件写入映射信息:

$ echo '0 1000 500' > /proc/3049/uid_map
$ echo '0 1000 500' > /proc/3049/gid_map

这次的写入成功了。后面就不需要我们手动写入映射信息了,所以我们通过下面的命令把 /bin/bash 的 capability 恢复为原来的设置:

$ sudo setcap cap_setgid,cap_setuid-ep /bin/bash

第三步,回到第一个 shell 窗口

重新加载 bash,并执行 id 命令:

当前用户已经变成了 root(新的 user namespace 中的 root 用户)。在看看当前 bash 进程具有的 capability:

0000003fffffffff 表示当前运行的 bash 拥有所有的 capability。

第四步,在第一个 shell 窗口中

查看 /root 目录的访问权限:

没权限啊!尝试修改主机的名称:

依然是没有权限啊!看来这个新 user namespace 中的 root 用户在父 user namespace 里面不好使。这也正是 user namespace 所期望达到的效果,当访问其它 user namespace 里的资源时,是以其它 user namespace 中的相应用户的权限来执行的,比如这里 root 对应父 user namespace 的用户是 nick,所以改不了系统的 hostname。

普通用户 nick 没有修改 hostname 的权限,那把默认的 user namespace 中的 root 用户映射为子 user namespace 中的 root 用户后可以修改 hostname 吗?答案是,不行!那是因为不管怎么映射,当用子 user namespace 的用户访问父 user namespace 的资源的时候,它启动的进程的 capability 都为空,所以这里子 user namespace 的 root 用户在父 user namespace 中就相当于一个普通的用户。

User namespace 与其它 namespace 的关系

Linux 下的每个 namespace,都有一个 user namespace 与之关联,这个 user namespace 就是创建相应 namespace 时进程所属的 user namespace,相当于每个 namespace 都有一个 owner(user namespace),这样保证对任何 namespace 的操作都受到 user namespace 权限的控制。这也是为什么在子 user namespace 中设置 hostname 失败的原因,因为要修改的 uts namespace 属于的父 user namespace,而新 user namespace 的进程没有老 user namespace 的任何 capabilities。

以 uts namespace 为例,在 uts_namespace 的结构体中有一个指向 user namespace 的指针,指向它所属的 user namespace(笔者查看的 v4.13内核,uts_namespace 结构体的定义在 /include/linux/utsname.h 文件中):

其它 namespace 的定义也是类似的。

总结

相对其它的 namespace 而言,user namespace 稍显复杂。这是由其功能决定的,涉及到权限管理的内容时,事情往往会变得不那么直观。笔者在本文中也只是介绍了 user namespace 的基本概念,更多丰富有趣的内容还有待大家自行发掘。

参考:

user namespace man page
Namespaces in operation, part 5: User namespaces
Namespaces in operation, part 6: more on user namespaces
Linux capabilities

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • Docker基础知识之Linux namespace图文详解

    前言 Docker 是"新瓶装旧酒"的产物,依赖于 Linux 内核技术 chroot .namespace 和 cgroup.本篇先来看 namespace 技术. Docker 和虚拟机技术一样,从操作系统级上实现了资源的隔离,它本质上是宿主机上的进程(容器进程),所以资源隔离主要就是指进程资源的隔离.实现资源隔离的核心技术就是 Linux namespace.这技术和很多语言的命名空间的设计思想是一致的(如 C++ 的 namespace). 隔离意味着可以抽象出多个轻量级的内核

  • 详解Linux Namespace之User

    User namespace 是 Linux 3.8 新增的一种 namespace,用于隔离安全相关的资源,包括 user IDs and group IDs,keys, 和 capabilities.同样一个用户的 user ID 和 group ID 在不同的 user namespace 中可以不一样(与 PID nanespace 类似).换句话说,一个用户可以在一个 user namespace 中是普通用户,但在另一个 user namespace 中是超级用户. User nam

  • 详解Linux 主机网络接入配置

    详解Linux 主机网络接入配置 前言: 网络配置是我们在安装好操作系统之后,需要解决的第一步.现时代没有接入网络的主机已然等同于一堆废铁.在网络配置的过程中,通常我们需要配置本机IP地址,缺省网关,DNS,主机名等等.本文主要描述在Linux环境下,主要以传统命令行方式讲解如何将主机接入网络.对于网路配置的新命令如ip,nmcli等等在以后的文章中描述. 一.网络配置概述 主机接入互联网前提:遵循TCP/IP协议栈 配置主机接入TCP/IP网络需要配置的内容:   IP/Netmask   路

  • 详解Linux命令中的正则表达式

    命令中的正则表达式 如果要在命令输出或文本中筛选内容时使用模糊查找,就需要使用正则表达式.正则表达式是一套由多个元字符组成的模糊查找模式,使用正则表达式可以快速查找和定位文本中指定的内容. 1.单字符匹配符.  正则表达式主要由一些元字符和匹配模式组成 单字符匹配符可以匹配任意单个字符,这个字符的功能和文件名匹配符中的?功能相同 使用正则表达式查找文本,首先需要使用元字符组成一个查找模式 (1)使用查找模式时,通常将其放入两个斜杠//中,然后再放入命令,例如要在一个文本中查找匹配模式/.i...

  • 详解Linux使用shell+expect远程登录主机

    详解Linux使用shell+expect远程登录主机 最近使用Ubuntu系统想远程登录自己的vps主机,但是感觉自带的远程登录软件不太好使.于是乎想着怎么使用shell脚本来登录,于是Google之后整理了一下,记录一下,方便以后用到. 1.准备工作:安装expect for Ubuntu sudo apt-get update sudo apt-get install expect for Centos yum install expect 2.新建脚本粘贴以下内容 #!/usr/bin/

  • 详解Linux命令iostat

    Linux系统出现了性能问题,一般我们可以通过top.iostat.free.vmstat等命令来查看初步定位问题.在一个以前看到系统监控工具,总在想那些监控工具的代理,如何收集系统性能信息,io性能,cpu使用,带宽使用等信息,偶然发现,不同系统均提供有性能分析工具的,代理可通过这些命令获取系统性能信息,个人猜测,不知道具体是不是这样的.其中iostat可以给我们提供丰富的IO状态数据,下边就来看一下iostat如何使用,命令能够输出那些信息. 简述 Linux系统中通过iostat我们能查看

  • 详解Linux 下开发微信小程序安装开发工具

    详解Linux 下开发微信小程序安装开发工具 1. git clone https://github.com/yuan1994/wechat_web_devtools 然后创建一个文件夹 mkdir /opt/tencent/ 移动文件 mv ./wechat_web_devtools /opt/tencent 修改用户组 chown -R root:root /opt/tencent/wechat_web_devtools 启动测试工具 /opt/tencent/wechat_web_devt

  • 详解 linux mysqldump 导出数据库、数据、表结构

    详解 linux mysqldump 导出数据库.数据.表结构 导出完整的数据库备份: mysqldump -h127.0.0.1 -P3306 -uroot -ppassword --add-locks -q dbname > dbname.sql 说明:--add-locks:导出过程中锁定表,完成后回解锁.-q:不缓冲查询,直接导出至标准输出 导出完整的数据库表结构 : mysqldump -h127.0.0.1 -P3306 -uroot -ppassword --add-locks -

  • 详解Linux上svn命令行批量操作

    详解Linux上svn命令行批量操作 虽然说git很好,大多数时候我也是使用git,但是有时候因为一些原因,不得不使用svn,而在linux上使用svn是没有像windows上的tortoisesvn的软件的(网上有说有类似的,但是折腾了很久仍然没有成功),所以直接来命令行吧. 我们直接安装svn就好,然后文件修改之后使用命令 svn status 查看文件的跟踪信息,这里会使用一些代号,对应的大概是 " " 无修改 "A" 新增 "C" 冲突

  • 详解Linux下读取位图的注意事项

    详解Linux下读取位图的注意事项 在Linux下读取位图遇到的问题,很好地体现了linux与Windows操作系统的不同.按理说位图格式与操作系统无关,读取也应该无关,实际上在位图读到内存中时已经不同.下面主要介绍自己在Linux下操作位图遇到的问题. (一).位图结构 位图一开始是两个结构体,包括位图的详细信息,是读取后面数据的关键.所以读取位图首先要正确读取这两个结构体:BITMAPFILEHEADER和BITMAPINFOHEADER.其具体定义为: typedef struct tag

  • 详解linux下利用crontab创建定时任务

    Linux下可以利用crontab创建定时任务. 常用搭配 crontab -e 编辑任务 crontab -l 查看所有任务[该用户] crontab -r 取消所有任务[该用户] 任务格式 × × × × × +命令(具体任务) 前5个参数表示时间,依次为: 参数 范围 分钟 0-59 小时 0-23 日期 1-31 月份 1-12 星期 0-6(0代表星期日) 特殊符号 为了精确表示定时,需要一些特殊符号来描述具体的任务执行时间.有以下几个符号: "/" 代表每,每隔多长时间 &

随机推荐