Google和Facebook不使用Docker的原理解析

写作本文的起因是我想让修改后的分布式 PyTorch 程序能更快的在 Facebook 的集群上启动。探索过程很有趣,也展示了工业机器学习需要的知识体系。

2007 年我刚毕业后在 Google 工作过三年。当时觉得分布式操作系统 Borg 真好用。

从 2010 年离开 Google 之后就一直盼着它开源,直到 Kubernetes 的出现。

Kubernetes 调度的计算单元是 containers(准确的翻译是“集装箱”,而不是意思泛泛的“容器”,看看 Docker 公司的 Logo 上画的是啥就知道作者的心意了)。

而一个 container 执行一个 image,就像一个 process 执行一个 program。

无论 Googlers 还是 ex-Googlers,恐怕在用 Borg 的时候都未曾接触过 container 和 image 这两个概念。为啥 Borg 里没有,而 Kubernetes 却要引入了这样两个概念呢?

这个曾经问题在我脑海中一闪而过就被忽略了。毕竟后来我负责开源项目比较多,比如百度 Paddle 以及蚂蚁的 SQLFlow 和 ElasticDL,Docker 用起来很顺手。于是也就没有多想。

今年(2021 年)初,我加入 Facebook。恰逢 Facebook 发论文[1]介绍了其分布式集群管理系统 Tupperware。

不过 Tupperware 是一个注册于 1946 年的品牌 https://en.wikipedia.org/wiki/Tupperware_Brands,所以在论文里只好起了另一个名字 Twine。

因为行业里知道 Tupperware 这个名字的朋友很多,本文就不说 Twine 了。

总之,这篇论文的发表又引发了我对于之前问题的回顾——Facebook 里也没有 Docker!

和 Facebook Tuppware 团队以及 Google Borg 几位新老同事仔细聊了聊之后,方才恍然。因为行业里没有看到相关梳理,本文是为记录。

一言蔽之

简单的说,如果用 monolithic repository 来管理代码,则不需要 Docker image(或者 ZIP、tarball、RPM、deb)之类的“包”。

所谓 monolithic repo 就是一家公司的所有项目的所有代码都集中放在一个(或者极少数)repo 里。

因为 monolithic repository 得有配套的统一构建系统(build system)否则编译不动那么老大一坨代码。

而既然有统一的 build system,一旦发现某个集群节点需要执行的程序依赖的某个模块变化了,同步这个模块到此节点既可。完全不需要打包再同步。

反之,如果每个项目在一个独立的 git/svn repo 里,各自用不同的 build system,比如各个开源项目在不同的 GitHub repo 里,则需要把每个项目 build 的结果打包。

而 Docker image 这样支持分层的包格式让我们只需要传输那些容纳被修改的项目的最上面几层,而尽量复用被节点 cache 了的下面的几层。

Google 和 Facebook 都使用 monolithic repository,也都有自己的 build systems(我这篇老文寻找 Google Blaze[2] 解释过 Google 的 build system)所以不需要“包”,当然也就不需要 Docker images。

不过 Borg 和 Tupperware 都是有 container 的(使用 Linux kernel 提供的一些 system calls,比如 Google Borg 团队十多年前贡献给 Linux kernel 的 cgroup)来实现 jobs 之间的隔离。

只是因为如果不需要大家 build Docker image 了,那么 container 的存在就不容易被关注到了。

如果不想被上述蔽之,而要细究这个问题,那就待我一层一层剥开 Google 和 Facebook 的研发技术体系和计算技术体系。

Packaging

当我们提交一个分布式作业(job)到集群上去执行,我们得把要执行的程序(包括一个可执行文件以及相关的文件,比如 *.so,*.py)传送到调度系统分配给这个 job 的一些机器(节点、nodes)上去。

这些待打包的文件是怎么来的呢?当时是 build 出来的。在 Google 里有 Blaze,在 Facebook 里有 Buck。

感兴趣的朋友们可以看看 Google Blaze 的“开源版本”Bazel[3],以及 Facebook Buck 的开源版本[4]。

不过提醒在先:Blaze 和 Facebook Buck 的内部版都是用于 monolithic repo 的,而开源版本都是方便大家使用非 mono repos 的,所以理念和实现上有不同,不过基本使用方法还是可以感受一下的。

假设我们有如下模块依赖(module dependencies),用 Buck 或者 Bazel 语法描述(两者语法几乎一样):

python_binary(name="A", srcs=["A.py"], deps=["B", "C"], ...)
python_library(name="B", srcs=["B.py"], deps=["D"], ...)
python_library(name="C", srcs=["C.py"], deps=["E"], ...)
cxx_library(name="D", srcs=["D.cxx", "D.hpp"], deps="F", ...)
cxx_library(name="E", srcs=["E.cxx", "E.hpp"], deps="F", ...)

那么模块(build 结果)依赖关系如下:

A.py --> B.py --> D.so -\
     \-> C.py --> E.so --> F.so

如果是开源项目,请自行脑补,把上述模块(modules)替换成 GPT-3,PyTorch,cuDNN,libc++ 等项目(projects)。

当然,每个 projects 里包含多个 modules 也依赖其他 projects,就像每个 module 有多个子 modules 一样。

Tarball

最简单的打包方式就是把上述文件 {A,B,C}.py, {D,E,F}.so 打包成一个文件 A.zip,或者 A.tar.gz。

更严谨的说,文件名里应该包括版本号。比如 A-953bc.zip,其中版本号 953bc 是 git/Mercurial commit ID。

引入版本号,可以帮助在节点本地 cache,下次运行同一个 tarball 的时候,就不需要下载这个文件了。

请注意这里我引入了 package caching 的概念。为下文解释 Docker 预备。

XAR

ZIP 或者 tarball 文件拷贝到集群节点上之后,需要解压缩到本地文件系统的某个地方,比如:/var/packages/A-953bc/{A,B,C}.py,{D,E,F}.so。

一个稍显酷炫的方式是不用 Tarball,而是把上述文件放在一个 overlay filesystem 的 loopback device image 里。这样“解压”就变成了“mount”。

请注意这里我引入了 loopback device image 的概念。为下文解释 Docker 预备。

什么叫 loopback device image 呢?在 Unix 里,一个目录树的文件们被称为一个文件系统(filesystem)。

通常一个 filesystem 存储在一个 block device 上。什么是 block device 呢?

简单的说,但凡一个存储空间可以被看作一个 byte array 的,就是一个 block device。

比如一块硬盘就是一个 block device。在一个新买的硬盘里创建一个空的目录树结构的过程,就叫做格式化(format)。

既然 block device 只是一个 byte array,那么一个文件不也是一个 byte array 吗?

是的!在 Unix 的世界里,我们完全可以创建一个固定大小的空文件(用 truncate 命令),然后“格式化”这个文件,在里面创建一个空的文件系统。然后把上述文件 {A,B,C}.py,{D,E,F}.so 放进去。

比如 Facebook 开源的 XAR 文件[5]格式。这是和 Buck 一起使用的。

如果我们运行 buck build A 就会得到 A.xar . 这个文件包括一个 header,以及一个 squashfs loopback device image,简称 squanshfs image。

这里 squashfs 是一个开源文件系统。感兴趣的朋友们可以参考这个教程[6],创建一个空文件,把它格式化成 squashfs,然后 mount 到本地文件系统的某个目录(mount point)里。

待到我们 umount 的时候,曾经加入到 mount point 里的文件,就留在这个“空文件”里了。

我们可以把它拷贝分发给其他人,大家都可以 mount 之,看到我们加入其中的文件。

因为 XAR 是在 squashfs image 前面加上了一个 header,所以没法用 mount -t squashf 命令来 mount,得用 mount -t xar 或者 xarexec -m 命令。

比如,一个节点上如果有了 /packages/A-953bc.xar,我们可以用如下命令看到它的内容,而不需要耗费 CPU 资源来解压缩:

xarexec -m A-953bc.xar

这个命令会打印出一个临时目录,是 XAR 文件的 mount point。

分层

如果我们现在修改了 A.py,那么不管是 build 成 tarball 还是 XAR,整个包都需要重新更新。

当然,只要 build system 支持 cache,我们是不需要重新生成各个 *.so 文件的。

但是这个不解决我们需要重新分发 .tar.gz 和 .xar 文件到集群的各个节点的麻烦。

之前节点上可能有老版本的 A-953bc87fe.{tar.gz,xar} 了,但是不能复用。为了复用 ,需要分层。

对于上面情况,我们可以根据模块依赖关系图,构造多个 XAR 文件。

A-953bc.xar --> B-953bc.xar --> D-953bc.xar -\
            \-> C-953bc.xar --> E-953bc.xar --> F-953bc.xar

其中每个 XAR 文件里只有对应的 build rule 产生的文件。比如,F-953bc.xar 里只有 F.so。

这样,如果我们只修改了 A.py,则只有 A.xar 需要重新 build 和传送到集群节点上。这个节点可以复用之前已经 cache 了的 {B,C,D,E,F}-953bc.xar 文件。

假设一个节点上已经有 /packages/{A,B,C,D,E,F}-953bc.xar,我们是不是可以按照模块依赖顺序,运行 xarexec -m 命令,依次 mount 这些 XAR 文件到同一个 mount point 目录,既可得到其中所有的内容了呢?

很遗憾,不行。因为后一个 xarexec/mount 命令会报错 —— 因为这个 mount point 已经被前一个 xarexec/mount 命令占据了。

下面解释为什么文件系统 image 优于 tarball。

那退一步,不用 XAR 了,用 ZIP 或者 tar.gz 不行吗?可以,但是慢。我们可以把所有 .tar.gz 都解压缩到同一个目录里。

但是如果 A.py 更新了,我们没法识别老的 A.py 并且替换为新的,而是得重新解压所有 .tar.gz 文件,得到一个新的文件夹。而重新解压所有的 {B,C,D,E,F}.tar.gz 很慢。

Overlay Filesystem

有一个申请的开源工具 fuse-overlayfs。它可以把几个目录“叠加”(overlay)起来。

比如下面命令把 /tmp/{A,B,C,D,E,F}-953bc 这几个目录里的内容都“叠加”到 /pacakges/A-953bc 这个目录里。

fuse-overlayfs -o \
  lowerdir="/tmp/A-953bc:/tmp/B-953bc:..." \
  /packages/A-953bc

而 /tmp/{A,B,C,D,E,F}-953bc 这几个目录来自 xarcexec -m /packages/{A,B,C,D,E,F}-953bc.xar。

请注意这里我引入了 overlay filesystem 的概念。为下文解释 Docker 预备。fuse-overlayfs 是怎么做到这一点的呢?

当我们访问任何一个文件系统目录,比如 /packages/A 的时候,我们使用的命令行工具(比如 ls )调用 system calls(比如 open/close/read/write) 来访问其中的文件。

这些 system calls 和文件系统的 driver 打交道 —— 它们会问 driver:/packages/A 这个目录里有没有一个叫 A.py 的文件呀?

如果我们使用 Linux,一般来说,硬盘上的文件系统是 ext4 或者 btrfs。也就是说,Linux universal filesystem driver 会看看每个分区的文件系统是啥,然后把 system call 转发给对应的 ext4/btrfs driver 去处理。

一般的 filesystem drivers 和其他设备的 drivers 一样运行在 kernel mode 里。

这是为什么一般我们运行 mount 和 umount 这类操作 filesystems 的命令的时候,都需要 sudo。而 FUSE 是一个在 userland 开发 filesystem driver 的库。

fuse-overlayfs 这命令利用 FUSE 这个库,开发了一个运行在 userland 的 fuse-overlayfs driver。

当 ls 命令询问这个 overlayfs driver /packages/A-953bc 目录里有啥的时候,这个 fuse-overlayfs driver 记得之前用户运行过 fuse-overlayfs 命令把 /tmp/{A,B,C,D,E}-953bc 这几个目录给叠加上去过,所以它返回这几个目录里的文件。

此时,因为 /tmp/{A,B,C,D,E}-953bc 这几个目录其实是 /packages/{A,B,C,D,E,F}-953bc.xar 的 mount points,所以每个 XAR 就相当于一个 layer。

像 fuse-overlayfs driver 这样实现把多个目录“叠加”起来的 filesystem driver 被称为 overlay filesystem driver,有时简称为 overlay filesystems。

Docker Image and Layer

上面说到用 overlay filesystem 实现分层。用过 Docker 的人都会熟悉一个 Docker image 由多层构成。

当我们运行 docker pull <image-name> 命令的时候,如果本机已经 cache 了这个 image 的一部分 layers,则省略下载这些 layers。这其实就是用 overlay filesystem 实现的。

Docker 团队开发了一个 filesystem(driver)叫做 overlayfs —— 这是一个特定的 filesystem 的名字。

顾名思义,Docker overlayfs 也实现了“叠加”(overlay)的能力,这就是我们看到每个 Docker image 可以有多个 layers 的原因。

Docker 的 overlayfs 以及它的后续版本 overlayfs2 都是运行在 kernel mode 里的。

这也是 Docker 需要机器的 root 权限的原因之一,而这又是 Docker 被诟病容易导致安全漏斗的原因。

有一个叫 btrfs 的 filesystem,是 Linux 世界里最近几年发展很迅速的,用于管理硬盘效果很好。

这个 filesystem 的 driver 也支持 overlay。所以 Docker 也可以被配置为使用这个 filesystem 而不是 overlayfs。

不过只有 Docker 用户的电脑的 local filesystem 是 btrfs 的时候,Docker 才能用 btrfs 在上面叠加 layers。

所以说,如果你用的是 macOS 或者 Windows,那肯定没法让 Docker 使用 btrfs 了。

不过如果你用的是 fuse-overlayfs,那就是用了一副万灵药了。只是通过 FUSE 在 userland 运行的 filesystem 的性能很一般,不过本文讨论的情形对性能也没啥需求。

其实 Docker 也可以被配置使用 fuse-overlayfs。Docker 支持的分层 filesystem 列表在这里 Docker storage drivers[7]。

为什么需要 Docker Image

总结上文所述,从编程到可以在集群上跑起来,我们要做几个步骤:

  1. 编译:把源码编译成可执行的形式。
  2. 打包:把编译结果纳入一个“包”里,以便部署和分发
  3. 传输:通常是集群管理系统(Borg、Kubernetes、Tupperware 来做)。如果要在某个集群节点上启动 container,则需要把“包”传输到此节点上,除非这个节点曾经运行过这个程序,已经有包的 cache。
  4. 解包:如果“包”是 tarball 或者 zip,到了集群节点上之后需要解压缩;如果“包”是一个 filesystem image,则需要 mount。

把源码分成模块,可以让编译这步充分利用每次修改只改动一小部分代码的特点,只重新编译被修改的模块,从而节省时间。

为了节省 2,3 和 4 的时间,我们希望“包”是分层的。每一层最好只包含一个或者几个代码模块。这样,可以利用模块之间的依赖关系,尽量复用容纳底层模块的“层”。

在开源的世界里,我们用 Docker image 支持分层的特点,一个基础层可能只包括某个 Linux distribution(比如 CentOS)的 userland programs,如 ls、cat、grep 等。

在其上,可以有一个层包括 CUDA。再其上安装 Python 和 PyTorch。再再之上的一层里是 GPT-3 模型的训练程序。

这样,如果我们只是修改了 GPT-3 训练程序,则不需要重新打包和传输下面三层。

这里的逻辑核心是:存在“项目”(project)的概念。每个项目可以有自己的 repo,自己的 building system(GNU make、CMake、Buck、Bazel 等),自己的发行版本(release)。

所以每个项目的 release 装进 Docker image 的一层 layer。与其前置多层合称为一个 image。

为什么 Google 和 Facebook 不需要 Docker

经过上述这么多知识准备,请我们终于可以点题了。

因为 Google 和 Facebook 使用 monolithic repository,使用统一的 build system(Google Blaze 或者 Facebook Buck)。

虽然也可以利用“项目”的概念,把每个项目的 build result 装入 Docker image 的一层。但是实际上并不需要。

利用 Blaze 和 Buck 的 build rules 定义的模块,以及模块之间依赖关系,我们可以完全去打包和解包的概念。

没有了包,当然就不需要 zip、tarball、以及 Docker image 和 layers 了。

直接把每个模块当做一个 layer 既可。如果 D.so 因为我们修改了 D.cpp 被重新编译,那么只重新传输 D.so 既可,而不需要去传输一个 layer 其中包括 D.so。

于是,在 Google 和 Facebook 里,受益于 monolithic repository 和统一的 build 工具。

我们把上述四个步骤省略成了两个:

  1. 编译:把源码编译成可执行的形式。
  2. 传输:如果某个模块被重新编译,则传输这个模块。

Google 和 Facebook 没在用 Docker

上一节说了 monolithic repo 可以让 Google 和 Facebook 不需要 Docker image。

现实是 Google 和 Facebook 没有在使用 Docker。这两个概念有区别。

我们先说“没在用”。历史上,Google 和 Facebook 使用超大规模集群先于 Docker 和 Kubernetes 的出现。当时为了打包方便,连 tarball 都没有。

对于 C/C++ 程序,直接全静态链接,根本没有 *.so。于是一个 executable binary file 就是“包”了。

直到今天,大家用开源的 Bazel 和 Buck 的时候,仍然可以看到默认链接方式就是全静态链接。

Java 语言虽然是一种“全动态链接”的语言,不过其诞生和演进扣准了互联网历史机遇,其开发者发明 jar 文件格式,从而支持了全静态链接。

Python 语言本身没有 jar 包,所以 Blaze 和 Bazel 发明了 PAR 文件格式(英语叫 subpar),相当于为 Python 设计了一个 jar。开源实现在这里[8]。

类似的,Buck 发明了 XAR 格式,也就是我上文所说的 squashfs image 前面加了一个 header。其开源实现在这里[9]。

Go 语言默认就是全静态链接的。在 Rob Pike 早期的一些总结里提到,Go 的设计,包括全静态链接,基本就是绕坑而行,绕开 Google C/C++ 实践中遇到过的各种坑。

熟悉 Google C++ style guide 的朋友们应该感觉到了 Go 语法覆盖了 guide 说的“应该用的 C++ 语法”,而不支持 guide 说的 “不应该用的 C++ 的部分”。

简单的说,历史上 Google 和 Facebook 没有在用 Docker image,很重要的一个原因是,其 build system 对各种常见语言的程序都可以全静态链接,所以可执行文件就是“包”。

但这并不是最好的解法,毕竟这样就没有分层了。哪怕我只是修改了 main 函数里的一行代码,重新编译和发布,都需要很长时间,十分钟甚至数十分钟,要知道全静态链接得到的可执行文件往往大小以 GB 计。

所以全静态链接虽然是 Google 和 Facebook 没有在用 Docker 的原因之一,但是并不是一个好选择。

所以也没被其他公司效仿。大家还是更愿意用支持分层 cache 的 Docker image。

完美解法的技术挑战

完美的解法应该支持分层 cache(或者更精确的说是分块 cache)。所以还是应该用上文介绍的 monolithic repo 和统一 build system 的特点。

但是这里有一个技术挑战,build system 描述的模块,而模块通常比“项目”细粒度太多了。

以 C/C++ 语言为例,如果每个模块生成一个 .so 文件,当做一个“层”或者“块”以便作为 cache 的单元,那么一个应用程序可能需要的 .so 数量就太多了。

启动应用的时候,恐怕要花几十分钟来 resolve symbols 并且完成链接。

所以呢,虽然 monolithic repo 有很多好处,它也有一个缺点,不像开源世界里,大家人力的把代码分解成“项目”。

每个项目通常是一个 GitHub repo,其中可以有很多模块,但是每个项目里所有模块 build 成一个 *.so 作为一个 cache 的单元。

因为一个应用程序依赖的项目数量总不会太多,从而控制了 layer 的总数。

好在这个问题并非无解。既然一个应用程序对各个模块的依赖关系是一个 DAG,那么我们总可以想办法做一个 graph partitioning,把这个 DAG 分解成不那么多的几个子图。

仍然以 C/C++ 程序为例,我们可以把每个子图里的每个模块编译成一个 .a,而每个子图里的所有 .a 链接成一个 *.so,作为一个 cache 的单元。

于是,如何设计这个 graph partitioning 算法就成了眼前最重要的问题了。

相关链接:

https://engineering.fb.com/2019/06/06/data-center-engineering/twine/

https://zhuanlan.zhihu.com/p/55452964

https://bazel.build/

https://buck.build/

https://github.com/facebookincubator/xar

https://tldp.org/HOWTO/SquashFS-HOWTO/creatingandusing.html

https://docs.docker.com/storage/storagedriver/select-storage-driver/

https://github.com/google/subpar

https://github.com/facebookincubator/xar

到此这篇关于Google和Facebook不使用Docker的原理解析的文章就介绍到这了,更多相关Google和Facebook不使用Docker内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 网页上facebook分享功能具体实现

    复制代码 代码如下: <span style=" font-family: Verdana, Arial, Helvetica, sans-serif; word-wrap: normal; word-break: normal; line-height: 19.5px;"><span style="word-wrap:normal; word-break:normal; line-height:19px"></span><

  • 让PHP显示Facebook的粉丝数量方法

    如果你的网站或者博客上有内链的Facebook页面,你或许想知道拥有多少粉丝.这段代码将帮助你查看Facebook粉丝数,记住,别忘了在你的页面ID第二行添加该段代码. 复制代码 代码如下: <span style="font-size:12px;"><?php $page_id = "YOUR PAGE-ID"; $xml = @simplexml_load_file("http://api.facebook.com/restserve

  • 实现类似facebook无刷新ajax更新

    复制代码 代码如下: <script type="text/javascript"> $(document).ready(function() { $('.edit_link').click(function() { $('.text_wrapper').hide(); var data=$('.text_wrapper').html(); $('.edit').show(); $('.editbox').html(data); $('.editbox').focus();

  • JSONP获取Twitter和Facebook文章数的具体步骤

    原文是使用的Twitter和Facebook,因为国内被强,所以我觉得有用的是里面一个获取JSONP的那个工具类. 我很头疼的是,许多流行的 APIs 已经要求身份验证才能获取信息. 既然我可以访问到这些页面并取得信息,那为什么我不使用一些简单的代码来获取并跳过验证这一步呢? 我认为Twitter和Facebook要求身份验证来获取文章的数量,但事实证明你可以通过JSONP来获取这些信息.请参考下面的步骤. The JavaScript 我将使用基本的JavaScript来告诉你如何做到这一点:

  • 使用beaker让Facebook的Bottle框架支持session功能

    bottle是一个小型web框架,很小只有一个文件,但功能确很强大,学起来也简单,简单和小巧的同时也有很多不足,某些功能支持还不是很完善,比如session.但是也有它自身的好处,我们可以自己或使用别的模块来扩展它,不像django,很强大,但是想要进一步扩展的时候确无从下手.我们可以把非常简单而强大的bottle自己动手将它变得更加强大和完善. bottle小巧支持cookie但是不支持session.为了安全起见我们有时候希望使用的session.我们可以使用中间件beaker来扩展bott

  • Google和Facebook不使用Docker的原理解析

    写作本文的起因是我想让修改后的分布式 PyTorch 程序能更快的在 Facebook 的集群上启动.探索过程很有趣,也展示了工业机器学习需要的知识体系. 2007 年我刚毕业后在 Google 工作过三年.当时觉得分布式操作系统 Borg 真好用. 从 2010 年离开 Google 之后就一直盼着它开源,直到 Kubernetes 的出现. Kubernetes 调度的计算单元是 containers(准确的翻译是"集装箱",而不是意思泛泛的"容器",看看 Do

  • Docker Swarm集群管理的使用及原理解析

    Swarm 集群管理 简介 Docker Swarm 是 Docker 的集群管理工具.它将 Docker 主机池转变为单个虚拟 Docker 主机. Docker Swarm 提供了标准的 Docker API,所有任何已经与 Docker 守护程序通信的工具都可以使用 Swarm 轻松地扩展到多个主机. 支持的工具包括但不限于以下各项: Dokku Docker Compose Docker Machine 原理 如下图所示,swarm 集群由管理节点(manager)和工作节点(work

  • Docker镜像构建原理解析(不装docker也能构建镜像)

    在devops流程里面 构建镜像是一个非常重要的过程,一般构建镜像是写dockerfile文件然后通过docker client来构建的image. docker client 会先检查本地有没有image,如果没有帮你 从镜像仓库 pull 下来 然后解析你写的dockerfile构建新的image. 本文带你了解 pull 命令 背后是怎么做的? build 命令 背后是怎么做的? 下篇文章带你解析: 如果我不用docker 我如何构建一个镜像? 我们以微软的aspnet2.2为基础构建一个

  • Docker网络原理及自定义网络详细解析

    Docker在宿主机上虚拟了一个网桥,当创建并启动容器的时候,每一个容器默认都会被分配一个跟网桥网段一致的ip,网桥作为容器的网关,网桥与每一个容器联通,容器间通过网桥可以通信.由于网桥是虚拟出来的,外网无法进行寻址,也就是默认外网无法访问容器,需要在创建启动容器时把宿主机的端口与容器端口进行映射,通过宿主机IP端口访问容器.这是Docker默认的网络,它有一个弊端是只能通过IP让容器互相访问,如果想使用容器名称或容器ID互相访问需要在创建启动容器时候用link的方式修改hosts文件实现.一般

  • Docker核心原理之 Cgroup详解

    内核中强大的工具cgroup,不仅可以限制被NameSpace隔离起来的资源,还可以为资源设置权重,计算用量等 什么是cgroup cgroup全称是control groups control groups:控制组,被整合在了linux内核当中,把进程(tasks)放到组里面,对组设置权限,对进程进行控制.可以理解为用户和组的概念,用户会继承它所在组的权限. cgroups是linux内核中的机制,这种机制可以根据特定的行为把一系列的任务,子任务整合或者分离,按照资源划分的等级的不同,从而实现

  • Android中微信抢红包插件原理解析及开发思路

    一.前言 自从去年中微信添加抢红包的功能,微信的电商之旅算是正式开始正式火爆起来.但是作为Android开发者来说,我们在抢红包的同时意识到了很多问题,就是手动去抢红包的速度慢了,当然这些有很多原因导致了.或许是网络的原因,而且这个也是最大的原因.但是其他的不可忽略的因素也是要考虑到进去的,比如在手机充电锁屏的时候,我们并不知道有人已经开始发红包了,那么这时候也是让我们丧失了一大批红包的原因.那么关于网络的问题,我们开发者可能用相关技术无法解决(当然在Google和Facebook看来的话,他们

  • python实现布隆过滤器及原理解析

    在学习redis过程中提到一个缓存击穿的问题, 书中参考的解决方案之一是使用布隆过滤器, 那么就有必要来了解一下什么是布隆过滤器.在参考了许多博客之后, 写个总结记录一下. 一.布隆过滤器简介 什么是布隆过滤器? 本质上布隆过滤器( BloomFilter )是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 "某样东西一定不存在或者可能存在". 相比于传统的 Set.Map 等数据结构,它更高效

  • Android ListView 单条刷新方法实践及原理解析

    对于使用listView配合adapter进行刷新的方法大家都不陌生,先刷新adapter里的数据,然后调用notifydatasetchange通知listView刷新界面. 方法虽然简单,但这里面涉及到一个效率的问题,调用notifydatasetchange其实会导致adpter的getView方法被多次调用 (画面上能显示多少就会被调用多少次),如果是很明确的知道只更新了list中的某一个项的数据(比如用户点击list某一项后更新该项的显示状态,或者 后台回调更新list某一项,等等),

  • python垃圾回收机制(GC)原理解析

    这篇文章主要介绍了python垃圾回收机制(GC)原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天想跟大家分享的是关于python的垃圾回收机制,虽然本人这会对该机制没有很深入的了解, 但是本着热爱分享的原则,还是囫囵吞枣地坐下记录分享吧, 万一分享的过程中开窍了呢.哈哈哈. 首先还是做一下概述吧: 我们都知道, 在做python的语言编程中, 相较于java, c++, 我们似乎很少去考虑到去做垃圾回收,内存释放的工作, 其实是p

  • javascript History对象原理解析

    这篇文章主要介绍了javascript History对象原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 length history.length属性保存着历史记录的URL数量.初始时,该值为1.由于IE10+浏览器在初始时返回2,存在兼容性问题,所以该值并不常用 跳转方法 go().back()和forward() 如果移动的位置超出了访问历史的边界,以上三个方法并不报错,而是静默失败 [注意]使用历史记录时,页面通常从浏览器缓存之

随机推荐