docker swarm 集群故障与异常详解

2025-04-01 19:01:33

本文介绍了docker swarm 集群故障与异常详解，分享给大家，具体如下：

在上次遭遇 docker swarm 集群故障后，我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce 。

前天晚上22:00之后集群中的2个节点突然出现CPU波动，在CPU波动之后，在凌晨夜深人静、访问量极低的时候，整个集群出现了故障，访问集群上的所有站点都出现了502，过了一段时间后自动恢复正常。

ECS实例：swarm1-node5，CPU百分比于00:52发生告警，值为96.14%，持续时间0分钟

。。。

昨天早上发现访问部分节点中的容器应用响应有些慢，于是我们通过阿里云控制台强制重启这些节点后恢复正常。

今天上午我们在集群上更新一个应用时（部署新的镜像），出现了奇怪的问题。应用是在 swarm1-node1 这个 manager 节点上部署的，部署后容器运行在其他节点上，但奇怪的是只有在 swarm1-node1 这个节点上可以正常访问容器中的站点，在其他节点上访问都是 503 ，用 docker stack rm 命令删除应用并重新部署问题依旧。

当时 docker-flow-proxy（路由应用）的 2 个容器都是部署在 swarm1-node1 节点上的，从问题现象看，在 swarm1-node1 节点上 docker-flow-proxy 容器与外界的通信正常，docker-flow-proxy 容器与其他节点上的容器的 overlay 网络（网络A）通信正常；在其他节点上，外界的请求通过 overlay 网络（网络B）被正常转发到 docker-flow-proxy 容器，却不能被正常路由到其他节点上对应的容器（也是通过 overlay 网络A）。对这个奇怪现象实在想不通，但是问题摆在那，想不通也要解决。想不通背后的原因，那我们换个角度，其他节点都异常，就 swarm1-node1 正常，根据少数服从多数的粗暴原则，那就认为swarm1-node1 不正常吧。于是通过下面的命令将swarm1-node1 节点下线：

docker node update --availability drain swarm1-node1

swarm1-node1 下线后，其他节点都恢复了正常，果然是 swarm1-node1 不正常。

swarm1-node1 下线的背后是 docker-flow-proxy 容器换到其他节点上运行。

问题就这样被猜测解决了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

使用docker快速搭建Spark集群的方法教程

前言 Spark 是 Berkeley 开发的分布式计算的框架,相对于 Hadoop 来说,Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率,目前收到广泛关注.下面来一起看看使用docker快速搭建Spark集群的方法教程. 适用人群正在使用spark的开发者正在学习docker或者spark的开发者准备工作安装docker (可选)下载java和spark with hadoop Spark集群 Spark运行时架构图如上图: Spark集群由以下两个部分组成集
Docker构建ELK Docker集群日志收集系统

当我们搭建好Docker集群后就要解决如何收集日志的问题 ELK就提供了一套完整的解决方案本文主要介绍使用Docker搭建ELK 收集Docker集群的日志 ELK简介 ELK由ElasticSearch.Logstash和Kiabana三个开源工具组成 Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等. Logstash是一个完全开源的工具,他可以对你的日志进行收集.过滤,并将
详解使用docker搭建hadoop分布式集群

使用Docker搭建部署Hadoop分布式集群在网上找了很长时间都没有找到使用docker搭建hadoop分布式集群的文档,没办法,只能自己写一个了. 一:环境准备: 1:首先要有一个Centos7操作系统,可以在虚拟机中安装. 2:在centos7中安装docker,docker的版本为1.8.2 安装步骤如下: <1>安装制定版本的docker yum install -y docker-1.8.2-10.el7.centos <2>安装的时候可能会报错,需要删除这个依赖 r
详解docker搭建redis集群的环境搭建

本文介绍了docker搭建redis集群的环境搭建,分享给大家,废话不多说,具体如下: 下载镜像 docker pull redis 准备配置文件 mkdir /home/docker/redis/ wget https://raw.githubusercontent.com/antirez/redis/3.0/redis.conf -O /home/docker/redis/redis.conf cd /home/docker/redis/ sed -i 's/# slaveof <maste
docker搭建rabbitmq集群环境的方法

本文主要讲述如何用docker搭建rabbitmq的集群.分享给大家,希望此文章对各位有所帮助. 下载镜像采用bijukunjummen该镜像. git clone https://github.com/bijukunjummen/docker-rabbitmq-cluster.git 运行启动集群 cd docker-rabbitmq-cluster/cluster docker-compose up -d ...... Status: Downloaded newer image for
docker 搭建hadoop以及hbase集群详解

要用docker搭建集群,首先需要构造集群所需的docker镜像.构建镜像的一种方式是,利用一个已有的镜像比如简单的linux系统,运行一个容器,在容器中手动的安装集群所需要的软件并进行配置,然后commit容器到新的镜像.另一种方式是,使用Dockerfile来自动化的构造镜像. 下面采用第二种. 1. 创建带ssh服务的ubuntu14.04系统镜像使用ubuntu14系统来安装hadoop和hbase,由于hadoop集群机器之间通过ssh通信,所以需要在ubuntu14系统中安装ssh
Docker集群的创建与管理实例详解

本文详细讲述了Docker集群的创建与管理.分享给大家供大家参考,具体如下: 在<Docker简单安装与应用入门教程>中编写一个应用程序,并将其转化为服务,在<Docker分布式应用教程>中,使应用程序在生产过程中扩展5倍,并定义应该如何运行.现在将此应用程序部署到集群上,并在多台机器上运行它,通过将多台机器连接到Dockerized集群上,使多容器.多机器应用成为可能. Swarm(集群)是运行Docker并加入到一个集群中的一组机器,在这种情况下,您将继续运行以往的Docker
ubuntu docker搭建Hadoop集群环境的方法

spark要配合Hadoop的hdfs使用,然而Hadoop的特点就是分布式,在一台主机上搭建集群有点困难,百度后发现可以使用docker构建搭建,于是开搞: github项目:https://github.com/kiwenlau/hadoop-cluster-docker 参考文章://www.jb51.net/article/109698.htm docker安装文章中安装的是docker.io 但是我推荐安装docker-ce,docker.io版本太老了,步骤如下: 1.国际惯例更新
Docker使用Swarm组建集群的方法

Swarm 在 Docker 1.12 版本之前属于一个独立的项目,在 Docker 1.12 版本发布之后,该项目合并到了 Docker 中,成为 Docker 的一个子命令.目前,Swarm 是 Docker 社区提供的唯一一个原生支持 Docker 集群管理的工具.它可以把多个 Docker 主机组成的系统转换为单一的虚拟 Docker 主机,使得容器可以组成跨主机的子网网络. Docker 使用 Swarm 可以很方便的在多个主机上创建容器集群,并且容器之间可以跨主机网络通信. Swar
在Ubuntu 16.04上用Docker Swarm和DigitalOcean创建一个Docker容器集群的方法

介绍 Docker Swarm是用于部署Docker主机集群的Docker本地解决方案.您可以使用它来快速部署在本地计算机或受支持的云平台上运行的Docker主机集群. 在Docker 1.12之前,设置和部署Docker主机集群需要使用外部键值存储(如etcd或Consul)来进行服务发现.但是,使用Docker 1.12,不再需要外部发现服务,因为Docker提供了一个内置的键值存储,可以开箱即用. 在本教程中,您将了解如何使用Docker 1.12上的Swarm功能部署一组Docker机器
详解从 0 开始使用 Docker 快速搭建 Hadoop 集群环境

Linux Info: Ubuntu 16.10 x64 Docker 本身就是基于 Linux 的,所以首先以我的一台服务器做实验.虽然最后跑 wordcount 已经由于内存不足而崩掉,但是之前的过程还是可以参考的. 连接服务器使用 ssh 命令连接远程服务器. ssh root@[Your IP Address] 更新软件列表 apt-get update 更新完成. 安装 Docker sudo apt-get install docker.io 当遇到输入是否继续时,输入「Y/y」继
详解使用docker 1.12 搭建多主机docker swarm集群

swarm是docker公司自己的容器集群管理工具,本文介绍了使用docker 1.12 搭建多主机docker swarm集群,分享给大家准备准备至少两台的centos 7 主机(全新最小安装, 可以使用虚拟机安装) 开放端口2377 tcp端口, 7946 4789 tcp udp 端口本文使用192.168.99.101(hostname:centos-node4) 作为swarm manager 192.168.99.102(hostname:centos-node5) 作为sw

docker swarm 集群故障与异常详解

相关推荐

随机推荐