SpringCloud服务的平滑上下线的方法

2025-04-08 19:03:56

吐槽

以前都是手撸RPC，最近接触SpringCloud，深感痛心。主要有以下几点：

1）代码量巨大，找BUG时间长，超级复杂的设计

2）版本管理混乱，经常出现莫名其妙的配置错误（所以2.0是打死不敢上生产啊）

3）Netflix公司的有些代码，实在是让人费解，根本就不考虑扩展性

4）生态链庞大，学习成本大

建议准备上微服务的同学，固定下一个版本，不要随意更新或降级。拿tomcat的basedir来说，1.5.8到1.5.13到1.5.16版本是换来换去，不小心点会出事故的。

server:
 port: 21004
 context-path: /
 tomcat:
  basedir: file:.

如上，basedir先是从.换到file:.，又从file:.换成.，连兼容代码都木有。有木有想打死工程师？

前言

今天主要谈的话题，是平滑的上下线功能。所谓平滑，指的是发版无感知，不至于等到夜深人静的时候偷偷去搞。某些请求时间可以长点，但不能失败，尤其是对支付来说，想花钱花不出去是很让人苦恼的；花了钱买不到东西是很让人恼火的。整体来说，SpringCloud功能齐全，经过一段时间的踩坑后使用起来还是非常舒服的。

我们的微服务，大体集成了以下内容。

嗯，一个庞大的生态

问题

那么问题来了，SpringCloud到注册中心的注册是通过Rest接口调用的。它不能像ZooKeeper那样，有问题节点反馈及时生效。也不能像Redis那么快的去轮训，太娇贵怕轮坏了。如下图：

有三个要求：

1）ServiceA下线一台实例后，Zuul网关的调用不能失败 2）ServiceB下线一台实例后，ServiceA的Feign调用不能失败 3）服务上线下线，Eureka服务能够快速感知

说白了就一件事，怎样尽量缩短服务下线后Zuul和其他被依赖服务的发现时间，并在这段时间内保证请求不失败。

解决时间问题

影响因子

1) Eureka的两层缓存问题 (这是什么鬼）

EurekaServer默认有两个缓存，一个是ReadWriteMap，另一个是ReadOnlyMap。有服务提供者注册服务或者维持心跳时时，会修改ReadWriteMap。当有服务调用者查询服务实例列表时，默认会从ReadOnlyMap读取（这个在原生Eureka可以配置，SpringCloud Eureka中不能配置，一定会启用ReadOnlyMap读取），这样可以减少ReadWriteMap读写锁的争用，增大吞吐量。EurekaServer定时把数据从ReadWriteMap更新到ReadOnlyMap中

2) 心跳时间

服务提供者注册服务后，会定时心跳。这个根据服务提供者的Eureka配置中的服务刷新时间决定。还有个配置是服务过期时间，这个配置在服务提供者配置但是在EurekaServer使用了，但是默认配置EurekaServer不会启用这个字段。需要配置好EurekaServer的扫描失效时间，才会启用EurekaServer的主动失效机制。在这个机制启用下：每个服务提供者会发送自己服务过期时间上去，EurekaServer会定时检查每个服务过期时间和上次心跳时间，如果在过期时间内没有收到过任何一次心跳，同时没有处于保护模式下，则会将这个实例从ReadWriteMap中去掉

3）调用者服务从Eureka拉列表的轮训间隔

4) Ribbon缓存

解决方式

1) 禁用Eureka的ReadOnlyMap缓存 (Eureka端)

eureka.server.use-read-only-response-cache: false

2) 启用主动失效，并且每次主动失效检测间隔为3s (Eureka端)

eureka.server.eviction-interval-timer-in-ms: 3000

像eureka.server.responseCacheUpdateInvervalMs和eureka.server.responseCacheAutoExpirationInSeconds在启用了主动失效后其实没什么用了。默认的180s真够把人给急疯的。

3) 服务过期时间（服务提供方）

eureka.instance.lease-expiration-duration-in-seconds: 15

超过这个时间没有接收到心跳EurekaServer就会将这个实例剔除。EurekaServer一定要设置eureka.server.eviction-interval-timer-in-ms否则这个配置无效，这个配置一般为服务刷新时间配置的三倍。默认90s！

4）服务刷新时间配置，每隔这个时间会主动心跳一次 (服务提供方）

eureka.instance.lease-renewal-interval-in-seconds: 5

默认30s

5) 拉服务列表时间间隔（客户端）

eureka.client.registryFetchIntervalSeconds: 5

默认30s

6) ribbon刷新时间（客户端）

ribbon.ServerListRefreshInterval: 5000

ribbon竟然也有缓存，默认30s

这些超时时间相互影响，竟然三个地方都需要配置，一不小心就会出现服务不下线，服务不上线的囧境。不得不说SpringCloud的这套默认参数简直就是在搞笑。

重试

那么一台服务器下线，最长的不可用时间是多少呢？（即请求会落到下线的服务器上，请求失败）。赶的巧的话，这个基本时间就是eureka.client.registryFetchIntervalSeconds+ribbon.ServerListRefreshInterval,大约是8秒的时间。如果算上服务端主动失效的时间，这个时间会增加到11秒。

如果你只有两个实例，极端情况下服务上线的发现时间也需要11秒，那就是22秒的时间。

理想情况下，在这11秒之间，请求是失败的。加入你的QPS是1000，部署了四个节点，那么在11秒中失败的请求数量会是 1000 / 4 * 11 = 2750，这是不可接受的。所以我们要引入重试机制。

SpringCloud引入重试还是比较简单的。但不是配置一下就可以的，既然用了重试，那么就还需要控制超时。可以按照以下的步骤：

引入pom （千万别忘了哦)

<dependency>
  <groupId>org.springframework.retry</groupId>
  <artifactId>spring-retry</artifactId>
</dependency>

加入配置

ribbon.OkToRetryOnAllOperations:true
#(是否所有操作都重试，若false则仅get请求重试)
ribbon.MaxAutoRetriesNextServer:3
#(重试负载均衡其他实例最大重试次数,不含首次实例)
ribbon.MaxAutoRetries:1
#(同一实例最大重试次数,不含首次调用)
ribbon.ReadTimeout:30000
ribbon.ConnectTimeout:3000
ribbon.retryableStatusCodes:404,500,503
#（那些状态进行重试）
spring.cloud.loadbalancer.retry.enable:true
# (重试开关)

发布系统

OK,机制已经解释清楚，但是实践起来还是很繁杂的，让人焦躁。比如有一个服务有两个实例，我要一台一台的去发布，在发布第二台之前，起码要等上11秒。如果手速太快，那就是灾难。所以一个配套的发布系统是必要的。

首先可以通过rest请求去请求Eureka，主动去隔离一台实例，多了这一步，可以减少至少3秒服务不可用的时间（还是比较划算的）。

然后通过打包工具打包，推包。依次上线替换。

市面上没有这样的持续集成哦你工具，那么发布系统就需要定制，这也是一部分工作量。

到此，仅仅是解决了SpringCloud微服务平滑上下线的功能，至于灰度，又是另外一个话题了。有条件的公司选择自研还是很明智的，不至于将功能拉低到如此的水平。

不过大体不用担心，你的公司能不能活下去，还是一个未知数。Netflix都忍了，在做的各位能比它强大么？

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

细说Springcloud eureka的几种主动下线服务的方式

本文会介绍几种eureka 注册中心服务下线的方式补充:在启动eureka服务的时候发现控制台有以下的输出由此猜想可以通过改接口下线服务, 于是尝试了一下果然能从注册中心中移除该实例 1. 直接停掉服务. 默认情况下,如果Eureka Server在90秒没有收到Eureka客户的续约,它会将实例从其注册表中删除.但这种做法的不好之处在于, 客户端已经停止了运行,但仍然在注册中心的列表中. 虽然通过一定的负载均衡策略或使用熔断器可以让服务正常进行,但有没有方法让注册中心马上知道服务已经下线
SpringCloud服务的平滑上下线的方法

吐槽以前都是手撸RPC,最近接触SpringCloud,深感痛心.主要有以下几点: 1)代码量巨大,找BUG时间长,超级复杂的设计 2)版本管理混乱,经常出现莫名其妙的配置错误(所以2.0是打死不敢上生产啊) 3)Netflix公司的有些代码,实在是让人费解,根本就不考虑扩展性 4)生态链庞大,学习成本大建议准备上微服务的同学,固定下一个版本,不要随意更新或降级.拿tomcat的basedir来说,1.5.8到1.5.13到1.5.16版本是换来换去,不小心点会出事故的. server: p
基于nginx实现上游服务器动态自动上下线无需reload的实现方法

网上关于nginx的介绍有很多,这里讲述的是上游服务(如下图的Java1服务)在没有"网关"的情况下,如何通过nginx做到动态上下线. 传统的做法是,手动修改nginx的upstream文件,将Java1的配置注释或者标记为down,然后reload nginx生效.当然可以做成脚本自动化修改,然而对于一个繁忙的nginx来说,贸然reload轻则响应缓慢,重则雪崩丢失流量. 那么怎样做到nginx动态加载upstream配置呢?网上大体有3种方案: 通过Lua脚本结合nginx,也
SpringCloud 服务负载均衡和调用 Ribbon、OpenFeign的方法

1.Ribbon Spring Cloud Ribbon是基于Netflix Ribbon实现的-套客户端―负载均衡的工具. 简单的说,Ribbon是Netlix发布的开源项目,主要功能是提供客户端的软件负载均衡算法和服务调用.Ribbon客户端组件提供一系列完善的配置项如连接超时,重试等.简单的说,就是在配置文件中列出Load Balancer(简称LB)后面所有的机器,Ribbon会自动的帮助你基于某种规则(如简单轮询,随机连接等)去连接这些机器.我们很容易使用Ribbon实现自定义的负载均
springcloud 服务降级的实现方法

1 .简介什么是服务降级?当服务器压力剧增的情况下,根据实际业务情况及流量,对一些服务和页面有策略的不处理或换种简单的方式处理,从而释放服务器资源以保证核心交易正常运作或高效运作. 如果还是不理解,那么可以举个例子:假如目前有很多人想要给我付钱,但我的服务器除了正在运行支付的服务之外,还有一些其它的服务在运行,比如搜索.定时任务和详情等等.然而这些不重要的服务就占用了JVM的不少内存与CPU资源,为了能把钱都收下来(钱才是目标),我设计了一个动态开关,把这些不重要的服务直接在最外层拒掉,这样处
详解Spring Boot Admin监控服务上下线邮件通知

本文介绍了Spring Boot Admin监控服务上下线邮件通知,分享给大家,具体如下: 微服务架构下,服务的数量少则几十,多则上百,对服务的监控必不可少. 如果是以前的单体项目,启动了几个项目是固定的,可以通过第三方的监控工具对其进行监控,然后实时告警. 在微服务下,服务数量太多,并且可以随时扩展,这个时候第三方的监控功能就不适用了,我们可以通过Spring Boot Admin连接注册中心来查看服务状态,这个只能在页面查看. 很多时候更希望能够自动监控,通过邮件告警,某某服务下线了这样的功
Spring Cloud Eureka 服务上下线监控的实现

之前我们有介绍通过Spring Boot Admin来检测服务的上下线,然后进行通知功能. https://www.jb51.net/article/130943.htm 今天为大家介绍另外一种实现的方式,在Eureka服务中进行检测通知,Eureka中提供了事件监听的方式来支持扩展. EurekaInstanceCanceledEvent 服务下线事件 EurekaInstanceRegisteredEvent 服务注册事件 EurekaInstanceRenewedEvent 服务续约事件
Nacos心跳时间配置及服务快速上下线方式

目录 Nacos心跳时间配置及服务快速上下线 1.修改微服务的nacos的心跳配置时间 2.修改spring cloud的gateway的ribbion配置 Nacos心跳机制临时实例持久化实例(永久实例) 各类型使用时机总结 Nacos心跳时间配置及服务快速上下线 Nacos默认心跳时间是30秒,不太满足正式环境需要,需要调整心跳时间更短,让线上服务上下线能快速感知. 1.修改微服务的nacos的心跳配置时间 preserved.heart.beat.interval: 1000 #该实
Laravel服务容器绑定的几种方法总结

绑定基础几乎所有的服务容器绑定都是在服务提供者中完成. 在目录结构如下图注:如果一个类没有基于任何接口那么就没有必要将其绑定到容器.容器并不需要被告知如何构建对象,因为它会使用 PHP 的反射服务自动解析出具体的对象. 简单的绑定在一个服务提供者中,可以通过 $this->app 变量访问容器,然后使用 bind 方法注册一个绑定,该方法需要两个参数,第一个参数是我们想要注册的类名或接口名称,第二个参数是返回类的实例的闭包: $this->app->bind('HelpSpot
SpringCloud 服务注册和消费实现过程

系统架构在没有微服务之前有已经有跨服务调用了,比如ServiceB去调用ServiceA中的服务 , 传统模式可以直接在ServiceB中写ServiceA中的服务但是这样是写死了的,不够灵活. 下图就是传统的调用微服务下的跨系统调用应该是这样的: 此时服务的调用应该是分两个步骤的: ServiceB 去服务中心拿到ServiceA的地址,如果ServiceA是单机部署,那么这个地址就只有一个,如果ServiceA是集群是集群环境部署,那么发现的地址就是多个. 拿到了ServiceA的地址后
通过Java实现反向代理集群服务的平滑分配

目录 1.理解全过程 1.1.概述 1.2.整个流程 2.代码实现 2.1.节点类 2.2.代理配置类 2.3.负载均衡算法接口 2.4.平滑加权轮询算法 2.5.代理服务线程类 2.6.代理服务类 2.7.业务实体类 2.8.业务类 2.9.业务服务线程类 2.10.业务服务类 2.11.启动三个业务服务(服务集群) 2.12.客户端 3.开始测试 3.1.启动所有服务 3.2.客户端发起第一次请求 3.3.客户端发起第二次请求 3.4.客户端发起第三次请求 3.5.客户端发起第四次请求(测试

SpringCloud服务的平滑上下线的方法

相关推荐

随机推荐