详解软件系统稳定性的三大秘密

2026-04-27 03:07:04

何谓系统稳定性？

控制系统理论认为：系统受到某种干扰而偏离正常状态，当干扰消除，如果系统的扰动能逐渐收敛并最终恢复正常状态，则系统是稳定的；反之，系统偏离越来越大，则是不稳定的，所以，稳定性是系统抗干扰和返回平衡状态的能力。

对于经典的传递函数的软件系统，一般我们讲的稳定指的是BIBO稳定，即有界输入有界输出稳定。一个系统如果对任意有界输入得到有界输出，它就是BIBO稳定的。一句话，稳定的系统对于各种输入需要有符合预期的输出。

随着软件复杂性越来越高，稳定性的保障越来越难，随着服务规模越来越大，稳定性的重要性越来越高。阿里云CEO行癫把稳定性比喻成木桶的底板，如果稳定性出问题，则滴水不留，所以，工程师在设计和开发软件的时候，要坚持底板思维。

我们的软件需求和计划很少考虑非功能部分，然而软件的结构和实现却有非常大的比重服务于此，这也许是软件项目计划经常延期的重要原因。

如何保障稳定性？

虽然理论上没有绝对稳定的系统，但我们依然可以有所作为，使我们设计和开发的系统在生产环境接近稳定运行。

从大的方面讲，稳定性保障，可以分成3个部分：

制度纪律：

编码规范、代码提交门禁
Code Review
静态代码扫描，动态代码分析
Unit Test、压测
灰度发布、Rollback、应急预案
监控
复盘、故障树分析

思想之道：

保持简单、降低复杂度
不（零）信任、面向失败设计

实践之术：

冗余设计（数据、计算、带宽冗余）
快速恢复设计（无状态设计）
容错、灾备
隔离
过载保护（限流、熔断、有损服务）
错误重试策略，避免流量风暴
去关键路径、去中心化、避免单点故障
负载均衡（load balance）
看门狗设计
安全编码

制度纪律

通过制度去规范操作和行为，通过纪律去约束大家在框架内活动，被证明是保障稳定减少出错行之有效的方式。

纪律是关键，只有持之以恒的遵守制度，才能避免方法和规定沦为空谈。

但制度和纪律只是划出质量底线，只能解决大多数稳定性问题，难以发现一些隐匿的问题，需要配合思想之道和实践之术，持续改进软件质量，才能全面保障稳定性。

思想之道

道是大的层面，它具有全局性的指导意义，我从众多的指导思想里，挑选最重要的两点：保持简单和不信任/面向失败设计，展开来讲。

1. 保持简单

复杂是稳定性的天敌，保持简单即保持稳定。单一职责，功能清晰即是践行保持简单。

把简单的东西搞复杂很容易，而化繁为简则堪称化腐朽为神奇。所以保持简单并不是低要求，它需要你透过表象洞悉事物本质，用最直接最土味的方式解决问题，做技术的同学有一个奇怪的癖好，喜欢把自己最近琢磨的东西用到项目中，不然总有锦衣夜行的感觉。

我的建议是“学深用浅”。引入复杂性，一方面要权衡收益，另一方面要警惕损伤，要理解项目开发很多时候是团队合作，任何复杂性的引入都会对合作者提出更高要求，严以律人是危险的，低门槛才是符合人性的。

2. 不信任设计、面向失败设计

不信任设计又叫零信任设计，和面向失败的设计有相似之处，其本质都是防御性编程思想。

不信任设计思想假设系统依赖的上下游都不靠谱，假设周围都是坏人，假设攻击无处不在。

网络服务需要对客户端请求参数做严格验证，不仅检查合法性，也要验证NaN。游戏开发有一句名言：假设客户端的数据都是假的。

进程内的函数调用大多时候很安全，会有可预期的结果，但如果跨进程调用（RPC）的可靠性则会低很多，有可能超时，有可能丢包，有可能失败，调用者必须意识并处理好各种异常情况，是重试？如果重试的话重试多少次？重试之间的间隔应该怎么确定？请求的上下文怎么保存和恢复？

我们要正确理解不信任设计的内涵，避免用力过猛，警惕借面向失败设计之名行无效编程之实，比如已经对客户端请求数据做了严格校验，在服务器处理过程中，重复检验，比如已经对接口入参判空，在内部调用过程中重复判断。这会降低代码浓度，混入大量无效代码，损伤可读性和执行效率，本质上是违背“保持简单”原则的。

实践之术

术是局部层面，它是实践经验，牵扯方方面面，难以尽数枚举。

如果以文章写作类比软件开发，谋篇布局相当于设计层面，设计层面要致广远，遣词造句相当于实现层面，实现层面要尽精微。

所谓千里之堤溃于蚁穴，防微杜渐功德无量。

1. 冗余设计

冗余设计指留出安全余量，冗余包括数据冗余、计算冗余、带宽冗余。

数据冗余指一份数据多个副本，一主多备。

计算冗余，比如服务实例的QPS极限是10K，但实际上我们会按5K跑，这样，即使出现流量超速增长，我们依然有反应时间。

2. 快速恢复设计（无状态设计）

互联网服务很多都是无状态设计，服务实例只是逻辑的盒子，后面跟着分布式一致性数据库，这样能极大简化设计，即使实例挂了，客户可以很容易迁移到其他服务实例执行，而有状态设计则要复杂难搞得多。

3. 容错、灾备

容错指我们的系统要有一定的错误容忍能力，这意味错误发生，我们要能查错、检错、避错、甚至改错，只要可能，我们就要吞咽错误。

灾备这个大家耳熟能详，主从设计，异地备灾，目标都是为了应对各种极限情况。

4. 隔离

隔离本质上就是说如果故障发生了，如果故障发生，而又不能吞咽，那也应该隔离避免错误传播扩散，千方百计缩小影响范围，相当于感染新冠要被隔离起来。容器化等技术为隔离提供良好能力支撑。

5. 过载保护熔断

熔断：

机制不止软件设计独有，股市也有，我甚至怀疑软件的熔断机制是从股市学来的。

限流：

系统设计要做好资源耗尽、资源不够用的情况，如果服务请求超过服务能力，那就应该限流，这应该作为一种配置，或者自动执行的策略。

这个跟地铁限流差不多，处理不了，那就排队。

有损服务：

有损服务我印象中最先是腾讯跟海量服务的概念一起提出来的，指如果出现服务能力不够，不能为所有客户所有业务提供服务的异常情况，那系统有所取舍，尽可能保持业务运行，减少损失，比如在微信服务器在处理能力有限的情况下，可以优先保消息发送，而关闭朋友圈服务能力，比如直播业务在带宽有限的情况下，应该降低码率减少清晰度，而不应该拒绝服务。

有损的意义就是有损失，有损伤的意思，它是一种思想，是退而求其次，是不得已而为之。

6. 错误重试策略，避免流量风暴

如果设计一个ToC服务，在客户大规模断连的情况下，客户会重连，重连失败再连，如果重连尝试的频率不控制好，正常客户端重连有可能演变成对服务器的大规模攻击，打爆一台服务器，又去灭另一台，这太吓人了。

可以参考kernel TCP的重连策略，有最大尝试次数，而且重试间隔是逐渐拉大的。

7.去关键路径、去中心化、避免单点故障

企业不要关键先生，关键先生会成为瓶颈，软件也不能把宝压到一个地方，去中心化去集中式，没什么难理解的。

8.负载均衡

load balance其实就是分担压力，LB要避免倾斜，有多种LB算法，比如RR，比如一致性hash，各有利弊，有兴趣可以研究下。

LB不仅限于服务，进程内的多线程可能也会需要考虑这个问题。

9.看门狗和心跳机制

可以参考kernel的watch dog，其实就是看护机制，检测错误并努力掰过来。

10.安全编码

安全编码是一个职业程序员的基本要求，安全编码规则很多，很细节的一些规矩。这个可能跟语言相关，如果是C++相关的可以参考：C++的门门道道

C相关的规则要少一些，我顺手列举一些。
比如要注意初始化。
比如全局变量不要有构造顺序的依赖。
比如慎用强转，强转等于接管了编译帮你做的类型检查。
比如理解线程安全函数，理解可重入的概念，理解信号机制。
比如要避免死锁，理解ABBA锁理解自死锁。
比如要谨防资源泄漏。
比如处理好内存分配失败的情况，理解野/悬垂指针。
比如要处理好边界，防止越界，溢出。
比如内存拷贝要避免内存重叠，理解memmove的用途。
比如理解递归的低效和栈的大小限制，避免爆栈。
比如建议使用STD安全版本函数(_s+n)版本。
比如了解unsigned < 0导致死循环的情况。
比如了解浮点数跟0比较的问题。
比如理解整型数据溢出和反转。
比如不要返回临时变量的引用或者指针，理解栈帧动态伸缩的原理。
比如理解做好把关检查的必要性，包括系统把关和模块把关。

小结

最后来读段经典：《系统化思维导论》一书中引用冯诺依曼的话写道：如果你观察一些自动装置，不论它们是人类设计的还是自然界本来就存在的，你通常会发现，它们的结构很大程度上受控于它们可能失效的方式，以及针对失效所采取的防御性措施（多少有些效果），说它们能预防失效有点夸张，它们不是能预防失效的，只是被设计成试图达到这种状态，这样至少大部分失效都不会是毁灭性的。所以，根本谈不上消除失效，或完全消除失效带来的影响。我们能尝试的只是设计一种自动装置，在大部分失效发生时仍能继续工作，这种装置减轻了失效的后果，而不是治愈失效，大部分人造的和自然界存在的自动装置，其内部原理都是如此。

以上就是详解软件系统稳定性的三大秘密的详细内容，更多关于软件系统稳定性的三大秘密的资料请关注我们其它相关文章！

使用Python进行稳定可靠的文件操作详解

考虑下述Python代码片段.对文件中的数据进行某些操作,然后将结果保存回文件中: 复制代码代码如下: with open(filename) as f: input = f.read()output = do_something(input)with open(filename, 'w') as f: f.write(output) 看起来很简单吧?可能看起来并不像乍一看这么简单.我在产品服务器中调试应用,经常会出现奇怪的行为.这是我看过的失效模式的例子:失控的服务器进程溢出大量日志
详解高效而稳定的企业级.NET Office 组件Spire（.NET组件介绍之二）

在项目开发中,尤其是企业的业务系统中,对文档的操作是非常多的,有时几乎给人一种错觉的是"这个系统似乎就是专门操作文档的".毕竟现在的很多办公中大都是在PC端操作文档等软件,在这些庞大而繁重的业务中,单单依靠人力去做文档的操作需要的代价是巨大的,比如数据统计,数据分析等业务要求.这就需要我们在开发系统时,应该尽量减少使用者的一些工作量,例如将数据直接写入文档,获取网页信息后直接存为PDF保存,以便以后继续查看.软件开发的目地是对使用者便捷,但这一要求未必对开发者来说也是便捷的. 在前面介
微信小程序iBeacon测距及稳定程序的实现解析

前言 iBeacon是苹果公司推出的一项低耗能蓝牙技术,由蓝牙设备发射包含指定信息的信号,再由移动设备接收信号,从而实现近场通信.微信小程序2017年开始支持iBeacon,摇一摇附近就是基于iBeacon实现的,此外iBeacon还可以实现距离测量,本文将介绍如何基于微信小程序实现iBeacon测距. iBeacon测距原理蓝牙信标发射的信号强度(rssi)与收发设备之间的距离,某种程度上呈正相关,因此通过合理的运算转化,可以通过rssi的值反推出与接收设备间的距离. 蓝牙信标的rssi值是
spring如何快速稳定解决循环依赖问题

循环依赖其实就是循环引用,很多地方都说需要两个或则两个以上的bean互相持有对方最终形成闭环才是循环依赖,比如A依赖于B,B依赖于C,C又依赖于A.其实一个bean持有自己类型的属性也会产生循环依赖. setter singleton循环依赖使用 SingleSetterBeanA依赖SingleSetterBeanB,SingleSetterBeanB依赖SingleSetterBeanA. @Data public class SingleSetterBeanA { @Autowired
用缓冲技术提高JSP应用的性能和稳定性

一.概述在Web应用中,有些报表的生成可能需要数据库花很长时间才能计算出来:有的网站提供天气信息,它需要访问远程服务器进行SOAP调用才能得到温度信息.所有这一切都属于复杂信息的例子.在Web页面中加入过多的复杂信息可能导致Web服务器.数据库服务器负荷过重.JSP代码块缓冲为开发者带来了随意地增加各种复杂信息的自由. JSP能够在标记库内封装和运行复杂的Java代码,它使得JSP页面文件更容易维护,使得非专业开发人员使用JSP页面文件更加方便.现在已经有许多标记库,它们或者是商业产品,或者是源
如何提高玩游戏时的系统稳定性

有一台计算机运行普通的应用程序时一切正常,而且开关机也很顺利;但只要一玩起CS或3D之类的游戏程序时,就有可能出现无法进入游戏画面,或者玩一段时间后游戏程序就会自动关闭,甚至过不了多长时间系统还会发生死机现象.面对这种故障现象,我们该如何解决呢? 其实仔细分析上面的现象描述,我们不难发现该计算机系统在处理一些比较大型的游戏程序时,系统往往不能稳定地运行;造成这种现象的可能原因比较多,不同的故障原因需要用不同的方法来解决.这不本文下面特意总结了三招应对技巧,可以有效提高玩游戏时的系统稳定性. 1.
详解开源免费且稳定实用的.NET PDF打印组件itextSharp（.NET组件介绍之八）

在这个.NET组件的介绍系列中,受到了很多园友的支持,一些园友(如:数据之巅. [秦时明月]等等这些大神 )也给我提出了对应的建议,我正在努力去改正,有不足之处还望大家多多包涵.在传播一些简单的知识的同时,我自己也得到了一些提升,这个是我感觉到的最大的益处.知识需要传播,在传播的过程中去让学习的人去提升,在交流中的过程中去让思考的人去展望,我希望我也能在这个传播的过程中出一份力.由于自身能力有限,在编写博文时出现的错误和一些不到位的讲解,还望大家多多见谅. 上面卖完情怀,下面就该切入正题了. 提
详解软件系统稳定性的三大秘密

何谓系统稳定性? 控制系统理论认为:系统受到某种干扰而偏离正常状态,当干扰消除,如果系统的扰动能逐渐收敛并最终恢复正常状态,则系统是稳定的:反之,系统偏离越来越大,则是不稳定的,所以,稳定性是系统抗干扰和返回平衡状态的能力. 对于经典的传递函数的软件系统,一般我们讲的稳定指的是BIBO稳定,即有界输入有界输出稳定.一个系统如果对任意有界输入得到有界输出,它就是BIBO稳定的.一句话,稳定的系统对于各种输入需要有符合预期的输出. 随着软件复杂性越来越高,稳定性的保障越来越难,随着服务规模越来越大,
详解React Angular Vue三大前端技术

一.[React] React(也被称为React.js或ReactJS)是一个用于构建用户界面的JavaScript库.它由Facebook和一个由个人开发者和公司组成的社区来维护. React可以作为开发单页或移动应用的基础.然而,React只关注向DOM渲染数据,因此创建React应用通常需要使用额外的库来进行状态管理和路由,Redux和React Router分别是这类库的例子. 基本用法下面是一个简单的React在HTML中使用JSX和JavaScript的例子. Greeter函数
详解正则表达式及Linux三大文本处理工具

grep.sed和awk都是文本处理工具,虽然都是文本处理工具但却都有各自的优缺点,一种文本处理命令是不能被另一个完全替换的,否则也不会出现三个文本处理命令了. 一.正则表达式 1.匹配字符的类型 [a-z]:小写字母 [A-Z]:大写字母 [a-Z]:小或大写字母 [0-9]:数字 [a-zA-Z0-9]:表示匹配一个为字母或数字的字符 . :匹配1个任意字符,空格除外 [0-f]:16进制数 abc | def:abc或def a (bc | de) f:abcf 或 adef \<:单词头
详解C语言三大循环四大跳转和判断语句

三大循环for while 和 do{ }while; 四大跳转 : 无条件跳转语句 go to; 跳出循环语句 break; 继续跳出循环语句 continue; 返回值语句 return 判断语句 if,if else,if else if else if...else ifelse 组合 if(0 == x) if(0 == y) error(): else{ //program code } else到底与那个if配对 C语言有这样的规定: else 始终与同一括号内最近的未匹配的if语
vue组件三大核心概念图文详解

前言本文主要介绍属性.事件和插槽这三个vue基础概念.使用方法及其容易被忽略的一些重要细节.如果你阅读别人写的组件,也可以从这三个部分展开,它们可以帮助你快速了解一个组件的所有功能. 本文的代码请猛戳 github博客 ,纸上得来终觉浅,大家动手多敲敲代码! 一.属性 1.自定义属性props prop 定义了这个组件有哪些可配置的属性,组件的核心功能也都是它来确定的.写通用组件时,props 最好用对象的写法,这样可以针对每个属性设置类型.默认值或自定义校验属性的值,这点在组件开发中很重要,
python+adb+monkey实现Rom稳定性测试详解

我为什么做这项工作? 其实这项工作是另一位同事在做,过程中发下了一些问题,但是种种原因log和数据都没有收集到,无法进行分析.然后我就接手了,负责复现她发现的问题并提供log和数据给开发分析. 需要测试的是一个什么样的功能? 需求是这样的:开发在Framework层增加了app应用权限管控(Android11中基本权限.自动以权限.AIDL),服务端可以通过下发指令到手机,控制app可以访问及不能访问的权限.同时安装app也需要对签名做校验. 该如何开始这项工作呢? 不用多言,自动化是必须的,但
python Matplotlib数据可视化（2）：详解三大容器对象与常用设置

上一篇博客中说到,matplotlib中所有画图元素(artist)分为两类:基本型和容器型.容器型元素包括三种:figure.axes.axis.一次画图的必经流程就是先创建好figure实例,接着由figure去创建一个或者多个axes,然后通过axes实例调用各种方法来添加各种基本型元素,最后通过axes实例本身的各种方法亦或者通过axes获取axis实例实现对各种元素的细节操控. 本篇博客继续上一节的内容,展开介绍三大容器元素创建即通过三大容器可以完成的常用设置. 1 figure 1.
详解JSON.stringify()的5个秘密特性

JSON.stringify() 方法能将一个 JavaScript 对象或值转换成一个 JSON 字符串. 作为一名 JavaScript 开发人员,JSON.stringify() 是用于调试的最常见函数.但是它的作用是什么呢,难道我们不能使用 console.log() 来做同样的事情吗?让我们试一试. //初始化一个 user 对象 const user = { "name" : "Prateek Singh", "age" : 26 }
详解IDEA中SpringBoot整合Servlet三大组件的过程

Spring MVC整合 SpringBoot提供为整合MVC框架提供的功能特性内置两个视图解析器:ContentNegotiatingViewResolver和BeanNameViewResolver 支持静态资源以及WebJars 自动注册了转换器和格式化器支持Http消息转换器自动注册了消息代码解析器支持静态项目首页index.html 支持定制应用图标favicon.ico 自动初始化Web数据绑定器:ConfigurableWebBindingInitializer Sprin
React三大属性之Refs的使用详解

refs是React中用来取得某个JSX组件或者某个DOM中的一些状态值的时候,用来获取节点的方法.在React官方的解释中,它的适用范围如下: 管理焦点,文本选择或媒体播放. 触发强制动画. 集成第三方 DOM 库. React文档中再三强调,请不要过度使用refs,所以当我们可以用dom原生对象解决时,尽量不要使用refs 依照之前的写法,首先是给出类组件和函数组件中refs的写法类组件在类中,refs有三种方式,目前最常用的是回调的形式使用,分别进行演示 //直接定义refs,已废弃