如何负责一个系统的稳定性

📅 发布时间:2026/7/6 4:07:59 👁️ 浏览次数:
如何负责一个系统的稳定性
黄金指标延迟接口的RT。P99流量接口能承受的最大QPS,TPS错误单位时间内报错个数业务失败个数饱和度cpu使用率内存使用率数据库连接池线程池磁盘等使用率如果让你接手一个新系统如何保证稳定性明确服务责任边界这个服务是干嘛的摸清家底梳理服务所有出口与入口都有谁在调用我。我又在调用谁对谁有依赖。每个接口的重要性进行排序每个接口的黄金指标和上下游对齐包括qpsrt等等点亮监控基于第二步结果对每个接口的不同指标要求加上监控。演练与压测