业务系统稳定性保障
系统稳定性是什么
如何保障系统稳定性
怎么发现
监控
基于工具做好监控项
- 基础设施监控
- 机器(容器)状态
- 进程监控
- 网络监控
- CPU
- 数据库监控
- 常规指标 CPU,Connection,IOPS
- 慢 SQL
- 消息队列监控
- 消息堆积量监控
- RPC 监控
- RPC 接口成功率,需要返回结果统一结构
- RPC 接口 QPS
- 日志监控
- 关键日志统计
- 异常关键字监控
监控大盘
- 对监控项建好可视化的监控图标
- 对重点监控项配置监控大盘
告警
监控大盘需要人主动观察,然后发现问题,所以需要更进一步,对监控项做分级告警
- IM 通知
- 短信告警
- 电话告警
怎么治理
对于稳定性问题最终需要落地到治理上。
- 代码规范
- 数据库稳定性
- 后端接口的 SLA 确定与保障
- 单元测试
- 集成测试
- 发布规范
- 分批发布
- 限流设计
- 事后复盘