系统稳定性是什么

如何保障系统稳定性

怎么发现

监控

基于工具做好监控项
  • 基础设施监控
    • 机器(容器)状态
    • 进程监控
    • 网络监控
    • CPU
  • 数据库监控
    • 常规指标 CPU,Connection,IOPS
    • 慢 SQL
  • 消息队列监控
    • 消息堆积量监控
  • RPC 监控
    • RPC 接口成功率,需要返回结果统一结构
    • RPC 接口 QPS
  • 日志监控
    • 关键日志统计
    • 异常关键字监控
      监控大盘
  • 对监控项建好可视化的监控图标
  • 对重点监控项配置监控大盘

告警

监控大盘需要人主动观察,然后发现问题,所以需要更进一步,对监控项做分级告警

  • IM 通知
  • 短信告警
  • 电话告警

怎么治理

对于稳定性问题最终需要落地到治理上。

  • 代码规范
  • 数据库稳定性
  • 后端接口的 SLA 确定与保障
  • 单元测试
  • 集成测试
  • 发布规范
    • 分批发布
  • 限流设计
  • 事后复盘