跳转到内容

场景监控介绍

场景监控是业务的"全天候保镖" - 它7×24小时监控系统运行状态,在业务受阻前识别风险,保障用户体验和系统稳定。AngusTester场景监控帮您:
✅ 提前预警90%潜在故障
✅ 减少60%业务中断时间
✅ 提升用户满意度40%+
✅ 节省75%故障排查时间

什么是场景监控?业务的健康监测系统

场景监控是真实用户视角的业务连续性守护者

与传统监控对比:

维度传统监控场景监控
视角系统资源用户体验
颗粒度单点指标业务流程
价值系统可用性业务连续性
时效被动响应主动防御

好的场景监控不是火灾报警器,而是烟雾探测器 - 在起火前就发出预警

四大核心监控场景

1. 接口响应守护 - 保障服务畅通

目的: 确保API及时响应,避免用户等待
实战案例:

2. 系统健康巡检 - 全面健康诊断

监控要点:

最佳实践:

  • 定时执行/health端点检查
  • 关键服务进程监控
  • 自动生成健康报告

3. 功能正确性验证 - 确保业务无错

持续验证机制:

验证频率:

  • 核心功能:每分钟验证
  • 重要功能:每5分钟验证
  • 普通功能:每小时验证

4. 业务连续性保障 - 实时业务审计

支付业务监控案例:

markdown
**监控指标:**
- 每小时支付成功率 ≥ 99.5%
- 支付金额差异 < 0.1%
- 异常支付率 < 0.5%

**预警规则:**
🟢 正常:所有指标达标  
🟡 警告:1项指标超标  
🔴 严重:2+项指标超标

AngusTester场景监控方案

智能监控控制台

统一监控面板:

四步极简配置

智能告警系统

分级告警策略:

严重级别通知方式响应要求
⚠️ 警告级邮件+应用内消息2小时内处理
🚨 严重级短信+电话(TODO)30分钟内处理
🔥 紧急级电话+值班呼叫(TODO)立即处理

根因分析引擎(TODO)

自动诊断流程:

场景监控字段信息

参数字段名类型必填长度限制说明
IDidbigint条件/监控任务唯一标识符;修改时必须
场景IDscenarioIdlong/关联场景唯一标识
监控名称namestring≤100监控任务名称
描述descriptionstring≤200监控任务描述
时间设置timeSettingobject/监控执行时间配置
服务器配置serverSettinglist/监控目标服务器配置
通知设置noticeSettingobject/告警通知配置
项目IDprojectId只读//所属项目ID
场景名称scenarioNamestring只读/关联场景名称
监控状态statusenum只读/状态枚举:待执行/成功/失败
失败原因failureMessagestring只读/监控失败详细信息
下次执行时间nextExecDatedatetime只读/下次监控执行时间
最后监控历史IDlastMonitorHistoryIdlong只读/最后一次监控历史记录ID
最后监控时间lastMonitorDatedatetime只读/最后一次监控执行时间
监控统计countobject只读/监控结果统计信息
租户IDtenantIdlong只读/所属租户ID
创建人IDcreatedBylong只读/监控任务创建人ID
创建人姓名createdByNamestring只读/创建人姓名
创建时间createdDatedatetime只读/监控任务创建时间
最后修改人IDlastModifiedBylong只读/最后修改人ID
最后修改人姓名lastModifiedByNamestring只读/最后修改人姓名
最后修改时间lastModifiedDatedatetime只读/最后修改时间

时间设置字段(timeSetting)

参数字段名类型必填长度限制说明
创建方式createdAtenum/创建方式枚举:立即/定时/周期
指定时间createdAtSomeDatedatetime条件/定时执行的具体时间(当创建方式为"定时"时必须)
周期单位periodicCreationUnitenum条件/周期单位枚举:天/周/月(当创建方式为"周期"时必须)
星期几dayOfWeekenum条件/星期枚举:周一至周日(当周期单位为"周"时必须)
每月日期dayOfMonthint条件/每月具体日期(1-31)(当周期单位为"月"时必须)
每日时间timeOfDaytime条件/每日具体时间(当创建方式为"周期"时必须)
小时hourOfDayint条件/小时(1-23)(当创建方式为"周期"时必须)
分钟minuteOfHourint条件/分钟(1-59)(当创建方式为"周期"时必须)
是否一次性onetimeboolean/是否只执行一次(默认false

通知设置字段(noticeSetting)

参数字段名类型必填长度限制说明
启用通知enabledboolean/是否启用告警通知
组织类型orgTypeenum条件/组织类型枚举:用户/部门/小组(当启用通知时必须)
组织列表orgsset条件/通知接收组织列表(当启用通知时必须)

监控统计字段(count)

参数字段名类型说明
总监控次数totalNumint监控任务执行总次数
成功次数successNumint监控成功次数
失败次数failureNumint监控失败次数
成功率successRatedouble监控成功率(百分比)
最近24小时次数last24HoursNumint最近24小时监控次数
最近24小时成功次数last24HoursSuccessNumint最近24小时监控成功次数
最近24小时成功率last24HoursSuccessRatedouble最近24小时监控成功率
最近7天次数last7DayNumint最近7天监控次数
最近7天成功次数last7DaySuccessNumint最近7天监控成功次数
最近7天成功率last7DaySuccessRatedouble最近7天监控成功率
最近30天次数last30DayNumint最近30天监控次数
最近30天成功次数last30DaySuccessNumint最近30天监控成功次数
最近30天成功率last30DaySuccessRatedouble最近30天监控成功率
平均延迟时间avgDelayTimeobject平均延迟时间对象
最小延迟时间minDelayTimeobject最小延迟时间对象
最大延迟时间maxDelayTimeobject最大延迟时间对象
P50延迟时间p50DelayTimeobject50分位延迟时间
P75延迟时间p75DelayTimeobject75分位延迟时间
P90延迟时间p90DelayTimeobject90分位延迟时间

监控状态(status)

枚举值说明
PENDING待执行
SUCCESS成功
FAILURE失败

组织类型(orgType)

枚举值说明
USER用户
DEPT部门
GROUP小组

时间单位(periodicCreationUnit)

枚举值说明
DAY
WEEK
MONTH

基于 GPL-3.0 许可发布