# 报警监控

# 概述


报警监控支持开发者对所有监控指标进行报警配置,当触发报警规则时根据预设的报警方式发送提醒。

支持对监控指标包括:页面性能、JS异常、资源加载异常、API请求、自定义监控指标等。



# 功能说明

支持多种时间跨度、阈值规则、过滤条件,配置灵活。

  • 时间跨度支持1~60分钟任意时长(环比为 1~30分钟
  • 支持多个维度条件(如:页面URL、网络类型、运营商、国家、省份等)
  • 支持同时满足多条规则或满足其中一条规则的报警
  • 支持大于、小于阈值报警、也自持环比上涨或下跌报警
  • 支持设置 静默期 (即:同一条报警规则,多长时间内再次触发也不发送通知,避免造成骚扰)
  • 支持邮箱、钉钉群等通知提醒方式


1、在侧边栏,点击 “监控报警” 菜单,进入报警设置页面。 


2、在报警设置页面,点击 页面右上角的 “创建报警规则” 按钮,开始配置报警规则。点击 “克隆报警规则” 从其他应用复制报警规则


3、按照业务需要,设置报警规则和通知提醒方式即可。


# 如何配置

每种业务类型、每个业务都有不同的可靠性要求,因此没暂时没有银弹规则(敬请期待智能报警),因此本主题尽量讲述一些配置的原则。


  1. 设置合理的时间区间和静默时间
  • 若业务高度敏感,希望一有抖动立刻报警

“时间区间” 推荐最近 1 分钟,静默期推荐 30分钟 或 不静默。

  • 若业务一般敏感,但希望能尽快发现问题

“时间区间” 推荐最近 5 分钟,静默期推荐 30分钟或1个小时

  • 若业务不敏感,但希望在持续变坏时能发现问题

“时间区间” 推荐最近 6~30 分钟

注意:最近 N 分钟的 N设置得越小,越能最快、最敏感地发现问题,但同时也可能对你造成报警骚扰,所以需要权衡;而 N 设置得越大,则会更准确地发现问题,但不一定能第一时间发现。


  1. 合理设置阈值

阈值就是当你的某个指标高于或低于你认为的底线时需要报警,那么这个底线就是阈值。如:API成功率低于96%视为不可接受,那么阈值就可设置为 96%

  • 充分了解业务及合理评估底线

利用监控系统中的时间趋势图,看看业务波动情况结合相应业务底线要求设置合理阈值。

  • 减少无关异常干扰

如:在API成功率中,你认为httpstatus 等于 403 不属于业务异常。那么你可以在探针上报是屏蔽此类数据


  1. 选择合适的指标
  • 根据业务选择最重要的指标

如:JS:异常次数;API分析:API成功率;页面性能:页面完全加载时间等

  • 配合合适的指标

有时候,单一指标可能会造成一些不准确的的误报,此时我们需要配合一些其他的指标一起设置规则,

如:API成功率小于95%报警,而某分钟,有两次I请求,失败了一次,成功率为50%,命中报警规则,但报警意义并不是很大。此类可配置为<code> API成功率 小于 95%</code><code>失败次数 大于 20 次</code> 的多条规则同时满足模式


  1. 设置合适的维度条件

可根据业务需要,选择重要的维度进行单独报警,也可在报警中过滤掉完全不用关注的维度。


  1. 使用“PV比”应对正常波动

在JS异常、资源异常这一类重异常次数的指标中,仅仅配置异常次数高于某个阈值是不够的。因不同时间段内,使用人数有波动,产生的异常数也会随之波动


  1. “环比”应对异常波动

某些情况下因阈值配置得较高,次数、率、PV比等指表还未配触发报警,但从趋势图看已经有明显的增高或降低趋势。为了防范于未然,使用环比指标报警可提前预发现此类问题。


# 参考DEMO

下文主要介绍报警规则如何配合才能更有效的命中报警,各家对自身业务质量要求不一,因此DEMO中具体数值没有可参考性,需要结合自身业务来判断。

本文中简单介绍了一些配置DEMO,若仍未满足你的需求,可仔阅读《报警规则配置说明》后按照你的业务诉求,配置属于你的规则


# JS异常&资源加载异常

关键指标:异常次数

一次用户访问可能产生0-N次异常,同一个异常,页面访问越多,产生的异常次数就越多。因此仅仅异常次数报警显然不够。此时配合异常次数PV比将更为有效。


	最近 5 分钟 异常次数 求和 &gt; 100 
且
   最近 5 分钟 异常次数PV比 平均 &gt; 10% 


# API分析

关键指标:成功率

因为有API成功率,绝大部分情况,使用API成功率即可监控到API的监控状况,但是考虑到有时候API请求次数太少而引起的率的变化较大的情况。可以配合着请求次数、成功次数等指标一起设置报警规则


	最近 5 分钟 请求次数 求和 &gt; 100
且
   最近 5 分钟 成功率 平均 &lt; 96%