系统告警#

简介#

什么是告警#

当监控系统检测到事先定义的规则或阈值(告警策略)被触发时,告警功能可按事先定义的通知模板,通知相关人员或系统管理员。告警功能的主要目的是帮助维护者和管理者及时发现并解决问题,以确保系统的可用性、性能和稳定性。

使用场景#

  • 通过“告警策略”功能,可配置 Skylab 平台内节点和产品子集群的告警规则;

  • 通过“告警历史”功能,可浏览并处理历史告警信息;

  • 通过“通知模板”功能,可指定时间段和通知渠道,进行站内信、手机短信、电子邮件等多渠道通知。

使用限制#

目前只支持将告警策略配置到子集群上,暂不支持将告警策略配置到节点上。

使用指南#

告警历史#

告警历史列表展示了所有告警信息,分为待处理告警和已处理告警(告警历史)

可以根据近30天近7天昨天今天,或者自定义时间段筛选告警历史,可以按照告警对象 / 告警内容搜索告警历史。

  • 告警类型:告警类型分为指标告警 / 事件告警,支持筛选。

  • 告警级别:告警级别分为提示 / 重要 / 紧急。

  • 告警对象:告警对象根据告警对象类型的不同展示不同的内容,如果是节点告警,会展示节点名称和节点 IP ,如果是子集群告警,会展示集群名称和子集群名称。如果告警对象的超链接可点击,说明告警对象仍存在,可以点击超链接跳转到相应的监控界面,如果告警对象已经被删除,则不可跳转。

  • 告警内容:告警的详细描述。

  • 开始时间:告警的开始时间。

  • 结束时间:告警的结束时间,如果告警处于持续告警中,则没有结束时间,界面会展示“正在告警”。

  • 告警策略:产生本条告警对应的告警策略,如果策略仍存在,可以点击超链接跳转,如果不存在,则不可跳转。

  • 操作:可对未处理的事件告警或者已结束的指标告警添加处理备注,并完成处理。处理后的告警会进入告警历史。*注意:正在持续的指标告警不可进行处理,事件告警没有持续状态,所以可以直接处理。

已处理告警会多展示处理时间和处理人。鼠标指向处理人时,将展示处理告警时的备注。

告警策略#

告警策略是产生告警记录的依据,告警策略列表中展示了当前所有告警策略。

  • 策略名称:告警策略的名称。

  • 集群数:告警策略绑定的子集群数,其中包括用户单独关联的子集群和用户通过关联集群下“所有子集群”关联的子集群数。

  • 通知模板:告警策略关联的通知模板。

  • 适用产品:告警策略的适用产品。

  • 状态:启用或禁用本条告警策略。

  • 备注:告警策略的备注。

  • 修改时间:告警策略的最后修改时间。

  • 最后修改人:告警策略的最后修改人。

告警策略可以按照关联子集群筛选,可以按照策略名称 / 备注 / 修改人进行搜索。

新建告警策略#

点击左上角的新建策略,可以进入新建告警策略功能。

  • 适用产品:告警策略需要绑定一个适用产品,这是因为告警事件是和产品绑定的,产品分为通用和特定产品,对应的告警事件分为通用事件和产品特有事件。

  • 关联集群:在创建告警策略时,可以将告警策略关联到子集群,需要经过产品-集群-子集群三级下拉菜单,最终关联到多个子集群。通用产品的告警策略可以关联各个产品的子集群,特定产品的告警策略只能关联该产品的子集群。

  • 事件告警:可同时勾选多个告警事件。

  • 指标告警:在指标告警中,可配置多个指标告警策略,需要指定告警指标触发条件阈值持续时间粒度通知周期告警级别。可配置“任意”或“全部”的满足条件,“任意”代表任意一个策略满足条件就会触发告警,“全部”代表所有策略均满足条件才会触发告警。

  • 告警指标:可对 CPU、内存、磁盘、网络 IO、平均负载等多个指标配置告警。

  • 触发条件:告警触发条件,分为大于和小于。

  • 阈值:指标大于或小于该值产生告警,单位视具体指标而定。

  • 持续时间:在指定时间内,指标持续满足告警条件时,会产生告警,单位是分钟。例如:持续时间为 5 分钟:在 5 分钟该指标所有的监控数据都满足告警条件,则产生告警。

  • 粒度:粒度分为“节点”和“集群”。节点粒度代表对告警策略绑定集群下节点的指标信息告警,集群粒度代表对告警策略绑定下集群级别的指标信息告警,具体逻辑(取平均值或求和)视指标而定。例如:集群级别的 CPU 使用率代表集群下所有节点的 CPU 使用率的平均值,而集群级别的内存使用情况代表的是集群下所有节点的内存使用量之和。

  • 通知周期:在持续产生告警的情况下,向用户发出告警的频率,分为仅通知一次和间隔指定时间通知一次。此功能可避免产生告警风暴。

  • 告警级别:可指定告警级别,包括“提示”、“重要”、“紧急”三种级别。

  • 通知模板:告警策略绑定的通知模板,可选择已有的模板或者新建通知模板。

复制告警策略#

鼠标指向某个告警策略时,策略名称后方将浮现复制功能按钮。告警策略复制会将指定的告警策略复制到新建策略功能中,编辑修改后可保存到新的告警策略。

删除告警策略#

可同时勾选多个策略,通过告警策略列表上方的删除按钮,进行批量删除。也可通过告警策略名称后浮现的删除按钮,删除指定的告警策略。

修改关联子集群和通知模板#

勾选单个告警策略时,可通过告警策略列表上方的功能按钮,进行关联子集群、关联通知模板操作。也可通过告警策略名称后浮现的功能按钮完成同样的关联操作。

通知模板#

通知模板列表显示您创建的所有通知模板。

  • 模板名称:通知模板的名称。

  • 接收人/组:接收告警通知消息的用户 / 用户组,鼠标指向文字描述时将展示详细说明。

  • 修改时间、最后修改人:最后修改时间和修改人。

新建通知模板#

点击“新建通知模板”,进入新建通知模板界面。

  • 通知时机:告警触发 / 告警恢复,可多选,分别会在告警产生 / 恢复时向用户发送通知。

  • 接收对象

  • 类型:分为用户 / 用户组。

  • 接收人/接收组:接收人下拉菜单会展示用户的手机号、邮箱等信息,接收组会展示用户组下的用户信息。

  • 通知时间段:告警通知生效的时间段。

  • 接收渠道:站内信 / 邮件 / 短信,可多选。

复制通知模板#

通知模板同样支持对单条模板的复制,帮助您快速创建出一个新的通知模板。

删除通知模板#

可同时勾选多个模板,通过通知模板列表上方的删除按钮,进行批量删除。也可通过通知模板名称后浮现的删除按钮,删除指定的通知模板。