SQL监控

基本介绍

SQL监控功能可以监控SQL任务执行的过程中对集群CPU、内存的占用量以及SQL执行的过程中所启动的进程数目 等信息,并且异常的SQL进行报警。SQL监控的主要功能分为三部分,正在执行SQL监控,SQL执行历史和监控报警。

SQL监控功能位于左侧菜单栏中DB集群子菜单内,进入页面后,通过上方选择集群来更改监控集群。

SQL监控功能旨在帮助用户通过图形化页面的形式查看正在执行的SQL列表和SQL执行的历史记录并根据记录进行异常报警。

主要功能

正在执行SQL

在正在执行选项卡中,页面将列出目前已选集群内所有数据库连接正在执行的SQL(除去’<IDLE>’连接)。

并根据lava slave的心跳信息,汇总出目前执行sql所用数据库连接所占用的CPU,内存,总进程数等,还会列出此条语句的开始时间和持续时间。

在表头中,会列出当前已选择集群的逻辑CPU核心数量,内存等信息,方便用户对比,从而得知SQL资源占用情况。

点击SQL语句,将会展开此语句在各节点上的资源占用情况,并以折线图的方式展示资源占用的历史变化。

正在执行SQL的默认刷新时间为10秒,过短的SQL不会被监控,执行时间过短的SQL所占用的资源一般不会过高。

折线图中的心跳间隔默认为60秒,这样配置是为了在大集群多并发的情况下更少的占用资源,而且更加专注于执行时间长的SQL。

这两项时间的配置位于lava安装目录下的conf/basicPrivate.config.xml可以修改并重启生效。

SQL执行历史

在执行历史选项卡中,页面将列出已选集群监控到的所有执行历史。

并根据记录,展示平均占用CPU,内存和进程数,还有此次执行的开始时间和结束时间。

点击SQL同样会展示每台机器的历史折线图。

历史记录默认保存60天,每过24小时,会清理超过60天的历史记录。

这项配置同样位于lava安装目录下的conf/basicPrivate.config.xml可以修改并重启生效。

监控报警

在监控报警选项卡中,页面将列出所有报警信息。

在SQL执行的过程中,系统会根据已经配置在报警规则中的规则进行报警。 针对每条SQL执行相关的报警规则主要有SQL内存占用报警、SQL的CPU占用率报警以及SQL执行时间报警三种,目前三类报警规则都是唯一且全局生效的。 对于SQL使用内存和CPU的报警,当SQL运行所使用的资源达到报警规则中的触发阈值且一直持续的时间超过规则中所配置的持续时间时,就会发送报警信息。发现报警信息有邮件和短信两种方式。 对于SQL执行时间报警,只要SQL实际执行时间超过预设的持续时间则触发警报。

当您觉得报警规则不适合您的业务时,可以点击右上角的”修改”,就可以修改报警规则,当您修改完毕之后,点击右上角的”确定修改”,您修改的报警规则就即时生效了。

报警列表中包含报警的SQL,集群信息,报警类型,报警信息,报警开始和结束的时间等信息