自助巡检

本文档展示了 YMatrix 图形化界面的自助巡检功能。

如果将集群的监控告警功能比喻为集群的“急诊”,那么巡检功能则是集群的“定期体检”。进行定期的巡检可以协助你更加了解集群的整体运行情况,提早发现影响集群平稳运行的问题,确定各项运维操作如 vacuum 等的最佳时机,避免故障发生,减轻运维工作的负担。

YMatrix 图形化界面的自助巡检功能支持:

  1. 通过勾选巡检选项自助制定巡检计划
  2. 生成详细的巡检报告,包含异常项数量、需重点关注的异常项、巡检结果分析及后续操作建议、巡检日志等

1 准备工作

首先,你需要登录图形化界面。在浏览器里输入 Master 的 IP、端口号:

http://<IP>:8240

2 自助巡检

自助巡检页面。

自助制定巡检计划。

完整检查项清单如下:

检查类别 检查项 等级
集群基础信息 检查所有实例是否可达
检查集群状态
检查密码有效期不足 30 天的用户
License 有效期检查
检查连接数健康度
检查集群版本
数据库运行状态 检查 MARS2/CV 健康度
检查 Default 分区是否存在数据
数据库年龄 Top 10
检查最大的 20 个业务表
查看大小排名前 20 的系统表
检查耗时最久的 20 个 SQL
查看数据倾斜大小超过 10,000 行的表
检查 Master 与 Segment 索引的一致性
检查各实例 core 文件
检查自动分区策略运行状态
检查膨胀率超过 20% 的 HEAP/MARS2 表
查看大小排名前十的 Schema
检查使用率最低的 20 个索引
检查索引缓存命中率最低的 20 个索引
检查索引过大的系统表
检查最大的 20 个索引
检查各分区表的子分区数量
检查是否存在重复索引
查看各数据库大小
检查 Plpython 参数
检查各实例数据库日志大小
检查数据库参数
服务器运行状态 检查最近 7 天进程运行状态
检查最近 7 天网络带宽使用情况
检查磁盘使用情况
检查最近 7 天磁盘 I/O 使用情况
检查最近 7 天 CPU 使用情况
检查最近 7 天 Commit 内存
检查最近 7 天系统负载情况
检查最近 7 天 I/O 带宽使用情况
检查操作系统参数
mxgate 运行状态 检查 mxgate 日志是否存在错误信息
检查 mxgate 占用数据库的连接数

检查项等级制定逻辑如下:

等级 说明
此类检查项若出现异常会影响到集群稳定性
此类检查项若异常会影响到集群的部分业务
此类检查项若异常,对现有集群不构成直接影响,但长期发展会影响愈烈

注意!
检查项详细说明请见巡检报告。

执行巡检。

完成巡检。

查看报告,参考结果说明进行后续维护操作。