400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
400-800-0824
info@ymatrix.cn
YMatrix 文档
关于 YMatrix
标准集群部署
数据写入
数据迁移
数据查询
运维监控
参考指南
工具指南
数据类型
存储引擎
执行引擎
系统配置参数
SQL 参考
常见问题(FAQ)
新架构 FAQ
集群部署 FAQ
SQL 查询 FAQ
MatrixGate FAQ
运维 FAQ
监控告警 FAQ
PXF FAQ
PLPython FAQ
性能 FAQ
本文档展示了 YMatrix 图形化界面的自助巡检功能。
如果将集群的监控告警功能比喻为集群的“急诊”,那么巡检功能则是集群的“定期体检”。进行定期的巡检可以协助你更加了解集群的整体运行情况,提早发现影响集群平稳运行的问题,确定各项运维操作如 vacuum 等的最佳时机,避免故障发生,减轻运维工作的负担。
YMatrix 图形化界面的自助巡检功能支持:
首先,你需要登录图形化界面。在浏览器里输入 Master 的 IP、端口号:
http://<IP>:8240
自助巡检页面。
自助制定巡检计划。
完整检查项清单如下:
检查类别 | 检查项 | 等级 |
---|---|---|
集群基础信息 | 检查所有实例是否可达 | 高 |
检查集群状态 | 高 | |
检查密码有效期不足 30 天的用户 | 中 | |
License 有效期检查 | 中 | |
检查连接数健康度 | 低 | |
检查集群版本 | 低 | |
数据库运行状态 | 检查 MARS2/CV 健康度 | 高 |
检查 Default 分区是否存在数据 | 高 | |
数据库年龄 Top 10 | 高 | |
检查最大的 20 个业务表 | 中 | |
查看大小排名前 20 的系统表 | 中 | |
检查耗时最久的 20 个 SQL | 中 | |
查看数据倾斜大小超过 10,000 行的表 | 中 | |
检查 Master 与 Segment 索引的一致性 | 中 | |
检查各实例 core 文件 | 中 | |
检查自动分区策略运行状态 | 中 | |
检查膨胀率超过 20% 的 HEAP/MARS2 表 | 中 | |
查看大小排名前十的 Schema | 低 | |
检查使用率最低的 20 个索引 | 低 | |
检查索引缓存命中率最低的 20 个索引 | 低 | |
检查索引过大的系统表 | 低 | |
检查最大的 20 个索引 | 低 | |
检查各分区表的子分区数量 | 低 | |
检查是否存在重复索引 | 低 | |
查看各数据库大小 | 低 | |
检查 Plpython 参数 | 低 | |
检查各实例数据库日志大小 | 低 | |
检查数据库参数 | 低 | |
服务器运行状态 | 检查最近 7 天进程运行状态 | 高 |
检查最近 7 天网络带宽使用情况 | 高 | |
检查磁盘使用情况 | 高 | |
检查最近 7 天磁盘 I/O 使用情况 | 高 | |
检查最近 7 天 CPU 使用情况 | 高 | |
检查最近 7 天 Commit 内存 | 高 | |
检查最近 7 天系统负载情况 | 低 | |
检查最近 7 天 I/O 带宽使用情况 | 低 | |
检查操作系统参数 | 低 | |
mxgate 运行状态 | 检查 mxgate 日志是否存在错误信息 | 低 |
检查 mxgate 占用数据库的连接数 | 低 |
检查项等级制定逻辑如下:
等级 | 说明 |
---|---|
高 | 此类检查项若出现异常会影响到集群稳定性 |
中 | 此类检查项若异常会影响到集群的部分业务 |
低 | 此类检查项若异常,对现有集群不构成直接影响,但长期发展会影响愈烈 |
注意!
检查项详细说明请见巡检报告。
执行巡检。
完成巡检。
查看报告,参考结果说明进行后续维护操作。