简体中文

English

Русский

产品

文档

资源中心

关于我们

Prometheus 监控参数解读

本文档介绍了 Prometheus 监控面板中 YMatrix、 MatrixGate、主机节点监控等相关指标及参考报警阈值。

告警级别说明

p0：需要立即处理，集群已经不可用。
p1：需要尽快处理，短时间内不处理，可能会影响集群使用。
p2：需要留意，长时间不处理，可能会影响集群使用。
p3：不会影响集群使用，按需配置即可。

注意！
无参考报警阈值的指标，请根据实际情况判断并配置告警条件。

1 YMatrix 监控指标

1.1 Overview

此版块显示了集群的整体运行状态，包括：

指标名	描述	单位	级别	参考报警阈值
集群状态	集群节点状态，包括： 0：正常 1：无 Standby 2：无 Mirror 10：分布不均衡（部分节点宕机恢复后，没有重新平衡主从角色） 11：存在主从不同步节点（部分 Mirror 节点与 Primary 不同步） 12：只有 Master（集群只启动了 Master 节点，通常在诊断时使用） 20：Segment 宕机（存在不可用的 Segment 节点，集群不可用）	short	p0	20：Segment 宕机为严重事件，需要报警
运行时间	包括 YMatrix 自启动以来的运行时间和 Master 宿主机操作系统运行时间	seconds（s）
版本	YMatrix 的版本
连接状态	连接状态显示了数据库系统中的连接数统计，包括：连接总数（Total）、连接查询被阻塞数（Blocked）、空闲连接数（Idle）、事务中空闲数（Idle in TXN）	short
慢查询数	当前系统中，执行时间超过 1 天的查询数量	short		大于 0 则说明有特别慢的查询，需要报警
事务	事务提交与回滚数量统计	short
Disk Space in Use	磁盘使用量。Master 节点或 Segment 节点实例的磁盘使用量	0-1
节点状态	每个节点的状态，包括： 0：UP（正常） 10：Switched（角色互换，说明出现过主从切换，需要重新平衡） 11：Resync（主从同步中） 20：Down（宕机）	short	p2/p1	持续时间超过 5 分钟不为 0 时需要报警 p2 20 值需要增加报警 p1

1.2 Database Performance

此版块展示了数据库性能，包括：

指标名	描述	单位	级别	参考报警阈值
Page Hit Ratio	HEAP 表读操作命中块缓存次数与读操作总数的比值。（缓存仅包括 HEAP 表自己维护的缓存，不包括操作系统缓存）显示的数值为当前值，曲线为历史值通常要求数值在 90% 以上	0-1
Temp Size	数据库中查询写入临时文件的数据总量。不管创建临时文件的原因和 log_temp_files 设置，所有临时文件都会被统计	bytes
Sessions Per Database	每个数据库的会话数	short
Activities	各个状态会话数	short
Deadlocks	发生死锁数量	short	p3	发生死锁时，YMatrix 自动解锁，失败的查询可以重试，可以配置告警
Checksum Failures	数据库数据页校验失败次数，如果没有开启则为 NULL	short	p3
Rows Read	读取数据行数	short
Checkpoints	检查点统计。橘色为主动请求生成检查点的操作次数，绿色为因为超时而自动生成检查点的操作次数	short
Page Cache Hit	blks_hit：读取数据页时命中缓存次数 blks_read：未命中缓存而要读磁盘的次数
Replication Latency	write_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL 成功（但尚未刷新或应用它）之间经过的时间。如果配置了 Standby/Mirror，可用于测量当 synchronous_commit 配置为 remote_write 时，提交产生的延迟 flush_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL 并刷盘成功（但尚未应用它）之间经过的时间。如果配置了 Standby/Mirror，可用于测量当 synchronous_commit 配置为 on 时，提交产生的延迟 replay_lag - 本地刷盘最新的 WAL 和接收到 Standby/Mirror 写入 WAL，刷盘并成功应用之间经过的时间。如果配置了 Standby/Mirror，可用于测量当 synchronous_commit 配置为 remote_apply 时，提交产生的延迟	milliseconds(ms)	p3	默认情况下，Primary 与 Mirror 间为同步复制，如果大于 1s，会导致事务提交变得很慢。如果为异步复制，则可以适当调大告警阈值
Rows Insert/Update/Delete	数据 INSERT 或 UPDATE 或 DELETE 的数量	short
Checkpoint buffers	buffers_checkpoint - 检查点生成时写入的缓存数 buffers_clean - 后台写进程写入的缓存数 buffers_backend - 工作进程直接写入的缓存数	short
Top 10 Replication Lag Size	Top 10 复制延迟 WAL 大小	bytes	p3	默认情况下，Primary 与 Mirror 间为同步复制，如果大于 1GB，会导致事务提交变得很慢。如果为异步复制，则可以适当调大告警阈值

1.3 Storage

此版块展示了存储相关的统计，包括：

指标名	描述	单位	级别	参考报警阈值
Top 10 Database	数据库大小 Top10	bytes
Top 10 Users	用户数据量大小 Top10	bytes
Top 10 Aging Database	数据库年龄 Top10	short	p2	数据库最大使用年龄为 21E，当只剩 1E 时，YMatrix 实例会强制停止，属于 5E 时，日志中会有提示，建议告警配置为 6E 和 2E。
Top 10 Big Tables	表大小 Top10	bytes
Top 10 Big Partitions	分区表大小 Top10	bytes
Top 10 Growth Today	当天数据量增长最快的 10 张表	bytes
Top 10 Growth Last 7 Days	7天内数据量增长最快的 10 张表	bytes

2 MatrixGate 监控指标

2.1 基本信息

指标名	描述	单位	级别	参考报警阈值
版本	mxgate 版本号
运行时间	mxgate 运行时长	seconds（s）
进程号	mxgate 后台进程 PID	short	p2	无进程号，可能是 mxgate 宕机

2.2 任务信息

指标名	描述	单位	级别	参考报警阈值
目标表	该任务数据插入的目标表
总入库行数	该任务自 mxgate 启动以来，入库成功的数据总数	short
总错误行数	该任务自 mxgate 启动以来，入库失败的数据总数	short	p3	可以根据情况设置报警阈值
总入库大小	该任务自 mxgate 启动以来，入库成功的数据量大小	short
并发度	并发总量：值为配置项 stream - prepared + 1，并发的上限配置工作数量：实际工作的并发量，某些线程会进入休眠状态，所以实际工作的并发度可能小于配置	short
事务时间粒度	数据事务提交的时间跨度	short
目标表阻塞	目标表阻塞数量	short

2.3 负载统计

指标名	描述	单位	级别	参考报警阈值
提交行数	该 job 已提交行数	short
入库行数	该 job 已入库行数	short
阻塞行数	该 job 被阻塞行数	short	p3	可以根据情况设置报警阈值
失败行数	该 job 写入失败行数	short	p3	可以根据情况设置报警阈值
写入数据量	该 job 写入字节总数	bytes

2.4 延时统计

数据入库经历的各个阶段延时，为一段时间的统计值，包括：

max：最大值
min：最小值
95%：95% 数据的平均值

指标名	描述	单位	级别	参考报警阈值
总延时统计	该延时为下面几个延时之和	nanoseconds（ns）	p3	30s
insertStart 延时统计	从执行 INSERT 到第一条数据发送给 Segment 的延时	nanoseconds（ns）
write 延时统计	mxgate 将该批次数据发送给 Segment 的耗时	nanoseconds（ns）
insertDone 延时统计	最后一条数据发送到 Segment 到 INSERT 语句执行完毕（数据在各个 Segment 之间重分布落盘结束）的延时	nanoseconds（ns）
commit 延时统计	执行 commit 命令的延时	nanoseconds（ns）

2.5 数据库事件

指标名	描述	单位	级别	参考报警阈值
CHECKPOINT 次数	一分钟内 CHECKPOINT 执行的次数	short
CHECKPOINT 写延时	在文件被写入磁盘的检查点处理部分花费的总时间，以毫秒计	milliseconds（ms）
CHECKPOINT 同步延时	在文件被同步到磁盘中的检查点处理部分花费的总时间，以毫秒计	milliseconds（ms）
申请缓存块数	被分配的缓冲区数量	short
写入磁盘缓存块数	分为三类： 1.在检查点期间被写的缓冲区数目 2.被后台写进程写的缓冲区数目 3.被一个后端直接写的缓冲区数量	short
刷脏页达到上限次数	后台写进程由于已经写了太多缓冲区而停止清洁扫描的次数	short
主从延迟日志量	Master 与 Standby 或 Primary 与 Mirror 之间的 WAL 延迟量	bytes
主从延迟时间	Master 与 Standby 或 Primary 与 Mirror 之间的延时时间	milliseconds（ms）
目标表阻塞事件趋势图	分为四类： 1.锁相关 2.复制相关 3.资源组相关 4.资源队列相关	short

3 主机节点监控

3.1 Quick CPU / Mem / Disk

指标名	描述	单位	级别	参考报警阈值
CPU Busy	收集所有 CPU 内核 Busy 状态占比	0-1
Sys Load（5m avg）	5 分钟内 CPU 所有内核的平均负载率	0-1	p3/p2	CPU核数 3 / CPU核数 5
Sys Load（15m avg）	15分钟内 CPU 所有内核的平均负载率	0-1	p3/p2	CPU核数 3 / CPU核数 5
RAM Used	已使用的内存大小(内存总量 - 空闲的内存大小 - Buffer缓存和Cached缓存占的内存大小)	0-1
SWAP Used	已使用的交换内存的大小	0-1	p3	80%
Root FS Used	根文件系统使用率	0-1	p3/p2	60%/80%
CPU Cores	物理 CPU 的核数	short
RootFS Total	根文件系统总空间	bytes	p3/p2	60%/80%
Uptime	系统正常运行的时间	seconds（s）
RAM Total	内存大小	bytes
SWAP Total	交换分区的大小	bytes

3.2 Basic CPU / Mem / Disk

指标名	描述	单位	级别	参考报警阈值
CPU Basic	CPU 的基本信息 /proc/stat	0-1
Memory Basic	内存基本信息	bytes
Network Traffic Basic	每个接口的基本网络信息	bit	p3/p2	网卡最大带宽 60% 80%
Disk Space Used Basic	所有挂载的文件系统的磁盘空间占比	0-1	p3	磁盘使用率 60% 80%

3.3 CPU / Memory / Net / Disk

指标名	描述	单位	级别	参考报警阈值
CPU	CPU 在内核模式下执行的进程占比	short
Memory Stack	内存堆栈 /proc/meminfo	bytes
Network Traffic	各个网络接口的传输速率	bytes/sec
Disk Space Used	所有挂载的文件系统的磁盘空间大小	bytes
Disk IOps	磁盘读写	I/O ops/sec（iops）
I/O Usage Read / Write	磁盘读写速率	bytes
I/O Utilization	I/O 利用率	0-1	p3/p2	60% / 80%
CPU spent seconds in guests（VMs）	运行一个带 nice 值的 guest 花费的时间	milliseconds（ms）

3.4 Memory Meminfo

指标名	描述	单位	级别	参考报警阈值
Memory Active / Inactive	最近使用频繁/较少的内存
Memory Active / Inactive Detail	Inactive_file - LRU list 上长时间未被访问过的与文件对应的内存页 /proc/meminfo LRU_INACTIVE_FILE Inactive_anon - 上长时间未被访问过的匿名页和交换区缓存（包括 tmpfs） /proc/meminfo LRU_INACTIVE_ANON Active_file - LRU list 最近被访问过的与文件对应的内存页 /proc/meminfo LRU_ACTIVE_FILE Active_anon - 最近被访问过的匿名页和交换区缓存（包括 tmpfs） /proc/meminfo LRU_ACTIVE_ANON	bytes
Memory Shared an Mapped	Mapped - mapped 缓存页占用的内存 /proc/meminfo Mapped Shmem - 共享内存 /proc/meminfo Shared	bytes
Memory Vmalloc	VmallocChunk - vmalloc 可分配的最大的逻辑连续的内存大小 /proc/meminfo VmallocChunk VmallocTotal - vmalloc 可使用的总内存大小 /proc/meminfo VmallocTotal VmallocUsed - vmalloc 已用的总内存大小 /proc/meminfo VmallocUsed	bytes
Memory Anonymous	Active_anon - pages最近被使用过的匿名虚拟内存页 /proc/vmstat nr_active_anon Active_file - 最近被使用过的文件虚拟内存页 /proc/vmstat nr_active_file	bytes
Memory HugePages Counter	HugePages_Free - 系统当前总共拥有的空闲 HugePages 数目 /proc/meminfo HugePages_Free HugePages_Rsvd - 系统当前总共保留的HugePages数目，更具体点就是指程序已经向系统申请，但是由于程序还没有实质的HugePages读写操作，因此系统尚未实际分配给程序的HugePages数目 /proc/meminfo HugePages_Rsvd HugePages_Surp - 指超过系统设定的常驻HugePages数目的数目 /proc/meminfo HugePages_Surp	bytes
Memory DirectMap	DirectMap1G - 映射为 1G 的内存页的内存数量 DirectMap2M - 映射为 2M 的内存页的内存数量 DirectMap4K - 映射为 4kB 的内存页的内存数量	bytes
Memory NFS	NFS Unstable - 发给 NFS server 但尚未写入硬盘的缓存页	bytes
Memory Commited	当前系统已经分配的内存量，包括已分配但尚未使用的内存大小当前系统可分配的内存量	bytes	p3/p2	60%/80%
Memory Writeback an Dirty	Writeback - 正准备主动回写硬盘的缓存页 /proc/meminfo Writeback WritebackTmp - FUSE用于临时写回缓冲区的内存 /proc/meminfo WritebackTmp Dirty - 需要写回磁盘的数据大小 /proc/meminfo Dirty	bytes
Memory Slab	Reclaimable - 可回收的 slab 虚拟内存页 /proc/vmstat nr_slab_reclaimable Unreclaimable - 不可回收的 slab 虚拟内存页 /proc/vmstat nr_slab_unreclaimable	bytes
Memory Bounce	Bounce - bounce buffers 占用的内存 /proc/meminfo Bounce	bytes
Memory Kernel / CPU	KernelStack - 内核栈大小（常驻内存，不可回收） PerCPU - 每个 CPU 加载模块分配的内存大小	bytes
Memory HugePages Size	HugePages - 系统当前总共拥有的HugePages数目 /proc/meminfo HugePages Hugepagesize - 每一页 HugePages 的大小 /proc/meminfo Hugepagesize	bytes
Memory Unevictable MLocked	Unevictable - 不可被回收的内存 /proc/meminfo Unevictable MLocked - 被 mlock() 系统调用锁定的内存大小 /proc/meminfo MLocked	bytes

3.5 Memory Vmstat

指标名	描述	单位	级别	参考报警阈值
Memory Pages In / Out	Pagesin - 数据从硬盘读到物理内存的速率(5分钟内) /proc/vmstat pgpgin Pagesout - 数据从物理内存写到硬盘的速率(5分钟内) /proc/vmstat pgpgout	short
Memory Page Faults	Pgfault - 一级页面和二级页面的平均错误数(5分钟内) /proc/vmstat pgfault Pgmajfault - 一级页面的平均错误数(5分钟内) /proc/vmstat pgmajfault Pgminfault - 二级页面的平均错误数(5分钟内)	short
Memory Pages Swap In / Out	Pswpin - 数据从磁盘交换区装入内存的速率(5分钟内) /proc/vmstat pswpin Pswpout - 数据从内存转储到磁盘交换区的速率(5分钟内) /proc/vmstat pswpout	short
OOM Killer	OOM Killer 调用次数	short	p3	有变化就告警

3.6 System Timesync

指标名	描述	单位	级别	参考报警阈值
Time Syncronized Drift	估算误差（秒）本地系统和参考时钟之间的时间偏移最大误差（秒）	short
Time Syncronized Status	时钟是否与一个可靠的服务器同步估算误差（秒）	short
Time PLL Adjust	锁相环时间调整	short
Time Misc	时钟滴答之间的秒数国际原子时 (TAI) 偏移量	short

3.7 System Processes

指标名	描述	单位	级别	参考报警阈值
Processes Status	Processes blocked - 当前被阻塞的任务的数目 /proc/stat procs_blocked Processes in runnable state - 当前运行队列的任务的数目 /proc/stat procs_running	short	p3	blocked：10
Processes Forks	Processes forks second - 每秒创建的进程个数	short
PIDS Number and Limit	当前主机运行进程数主机限制最大进程数	short	p3/p2	15000/20000
Processes Memory	进程占用的虚拟内存的大小进程可用最大虚拟内存大小	bytes
Process schedule stats Running / Waiting	启动一个进程花费的时间 CPU处理等待时间	ms
Threads Number and LImit	当前线程总数主机最大线程数	short

3.8 System Misc

指标名	描述	单位	级别	参考报警阈值
Vontext Switches / Interrupts	Context switches - CPU 的 context switch 平均次数（5分钟内） Interrupts - 服务的平均中断总数（5分钟内）	short
Interrupts Detail	当前系统的软中断列表和对应的中断号平均中断次数（5分钟内） /proc/interrupts	short
Entropy	可用于随机数生成器	short
File Descriptors	最大打开文件描述符数打开文件描述符数	short
Schedule timeslices executed by each cpu	调度每个 CPU 执行的时间片	short
CPU time spent in user and system contexts	在用户和系统上下文中花费的 CPU 时间	short

3.9 Hardware Misc

指标名	描述	单位	级别	参考报警阈值
Hardware temperature monitor	硬件的温度监控	Celsius(℃)
Power supply	是否供电	short
Throttle colling device	冷却设备状态	short

3.10 Systemd

指标名	描述	单位	级别	参考报警阈值
Systemd Sockets	sockets 已接受连接总数	short
Systemd Units State	inactive - 不活跃的 Systemd 单元 failed - 失败的 Systemd 单元 deactivating - 停用的 Systemd 单元 active - 忙碌的 Systemd 单元 activating - 激活 Systemd 单元	short

3.11 Storage Disk

指标名	描述	单位	级别	参考报警阈值
Disk IOps Completed	Reads completed 每个磁盘分区每秒读完成次数 Writes completed 每个磁盘分区每秒写完成次数	I/O ops/sec（iops）
Disk Average Wait Time	Read wait time avg 每个磁盘读平均等待时间 Write wait time avg 每个磁盘平均写等待时间	Milliseconds（ms）	p3	1s
Disk R/W Merged	Read merged 每个磁盘分区每秒合并读完成次数 Write merged 每个磁盘分区每秒合并写完成次数	I/O ops/sec（iops）
Instantaneous Queue Size	瞬时队列大小, 采样时未处理的请求数。随着请求被提供给适当的结构 request_queue 而递增，随着请求完成而递减	short
Disk R/W Data	Read bytes 每个磁盘分区每秒读取的字节数 Written bytes 每个磁盘分区每秒写入的字节数	bytes/sec
Average Queue Size	向设备发出的请求的平均队列长度	short
Time Spent Doing I/Os	向设备发出 I/O 请求的运行时间百分比（设备的带宽利用率）。对于串行提供请求的设备，当该值接近 100% 时，会出现设备饱和。但对于并行提供请求的设备，如 RAID 阵列和现代 SSD，这个数字并不能反映其性能限制	0-1
Disk IOps Discards completed / merged	磁盘 Discards 完成 IOps 磁盘 Discards 合并 IOps	I/O ops/sec（iops）

3.12 Storage Filesystem

指标名	描述	单位	级别	参考报警阈值
Filesystem space available	挂载的文件系统可用空间挂载的文件系统剩余空间挂载的文件系统占用空间	bytes	p3/p2	60%/80%
File Descriptor	Maximum open file descriptors - 最大打开文件描述符数 Open file descriptors - 打开文件描述符的数量	short
Filesystem in ReadOnly / Error	ReadOnly 只读模式挂载的文件系统 Device error 设备错误次数	short	p3
File Nodes Free	Free file nodes：挂载的文件系统的 inode 剩余使用数量	short	p3	60%
FIle Nodes Size	File nodes total：挂载的文件系统的文件节点大小	short

3.13 NetWork Traffic

指标名	描述	单位	级别	参考报警阈值
Network traffic by Packets	Receive 各个接口每秒接收的数据包总数 Transmit 各个接口每秒发送的数据包总数	packets/sec
Network Traffic Drop	Receive drop 各个接口每秒接收的丢弃的数据包总数 Transmit drop 各个接口每秒发送的丢弃的数据包总数	packets/sec	p3	100
Network Traffic Multicast	Receive multicast 各个接口每秒接收的多播包数	packets/sec
Network Traffic Frame	Receive frame 各个接口每秒接收的帧数	packets/sec
Network Traffic Colls	Transmit colls 各个接口上检测到的冲突数	short
ARP Entries	ARP entries 各个接口上 ARP 表中包的统计	short
Speed	Speed 网卡最大带宽	bytes
Softnet Packets	Processed 每个 CPU 处理的包数 Droped 每个 CPU 丢弃的包数
Network Operational Status	Physical link state 每个网卡的物理连接状态	short
Network Traffic Errors	Receive errors 监测到各个接口每秒接收的错误数据包总数 Rransmit errors 监测到各个接口每秒发送的错误数据包总数	packets/sec	p3	100
Network Traffic Compressed	Receive compressed 各个接口每秒接收的压缩数据包总数 Transmit compressed 各个接口每秒发送的压缩数据包总数	packets/sec
Network traffic Fifo	Receive fifo 各个接口每秒接收的 fifo 包总数 Transmit fifo 各个接口每秒发送的 fifo 包总数	packets/sec
Network Traffic Carrier	Statistic transmit_carrier 由各个接口检测到的载波损耗的数量	short
NF Contrack	NF conntrack entries 跟踪连接数 NF conntrack limit	short
MTU	各个接口接收的最大数据包的值	bytes
Queue Length	各个结构传输队列长度	short
Softnet Out of Quota	各个 CPU 积压情况	0-1

3.14 Neteork Sockstat

指标名	描述	单位	级别	参考报警阈值
Sockstat TCP	TCP_alloc - 已分配（已建立、已申请到 sk_buff）的 TCP 套接字数量 TCP_inuse - 正在使用（正在侦听）的 TCP 套接字数量 TCP_mem - TCP 套接字缓冲区使用量 TCP_orphan - 无主（不属于任何进程）的 TCP 连接数（无用、待销毁的 TCP socket 数） TCP_tw - 等待关闭的 TCP 连接数	short
Sockstats FRG / RAW	FRAG_inuse - 正在使用的 Frag 套接字数量 FRAG_memory - 使用的 Frag 缓冲区 RAW_inuse - 正在使用的 Raw 套接字数量	short
Sockstat Used	Sockets_used - 已使用的所有协议套接字总量	short
Sockstat UDP	UDPLITE_inuse - 正在使用的 UDP-Lite 套接字数量	short
Sockstat Memory Size	TCP_mem_bytes - TCP 套接字缓冲区比特数 UDP_mem_bytes - UDP 套接字缓冲区比特数	bytes

3.15 Network Netstat

指标名	描述	单位	级别	参考报警阈值
Netstat IP In / Out Octets	InOctets - 接收的八位字节数 OutOctets - 发送的八位字节数	short
ICPM In / Out	InMsgs - 收到的消息，此计数器包括 icmpInErrors 计数的所有计数器 OutMsgs - 试图发送的消息，此计数器包括 icmpOutErrors 计数的所有计数器	short
UDP In / Out	InDatagrams - 平均接收的 UDP 数据包（5分钟内） OutDatagrams - 平均发送的 UDP 数据包（5分钟内）	short
TCP In / Out	InSegs - 收到的分段，包括错误收到的分段。此计数包括在当前建立的连接上接收的分段 OutSegs - 发送的分段，包括当前连接上的分段，但不包括仅包含重新传输的八位字节的分段	short
TCP Connections	CurrEstab - 当前状态为 ESTABLISHED 或 CLOSE-WAIT 的 TCP 连接数	short
TCP Direct Transition	ActiveOpens - 已从 CLOSED 状态直接转换到 SYN-SENT 状态的 TCP 连接 PassiveOpens - 从 LISTEN 状态直接转换到 SYN-RCVD 状态的 TCP 连接	short
Netstat IP Forwarding	Forwarding - IP 转发报文数	short
ICMP Errors	InErrors-接收到且确定为具有 ICMP 特定错误的消息（错误的 ICMP 校验和、错误的长度等）	short
UDP Errors	InCsumErrors - 具有校验和错误的 UDP 数据包的平均数（5分钟内） InErrors - 本机端口未监听之外的其他原因引起的 UDP 入包无法送达(应用层)的平均数（5分钟内） RcvbufErrors - 接收缓冲区溢出的 UDP 包的平均数（5分钟内） SndbufErrors - 发送缓冲区溢出的 UDP 包的平均数（5分钟内） NoPorts - 未知端口接收 UDP 数据包的平均数（5分钟内）	short	p3	100
TCP Errors	ListenOverflows - 套接字的侦听队列溢出的次数 ListenDrops - 忽略了到 LISTEN 套接字的SYN TCPSynRetrans - SYN-SYN/ACK 重传以中断 SYN 中的重传，快速/超时重传 RetransSegs - 重新传输的段数-也就是说，传输的 TCP 段数包含一个或多个先前传输的八位字节 InErrs - 错误接收的段（例如，错误的 TCP 校验和） OutRsts -使用 RST 标志发送的段	short	p3	100
TCP SyncCookie	SyncookiesFailed - 接收的无效的 SYN cookies 的数量 SyncookiesRecv - 接收的 SYN cookies 的数量 SyncookiesSent - 发送的 SYN cookies 的数量	short

3.16 Node Exporter

指标名	描述	单位	级别	参考报警阈值
Node Exporter Scrape Time	各个收集器持续时间	seconds
Node Exporter Scrape	各个收集器正常工作数量	short

4 YMatrix Host ext

指标名	描述	单位	级别	参考报警阈值
主机五分钟负载	展示选中所有主机五分钟内负载	short
主机内存百分率	展示选中所有主机内存使用百分率	0-1
CPU 繁忙百分比	展示 CPU 繁忙百分比	0-1
磁盘 I/O 使用率	展示磁盘 I/O 利用率	0-1
剩余空间利用率	展示所选主机剩余空间利用率	0-1
发送网络流量	展示所选主机发送网络流量	bit
接收网络流量	展示所选主机接收网络流量	bit
SWAP 使用量	展示所选主机 SWAP 使用量	0-1

指标名	描述	单位	级别	参考报警阈值
net dev	网络设备状态	short
softnet_stat	展示选中所有主机内存使用百分率	short
hardirq_cpu	CPU 硬件中断次数	short
hardirq_cpu_pie	CPU 硬件中断次数饼图	short
hardirq_quene	各个设备硬终端次数	short
hardirq_quene_pie	各个设备硬终端次数饼图	short
softirq_rx	数据接收软件中断次数	short
softirq_rx_pie	数据接收软件中断次数饼图	short
softirq_tx	数据传输软件中断次数	short
softirq_tx_pie	数据传输软件中断次数饼图	short
ip	IP 网络层协议的收发包的情况	short
udp	UDP 网络协议的收发包的情况	short

5 YMatrix Database ext

指标名	描述	单位	级别	参考报警阈值
license 过期时间	LICENSE 过期剩余时间	seconds（s）	p3/p2	剩余时间小于 15 天，需要告警 p3 剩余时间小于 7 天，需要告警 p2，需及时联系 YMatrix 更换 LICENSE
缺少分区策略 range 表	Range 分区表缺少配置 APM 分区策略	short	p2	需要及时处理，否则数据会写入默认分区，影响性能
Range 分区表创建数	Range 分区表新建分区表延迟数	short	p2	需要及时处理，否则数据会写入默认分区，影响性能
mars 表最大 runs	MARS2 内部指标	short	p3/p2	超过 1500 告警 p3，需要关注是否还在涨超过 1800 告警 p2 该值达到 2039 后会导致写入缓慢，甚至不可写入
最大 block_items 值	mxgate 写入瞬时批次数	short
YMatrix 总进程数	所选主机对应 postgres 相关进程总数	short	p2	防止进程数过多，否则会导致内存不够用，按需配置
重复索引数	重复索引数，不需要的索引可以考虑删除	short	p3
matrixgate 连接数	mxgate 进程的连接总数	short
24 小时数据总量变化值	最近 24 小时数据变化总量	bytes
Top10 子分区数	子分区数排名前十的表，按需配置，避免子表数过多，会对查询性能有一定影响，会占用更多内存	bytes
Top10 模式大小	按模式总大小排名 Top 10	bytes
Top10 系统表大小	按系统表总大小排名 Top 10	bytes
Top10 默认分区表大小	按默认分表大小排名 Top 10	bytes	p3	默认分区过大，需要告警，正常情况默认分区不应该存在数据

指标名	描述	单位	级别	参考报警阈值
mars2 表最大 runs 详情	MARS2 表 runs 趋势图	short
数据库连接详情	按数据库，客户端地址，application_name 分组	short
24 小时数据库空间变化	各个数据库 24 小时数据库大小变化	short
查询总耗时查询	各个阶段数据库查询总耗时	millsseconds（ms）	p3	按需配置，总时间突变较大时需要关注
主机 YMatrix 进程趋势图	各个主机 postgres 进程总数趋势图	short

指标名	描述	单位	级别	参考报警阈值
表膨胀详情	列出表死亡元组数/存活元组数 > 1.1 的表	short
Top 100 进程 RSS 详情	按 RSS 排序，列出 postgres 进程占用内存 top 100	short
慢查询监控	统计数据库中执行过的慢 SQL	none	p3
总耗时查询监控	统计 SQL 执行总耗时	millseconds（ms）
耗时统计图（秒）	统计每五分钟内执行 SQL 总耗时	millseconds（ms）
长事物指标	统计 Master/Segment 中长事物详情	none	p3
锁等待信息	列出收据信息时刻，数据库锁等待详情	none	p3	按需求配置，可以配置锁超过10min以上的可以告警

Grafana 监控指标解读

产品

社区版试用企业版咨询

资料

文档中心产品白皮书案例合集

公司

关于我们加入我们博客

联系我们

info@ymatrix.cn 400-800-0824 工作日 09:30 - 18:00

关注官方公众号

北京四维纵横数据技术有限公司京ICP备2021000424号