运行状态监控

注意!
灾难恢复能力在 YMatrix 6.0.0 版本中仅作为实验性功能

本节将介绍如何使用图形界面或命令行工具监控灾难恢复功能的运行状态。

图形界面

  1. 登录 UI 并打开集群管理页面。若当前集群未配置备份集群,页面将显示如下内容:

    dr_monitor_1

  2. 若当前集群已经配置备份集群,灾备架构中存在主集群备份集群两种角色:

    a. 主集群
    在主集群页面,系统会展示集群角色、同步模式和同步状态三个重要信息。

    dr_monitor_2

    • 同步模式

      • 同步模式包括同步异步未识别三种状态。
      • 模式状态由数据库配置中的 synchronous_standby_names 参数确定,其中 * 表示同步状态,空字符表示异步状态,其他值则视为未识别状态。
    • 同步状态

      • 同步状态包括已同步同步中故障三种情况。
      • 同步状态是根据主集群中的同步复制流状态进行统计的:
        • 已同步:所有同步复制流的状态均已完成同步;
        • 同步中:存在活跃同步复制流且未完全完成同步;
        • 故障:存在非活跃同步复制流。

    b. 备份集群

    dr_monitor_3

主集群

  1. 将鼠标放置到灾备信息栏上,会显示查看详情按钮。

    dr_monitor_4

  2. 点击查看详情按钮进入到同步复制流列表页。

  • 列表页中每一行数据代表一条同步复制流。

    • 状态:展示同步复制流的当前状态,包括已断开同步中已同步
    • contentid:对应同步复制流的 shard ID
    • sync_error:展示同步复制流的错误信息。
    • 更新时间:显示该条同步复制流的更新时间。
    • 操作:包括详情操作。
  • 可通过搜索框对 contentidsync_error 进行模糊搜索。

    dr_monitor_5

  1. 点击每行的详情按钮,可查看该同步复制流的信息,包括基本信息、Slot 信息和 Replication 信息。
  • 基本信息:同步复制流对应的segment的基础信息。

  • Slot 信息:对应 pg_catalog.gp_replication_slots 表中的字段,展示与物理复制 Slot 相关的字段信息。

  • Replication 信息:对应 pg_catalog.gp_stat_replication 表中的字段信息。

    dr_monitor_6

备份集群

  1. 将鼠标放置到灾备信息栏上,会显示查看详情按钮。

    dr_monitor_7

  2. 点击查看详情进入备份集群 WAL 接收流列表页。

  • 列表页中每一行数据代表一条 WAL 接收流。

    • 状态:显示 WAL 接收流的进程状态。
    • contentid:表示该 WAL 接收流对应的 shard ID
    • received_lsn:当前接收到的 WAL 日志流的进度,表示最新接收的日志位置。
    • received_tli:上次接收到的 WAL 日志所属的时间线版本号。
    • last_msg_receipt_time:接收时间。
    • 操作:详情操作。
  • 可通过搜索框对 contentidreceived_lsnreceived_tlilast_msg_receipt_time 进行模糊搜索。

    dr_monitor_8

  1. 点击每行的详情操作按钮,可查看该条 WAL 接收流的详细信息。
  • 基本信息:显示 WAL 接收流对应的 segment 的基础信息;

  • gp_stat_wal_receiver 信息:对应 pg_catalog.gp_stat_wal_receiver 表中的字段信息。

    dr_monitor_9

命令行工具

以下内容简单介绍如何使用 SQL 查询对灾难恢复功能状态进行检查。

主集群

  1. system catalog
  1. 灾难恢复功能使用的 replication slot 的名称:internal_disaster_recovery_rep_slot

  2. 查询灾难恢复功能使用的 replication slot 的信息

    注:须在主集群中具备对应权限的用户(如 mxadmin)进行查询。

     SELECT *
     FROM pg_catalog.gp_replication_slots
     WHERE slot_name = 'internal_disaster_recovery_rep_slot'
     ORDER BY gp_segment_id
  3. 查询灾难恢复功能 replication 状态

    注:须在主集群中具备对应权限的用户(如 mxadmin)进行查询。

     SELECT *
     FROM
         pg_catalog.gp_replication_slots s
     LEFT JOIN
         pg_catalog.gp_stat_replication r
     ON
         s.gp_segment_id = r.gp_segment_id AND s.active_pid = r.pid
     WHERE s.slot_name = 'internal_disaster_recovery_rep_slot'
     ORDER BY s.gp_segment_id

备份集群

  1. system catalog
  1. 灾难恢复功能使用的 replication slot 的名称:internal_disaster_recovery_rep_slot

  2. 查询灾难恢复功能 walreceiver 状态

    注:须在主集群中具备对应权限的用户(如 mxadmin)进行查询。

     SELECT *
     FROM pg_catalog.gp_stat_wal_receiver
     WHERE slot_name = 'internal_disaster_recovery_rep_slot'
     ORDER BY gp_segment_id