能力介绍

在 YMatrix 6.0.0 版本中该功能仅作为实验性功能

为满足不同客户和业务场景的需求,YMatrix 6.X 将支持灾难恢复(Disaster Recovery,DR)能力,为客户解决业务数据高可用需求。


概述

DR 集群即 Disaster Recovery,此功能用于建立灾难恢复的集群,以确保在发生灾难时保持业务连续性。

  • DR 集群通常是一个独立于主要生产环境的辅助环境,用于存储备份数据、运行备份系统和提供灾难恢复服务。

  • DR 集群的主要目标是通过实时备份主集群的全量数据和配置信息,以便在发生灾难或故障时能够快速、可靠地恢复业务。一旦主要系统发生故障,DR 集群会接管服务,使业务能够在较短的时间内恢复正常运行,同时尽量避免数据丢失和缩短业务中断的时间。

  • DR 集群主要实现功能如下

功能 描述
数据备份和复制 主集群的数据会定期或实时备份到 DR 集群中,以确保数据的安全性和完整性。备份数据可以通过数据复制、离线备份、快照、增量备份和冗余阵列的方式进行传输和存储。
灾难恢复 DR 集群需要制定详细的灾难恢复计划,包括灾难发生时的应急响应、数据恢复过程、系统启动顺序、网络重连等步骤。这有助于确保在灾难发生时能够快速且有组织地进行恢复操作。
冗余和高可用 DR 集群通常采用冗余和高可用性的设计,包括多个备份服务器、存储设备和网络连接,以确保在主集群故障时能够无缝切换到备份系统,并提供可靠的服务。
监控和测试 DR 集群需要进行定期的监控和测试,以确保备份数据的完整性、备份系统的可用性以及恢复过程的可行性。这有助于及时发现和解决潜在的问题,并提高 DR 集群的可靠性和可用性。
  • DR 集群主要限制如下:
限制 描述
综合项目 除 YMatrix 软件功能外,还涵盖基础设施、安全规范、网络设备、投入成本、使用成本、DR 目标(RTO、RPO)诸多因素,需要规范通用技术指标,同时各方有良好的配合。

基础架构

YMatrix 中 DR 集群通过一些内部进程连接形成完整的同城/异地灾难恢复框架(或者称为流程)。

  • 同城/异地 DR 集群架构图如下:

DR_Architecture

YMatrix 提供两地三中心的灾难恢复集群部署方案。

我们为主要生产环境中心 A 构建两处独立的辅助环境,同城备用中心 B 和异地备用中心 C,每个辅助环境都储备着完整的冗余数据。

  • 同城备用中心 B 由于距离近,可以考虑采用运营商政企专线与生产环境中心 A 直连(此处数据传输方式仅为示意,实际运用中直连/通过暂存介质/通过对象存储三种方式可以按需选择其一),以保证较快的数据备份速度。但直连存在一定的限制,即如果中心 B 出现故障,则冗余数据则会积压在 A 集群中,影响性能,甚至阻塞源集群事务,导致源集群无法工作。

  • 异地备用中心 C 由于距离较远,通过暂存介质来传输冗余数据则可能为较优选择。暂存介质通常部署在中心 A 或 C 或两个中心的中间地,使用 FTP 文件存储系统/ Kafka 消息流系统等暂存数据。这种方案可以保证 C 中心出现问题时,A 中心不会因数据传输受阻而性能降低或受到更大影响。

  • 每个 DR 集群相关的内部进程其自身都是高可用的。

  • 两个灾备集群 B、C 均只能读数据,不能写数据。如果 A 集群不可用,则需人工介入,据需选择 B 或 C 作为新的主集群。