经过六个 beta 版本的迭代, YMatrix 5.0.0 GA 版本正式发布。
5.0 版本是 YMatrix 超融合数据库的一次重大版本迭代,在性能、功能、易用性及稳定性方面均实现了重大提升。GA 版本的正式发布,标志着所有新特性在经过严格的测试验证后,已达到生产级可用状态。
首先,我们与大家一起简要回顾一下 YMatrix 5.0 带来的全新特性:
YMatrix 5.0 全景一览:
-
全新数据库架构:实现主节点故障自动转移,引入面向服务的架构,更健壮的集群,更便利的运维;
-
新增向量化执行引擎:全链路向量化,支持多种算子,支持批处理,驱动查询性能实现 1 到 2 个数量级的提升;
-
MARS2 存储引擎:性能持续优化, 更低的开销、更精准的执行计划;
-
写入套件 MatrixGate :性能及功能持续提升;
-
新增编码链压缩算法:支持多种算法,并支持自适应编码,帮助用户灵活打造最高超 10:1 的存储压缩比;
-
新增平滑扩容:业务不停机,图形化 UI 操作,使数据库扩容不再是意外不断的闯关之旅;
-
功能不断丰富、体验更加简便的图形化界面 MXUI,尝试塑造不一样的数据库操作体验;
-
持续增强工具支撑:迁移工具 mxshift 功能增强,开源测试工具 mxbench,新增多项集群运维工具。
(详细的特性发布说明可参见:YMatrix 5.0.0 GA 版本发布公告)
YMatrix 5.0: 为物联网时代的大数据分析而生
物联网时代,最显著的特征是机器开始自主产生数据。而加入时间维度的时序数据集,将是机器产生的主要数据类型。时序数据具有规模总量大、并发高、结构多变、实时性高等特性,这些都为大数据技术栈带来了新的挑战。 我们相信,以时序数据为切入点,面向物联网时代的大数据分析,需要构建新一代的技术架构、产品形态及用户体验。
这也是 YMatrix 一直探索的方向。历经迭代,在 YMatrix 5.0 上,我们认为最核心的三个基本点已得以落地实现:
第一、极其简洁的架构。
复杂度是一种高度隐性的成本,影响深远。
一个复杂的技术栈中如果由 N 个组件构成,假设每一个组件出现故障的概率为 P,那么系统整体的稳定性可以近似看成是(1-P)^N,即每多一个组件,系统稳定性都会大打折扣。同时考虑每个组件所产生的性能开销及运维成本,那么系统多一分复杂,在稳定性和成本经济性上,就多一分衰减。
如无必要,勿增实体。YMatrix 为降低数据生态的复杂性,设计了具有超融合基因的简洁架构,将计算、存储和网络资源整合在一个统一系统中。其基于大规模并行处理(MPP)系统构建,符合微内核架构特点,可灵活、融合适应多个场景,不仅对于物联网时序场景友好,也支持传统分析型数据仓库环境及商业智能(BI)工作。
第二、以完善功能使时序与分析不再割裂。
无论多大规模的数据,存下来不是终点,被高效地分析利用才是根本目标。
起初,时序数据的规模以极快的速度增长,彼时发展的重心在于如何应对规模挑战,如何更快更省的存。因此,基于非关系型数据模型构建的专用时序库率先发展起来,如 influxDB、OpenTSDB 等。
但到了今天,针对时序数据的复杂分析、整合其他类型数据的综合分析、甚至基于机器学习的建模分析需求愈发显著。专用时序数据库自身难以提供完善的功能与性能保障,更多的依赖在旁路搭建一套专门的数据分析技术栈以满足需求。时序和分析被分割成两条链路,这无疑推高了系统复杂度,以及应用开发人员的技术门槛。
长期看来,我们认为将所有类型数据保存在一个系统中并统一进行分析运算,必定会大大减少应用程序的开发时间、成本,并加快分析决策速度。
基于此,YMatrix 从最开始就选择了关系型数据模型的技术路线,并通过超融合的架构设计,实现时序、OLAP 及 OLTP 的 all in one。 目前,YMatrix 在国内率先以一套数据库系统,通过信通院“时序数据库”和“分析型数据库”的全部功能项认证。这充分证明了 YMatrix 功能的丰富性,而更重要的是,这也印证了 “时序与分析”不再割裂的理念得以落地实现。
第三、极致的性能打磨,是一切的坚实保障。
性能保障是数据库系统一切特性的基石。
在 5.0 发布时,我们提出了六项关键性能指标,包括:写入能力、时序查询能力、单表 OLAP 分析、多表关联 OLAP 分析、Machine Learning 性能以及 OLTP 能力。
YMatrix 5.0 在这些方面均取得了的性能突破,实现了六项全能:
-
在真实生产场景下的写入速度可达 1.52 亿数据点/秒;
-
对比时序数据库独角兽 TimescaleDB,查询耗时是 YMatrix 的 5.1 倍;
-
对比知名 OLAP 数据库产品 Clickhouse,YMatrix 在 SSB 基础测试上快 27% (新的 GA 版本将再次刷新,敬请期待最新的测试数据公布);
-
对比 MPP 数据库主流厂商 Greenplum,YMatrix 在多表关联分析场景上实现了 10 倍的性能提升;
-
对比全球流行的开源大数据平台 Spark,YMatrix 在机器学习场景上的性能是其 8 倍;
-
在 Intel 实验室的TPC-B 国际标准测试中,YMatrix主键查询 TPS 高达160万,数十倍于绝大多数产品。
深耕场景的无限游戏
物联网将虚拟的数字世界与广阔的实体世界融为一体,数据的应用与消费场景无限延展,需求更加多元、丰富且深入。
YMatrix 致力于以简洁的技术架构、便捷的使用体验帮助用户掌握物联网时代的数据价值。 面向未来,YMatrix 将持续深耕物联网大数据分析,深入场景细节,围绕全类型数据融通和全场景综合分析,不断优化性能,扩展功能,提升易用性。
我们坚信,YMatrix 的未来将是一场深耕场景的无限游戏。