海鑫科金:通过 YMatrix 实现离线在线平台统一,满足公安数据场景的管理分析需求 

2022-02-18 · 张春利,海鑫科金技术总监 / 罗昌英,海鑫科金业务专家
#解决方案#案例实践

海鑫科金(股票代码:430021)成立于1998年,专注于多生物特征识别、公安信息化综合应用、视频侦查技术和大数据综合应用四大领域,产品在刑侦、安防、司检法、出入境及金融、酒店、社保、教育、交通、大型活动管理、场所监控和互联网应用等社会领域都被广泛应用,是国内外为数不多同时拥有多种生物特征识别、视频图像处理、大数据综合应用等核心技术的企业之一。

随着各种新技术的发展,高技术犯罪呈现日益增长的势头。公安建设依托公安云计算中心、公安应用平台和数据库,结合云计算、物联网等多种先进技术,帮助公安部门在应对各种复杂局面时作出更智慧的决策。

在公安刑侦领域中,数据的采集和使用一直备受重视,数据质量参差不齐、业务场景需求多变是海鑫科金数据管理工作的两个重要特征。

数据质量上,不同的途径汇集了各式各样的数据资源,如业务系统所产生的数据,从其他警种汇聚不同种类的社会资源数据,以及侦查人员通过各种渠道收集的数据。

数据种类繁多,数据质量差,部分数据量较大,数据治理和数据分析的难度非常大,需要对数据进行分级、分类和深度处理,并构建出复杂的数据模型。

业务场景上,我们用户业务的场景多变,底层数据模型需要适应用户需求的变化。同时,用户的需求要对大量的数据进行在线分析,这对模型分析平台的性能有一定的要求。

数据丢失、技术栈复杂对客户服务提出挑战

目前,我们建设有海鑫大数据平台,分为两部分:

第一,离线分析平台,使用Hadoop体系,依赖HDFS、Hive、HBase、Spark等技术栈,主要针对数据量庞大的数据治理以及复杂的数据分析场景。

第二部分,在线分析业务,主要使用Greenplum(或DeepGreen)分布式数据库、ElasticSearch、NebulaGraph 图数据库等技术,用来处理用户实时分析场景。

现存的主要问题有2个:

首先,数据需要在多个平台之间来回同步,经常会出现数据丢失的情形。

其次,平台太多,技术栈广,研发和运维成本都很大。公安行业的系统建设模式复杂,许多省、市的硬件资源由科信部门统一进行采购,分配给刑侦的硬件资源越来越少。

随着公安云的建设,各警种的平台建设都逐渐云化,服务器资源越来越少,想要把离线平台和在线平台分开将会越来越困难。因此,需要离线分析与在线分析平台统一。

YMatrix 部署测试结果

由于公安网内部的数据无法连接到互联网,所以本次的测试在公司内网环境中进行。数据为部分模拟数据,根据业务场景来进行测试。

测试地点:北京海鑫科金高科技股份有限公司总部

硬件环境:

测试场景:案、人、物关联检索 数据情况:

测试结果:

初步测试结论:YMatrix 可以在海鑫大数据平台中进行使用,在数据量较小的地市进行试用。

☑️ 实现离线平台和在线平台的统一:

离线、在线两套平台可以统一迁移到YMatrix Database数据库上,由于该数据库是基于成熟的PostgreSQL和Greenplum开发,具有高度兼容性,因此在线分析功能可以直接进行迁移,开发量相对较少。

基于Hadoop + Spark的离线分析则需要将部分业务功能进行重构,分析功能需要使用PL / Python来进行替代,这部分重构较大,技术可行性还需要进一步验证。

☑️ 减少数据迁移:

离线、在线两套平台统一,减少了数据同步环节;同时MatrixGate组件提供了强大的数据同步能力和监控能力,让数据同步更加简单。

☑️ 数据仓库及数据模型更简单化:

数据仓库主要使用 Hive,存在的最大问题是数据不能进行 update,目前采用分层和 HBase 的 upsert 功能进行实现。但是,由于公安业务的复杂性,分层会非常多,使用 HBase 的 upsert 功能又会造成 HBase 表与 Hive 表同时使用,导致跨库使用不方便。使用 YMatrix 的 upsert 功能后,让数据仓库内的数据模型变得更加简单。

☑️ 在线分析性能提升:

目前看来,YMatrix 比较适合做数仓使用,在性能上比 Greenplum 强约 4 倍,在线分析功能速度更快,带来更好的用户体验。

☑️ 当前可能存在的问题:

YMatrix 可以替代公安领域的大部分场景,但依然存在着1个不足之处:YMatrix 不是公有云通用组件,需要单独部署。我们也期待未来 YMatrix 能提供跨云 DPaaS 服务。