0f78a590492137981369dcc46d521317.gif

当数字经济成为生活的主体,金融平台的改变是最为明显的。以往现金业务为主时,交易流程与频次都会相对更低,而如今数字化推动了交易模式和交易频率的升级,这也意味着金融平台所面临的场景及需求发生了变化。当数字的律动变得更加频繁,当用户的需求变得更加复杂,当平台的发展有了新的路径,数字化程度和数据处理能力都会成为评价金融平台的核心标准所在。

当金融行业的发展与数据被绑在了一起,数据相关技术的升级就变得格外重要。而在这种环境里,湖仓一体的技术理念提出便为金融机构提供新的发展契机。湖仓一体技术的价值颇高,其不仅能够为用户降低全量数据单一存储成本,存算分离后在可扩展性与敏捷性方面有了良好提升,并在工作负载支持和数据治理方面表现更佳。因此,对于一家优秀的金融机构而言,紧跟湖仓一体的发展大潮,找到合适的实现路径,将会更有利于实现数字时代的创新与发展。

69f580656f1e2363ffe1ad136ebd2f07.png

非结构化数据的增加,让数仓走到了十字路口

最近几年,企业的数字化转型已经成为一种大潮,而金融行业便常常立于潮头。数字化转型意味着数据的价值提升,也带来了数据分析应用场景的极大丰富,数据平台应用越发多样化,企业对于数据处理的需求也在逐步升温。

金融是数据仓库最早期落地的产业之一,传统意义上数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。在早期金融产业以结构化数据和已处理的数据类型为主,数据仓库的写入机制和预处理功能在商业分析等场景表现更佳,能够充分发挥其价值,单集群支持并发在几百节点级别。

在数据量低的时候数据仓库或许不会出现问题,但是金融平台的发展向来是走在时代前沿的。由于数据采集和流程多样化出现,数据仓库不支持非结构化数据的问题,使得其不能整合所有企业数据;由于数字化发展进程加快,金融数据挖掘需求不断增加,高并发情况下越来越多的企业需要把业务分割到独立集群中,孤岛化问题逐渐出现;由于数据仓库严格的建模要求,用户开发新的数据分析应用时从数据源到数据仓库之间的路径较长;更为麻烦的是,非结构化数据发展日渐增加,这就让数据仓库走到了十字路口。

与数据仓库相比,2010年左右出现的数据湖在金融产业就有了更好的应用,基于传统Hadoop平台搭建的数据湖可以同时满足存储各类数据源的原始结构化和非结构化数据。更为关键的是,数据湖还能给分析人员提供一个敏捷分析的平台,待某些分析比较成熟时,再把分析挪到数据仓库里面去。这种数据湖+数据仓库的模式,一时间风靡了各大金融机构。

6e1c190e160306ddf91bafb02fd0b017.png

数据湖+数仓背后的大问题

可是这种模式下问题真的不存在了吗?面对银行里的实时查询需求,这种模式很大程度上会表现出无能为力。而且随着数据平台的云化需求出现,资源的弹性使用及成本控制开始成为金融平台的一个考核要点;存储也会随之增加弹性需求,如何将云平台的闲置资源利用起来,提升响应速度,这些都对企业提出了很多要求。

更为重要的是,金融产业的发展需求是多样性的,而数据无疑是其中的一大核心。以银行为例,经过多年的发展,他们积累了海量的结构化数据,这些数据是银行极为重要的数据资产。大数据技术作为最大化利用数据价值的方式,也在成为银行的核心竞争力所在。随着 “信息化”、“数字化”不断演进发展,海量数据也在不断地诞生,半结构化与非结构化数据的占比也在不断增加。

以往,大多数银行对业务数据的加工以关系型数据库为主,其能够满足真实场景中的生产需求。但随着数据量的持续扩张,单集群发展达到瓶颈后,扩展能力、稳定性方面的问题凸显,导致用户体验不高、无法满足应用快速创新的需求。基于Hadoop的大数据存储技术在扩展能力和稳定性方面具有明显优势,但是在业务数据的事务一致性技术处理方面存在不足,无法大规模推广,金融机构所用的Hadoop大数据平台在处理数据库事务时存在不足,并且并发能力有限。

b6a9d6e7a31c76d53d069c882a0d39e0.png

东方欲晓,前路渐明

由于金融产业的特殊性,其对于软件的自主可控和安全性有着很高的要求;面对海量数据持续增长带来的大数据高性能存储查询技术需求,AI模型训练和联合建模等复杂场景的核心技术也成为下一阶段发展的关键;在“新金融”生态多场景下,平台数据的分享与融合是核心,数据共享和跨领域合作对大数据技术形成基础需求;面对金融行业的大量数据,其核心技术要求能从数据中提取有价值的信息;基于Hadoop原生技术的数据库事务处理,也涉及了计算机原理、数据算法、Hadoop技术底层架构等多项技术的研究和创新。

金融行业的特殊性推动着对应的数据技术不断升级。多样化的需求使得单一的数据仓库、数据湖或者二者的单纯叠加都很难满足行业发展,因此湖仓一体化的理念便开始发酵呈现。湖仓一体绝非简单的将数据仓库与数据湖融合在一起,而是在满足场景和业务的需求的同时,让企业能够充分发挥数据价值,满足创新需求,提升数据挖掘效率。

针对以上需求,湖仓一体技术在金融产业的落地,其能够带来的价值主要包括了以下几个方面。首先,湖仓架构能够帮助金融机构实现全量数据流处理和实时按需查询,满足事前数据预测、事中的判断和事后的分析;其次通过高性能的数据引擎能够支持上万用户同时并发访问同一份数据;再者,湖仓一体能够通过存算分离及可插拔存储为金融企业提供良好的可扩展性和敏捷性;通过支持完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性;所有用户均可以共享同一份数据,避免形成数据孤岛,易于实现数据治理和数据质量保证;此外,多样化的工作负载如批流一体等均可支持实现;提供全局的数据库读写事务机制,支持分布式锁,支持并发读写能力并支持多云、混合云及跨云场景。

b84c9358dde63af7235cc833db4506b2.png

从概念到落地,偶数湖仓一体实践

在过去,湖仓各自一体,其带来的价值有很多,比如所有原始数据往往直接汇集存储到几千节点超大集群;保持了原有简单数据格式与结构,但缺乏数据治理及高性能以及统一的数据模型;数据湖中海量数据基于普通存储硬件可以永远不删除,支持分析场景在成熟时从数据湖到数据仓库的迁移。

在这种传统的架构之下,问题十分明显。尤其是金融场景中,不同的技术接入后带来了架构的复杂性,多种需求使得技术栈较多。二者因素的并存,使得整体架构的运维量增大。如果保持这些问题的存在,这对于金融平台而言将会把架构拖到越来越大,问题越来越多,最终尾大不掉。而偶数科技所推出的湖仓一体解决方案,基于新一代大数据和AI平台以及云数据库OushuDB等产品,其能够为用户提供极速性能、弹性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力。

ca5f7d0c67ae905c83debac10ac44117.png

偶数科技的湖仓一体方案采用了Omega全实时数据处理架构,其能够为用户提供批流一体处理能力,基于目前全球最快的新一代分析型数据库引擎OushuDB,可以实现PB级大数据交互式查询;将计算与存储分离,让计算集群之间数据可以方便共享;弹性扩展架构,可以扩张到上千节点;其支持Hadoop生态,用户可以快速实现扩展;数据管理平台Lava可以实现统一数据资产管理、统一数据标准、统一数据服务、统一机器学习及深度学习建模平台……这些技术特点使得金融平台能够更加快速便捷的接入湖仓一体解决方案。

以某大型国有银行为例,偶数科技与其合作共同打造了湖仓一体架构。计算和存储分离增加了系统的弹性,使得高峰期可以增加计算资源,低谷期可以减少资源。在非云化的环境下,这种操作难度很大,现在借助云计算,使存储计算分离技术快速落地;架构增加了系统健壮性,计算节点可以被认为是无状态的,当计算集群出现故障时,能够快速恢复;系统扩展变得更加方便,扩计算资源和扩存储资源可以分开进行,节约成本。

当数字化转型发展进入新阶段,金融行业无疑会是其中的关键一环。基于湖仓一体的发展趋势,用更加敏捷、原生的服务帮助企业,让数据发挥其价值,让金融更好的服务于世界。

来源:CSDN