MPP和Hadoop正在被抛弃？聊聊银行业数据分析的趋势

数据分析给银行业带来了巨大的收益，也正面临前所未有的挑战。

首先是历史累积数据量越来越大，随着时间推移数据类型和数据量都在累加，渐渐从涓涓细流汇聚成数据湖泊。

其次是新兴业务数据量增长迅速，随着数字人民币等新兴业务的推广，在线业务的发展，交易数量加速，导致从数据湖泊进一步长成数据海洋。

第三是数据分析实时性更高，银行的风控要求越来越严格，几乎每一笔交易都要实时分析，并且分析结果要求准确度高。

第四是随着信创的推进，数据分析的软硬件也要求兼容信创软硬件。在这样的挑战下，银行业数据分析解决方案的发展趋势是什么，如何选择才能满足业务的要求，本文将进行分析和探讨。

银行业数据分析面临的机遇与挑战

银行是一个数据密集型行业，也是一个数据驱动的行业。随着金融业务的在线化，银行业对数据分析的能力越来越倚重。数据分析在的客户体验、行为分析、精准营销、个性化推荐、实时风控、实时反欺诈、运营管理、业务创新等方面可以提升银行业竞争力。

进入新世纪以来，银行业业务发展迅速。从最早的存款信贷到移动支付、消费信贷、外汇买卖、理财、基金、证券、在线缴费。从物理网点扩展到电话银行、网上银行、手机银行。客户也进行了细分，包括个人客户、家庭客户、高净值客户、企业客户、集团客户等。

在业务发展的过程中，业务系统的建设是逐项目进行的。不同时期的项目采用不同的技术架构，必然决定了银行的数据类型多、数据量大、业务系统数据难以全量分析。比如仅仅从数据类型看，银行的数据类型往往包含关系型数据库Oracle、IBM DB2、SQL Server、MySQL、PostgreSQL、MariaDB等；非关系型数据库MongoDB、Redis、Couchbase、Memcached等；图数据库Neo4等；还有大数据集群Hadoop、MapReduce、elasticsearch、Spark等产生的数据。

银行一般非常重视数据分析能力的建设，但随着近些年来业务不断的扩充，现有的数据分析解决方案存在以下挑战。

难以进行全局全量统一数据分析。数据分析能力往往是随着业务系统一起建设的，或者为特定的一个或者多个业务建设的，造成了数据分析集群彼此的割裂，数据没有打通。有的银行虽然有将数据统一存储分析的计划，但由于数据量巨大，传统的单一数据分析集群往往难以支撑存储计算海量的数据。

扩容周期长、在线扩容难、容量有上限。目前银行的数据分析集群扩容往往需要采购软硬件，众所周知银行的采购周期往往比较长，造成了数据分析集群扩容周期长。并且有些数据解决方案的集群，不支持在线扩容或者在线扩容的时候集群会降级，造成扩容的时候影响业务。现有的数据分析集群往往是计算存储一体的，存在集群的容量上限，往往规模达到几百个节点时将难以扩容。

性能跟不上业务需求、运维复杂度高。现有的数据分析集群随着数据量增加，计算时间会越来越长，难以满足业务实时性的要求。并且集群搭建维护复杂、需要专业的知识和丰富的经验才能运维。

在银行现有数据分析方案碰到越来越复杂的业务挑战下，应该如何寻找新的解决方案，我们来看看银行业数据分析的过去、现在和未来。

银行业数据分析的过去、现在和未来

银行业强监管的特性决定了银行的数据分析必须是软硬件本地部署。银行的数据分析解决方案可以分为四代。

第一代是以关系数据库为主的数据库阶段，业务场景为面向管理层的宏观经营决策，固定报表等。使用软硬件一体化的架构，使用事先预置的硬件，扩展能力和容量有限。只能通过升级更换更高性能的硬件设备进行扩容。而高度耦合的存储和计算缺乏弹性，设备只能根据最高需求配置，大部分状态资源闲置。仅支持结构化数据的处理，支持SQL标准、ACID特性，难以应对半结构、非结构化数据的处理需求。

第二代是以MPP数据库为主的大规模并行处理的数据仓库阶段，业务场景为面向一线业务人员的业务决策，固定报表等。无共享存储架构，采用统一的x86硬件服务，可以扩展到数百个节点。仅支持结构化数据的处理，支持SQL标准、ACID特性，难以应对半结构、非结构化数据的处理需求。

第三代基于开源软件框架（Hadoop、Hive、Spark）的数据湖阶段，业务场景上可以满足多数据类型、多数据维度的大数据分析业务需求，支持自助式分析。SQL标准支持弱、ACID特性支持差，难以支持MPP数仓的平滑迁移。

第四代将计算存储分离的湖仓一体阶段，业务场景上支持跨部门、跨业务线、跨分支机构、跨组织、跨地域的数据共享与联动分析。可以实现精细化的资源管理，可以做到全量化的数据分析，实现更高的访问并发与更低的延迟。支持SQL标准、完整支持ACID特性，可以支持传统共享存储数据仓库和MPP数仓的平滑迁移。

笔者认为，银行使用湖仓一体数据分析解决方案是必然的方向。首先从业务上看，银行业迫切需要进行全量数据实时分析的能力，第三代的数据湖解决方案已经捉襟见肘，在数据容量、实时性和全量数据分析等方面难以满足的越来越多的业务需求场景。

第二是湖仓一体数据分析解决方案明显的技术优势，容量没有上限，计算分析速度更快，和各种资源可以很好的适配，扩容运维都方便很多，可以让银行IT人员更专注在业务上。

在湖仓一体解决方案中，国外的典型代表是snowflake，国内的典型代表是偶数科技。Snowflake产品使用计算和存储分离的先进理念，获得了用户和资本市场的认可，目前市值已经超过了800亿美金。偶数科技产品也基于计算和存储分离的理念，且更适合国内用户场景。偶数科技产品已经在包括国有大行、地方性银行等多家银行落地，并且和多家信创软硬件完成了兼容性认证，是理想的银行业数据分析产品。

偶数科技由Apache HAWQ数据库顶级项目创始人和团队在2016年创立，研发团队多数曾供职于EMC、Oracle、IBM、Teradata、Amazon等大数据和人工智能公司。是中国唯一把自主研发的高性能数据库产品出售到美国市场的软件公司，全球拥有数百家企业用户。获得红杉、红点、腾讯、金山等四轮投资，获美国三大商业杂志Fast Company《中国最佳创新公司50》和创新设计奖，并入选福布斯中国科技50强。

我们一起来看看偶数科技的湖仓一体数据分析方案客户案例和技术优势。

偶数湖仓一体数据分析方案解析

产品好不好用户最有说服力，我们先来看看偶数科技湖仓一体数据分析方案在某国有大行的落地案例。

该国有大行之前数据分析解决方案面临的挑战如下。

数据量及规模大，数据难以共享：该行为存储和分析40-60PB的银行交易数据建立了40个Greenplum集群，共计3000多节点，因为Greenplum单一集群节点上限在120节点左右，所以不得不将数据分散并重复存储在40个Greenplum集群中，且各集群之间数据不能共享，导致实际存储的数据达到几十PB，造成极大的生产运维管理负担，并且无法满足未来数据增长需求。

大数据分析需求难以满足： 在该行运行中的大型分析系统有数百个，其中在SOR等众多业务分析领域需要对行方过往至少一年的数据进行大数据跑批分析，但是Teradata集群和Greenplum集群的大数据分析性能仅能支撑行方处理过往大约六个月的数据，这严重影响银行领导的决策分析以及各分行业务部门每日运营工作的安排部署

应用系统迁移难：该行在传统数仓上开发多年的基于标准SQL的几百个大型分析应用系统的代码量极其巨大，迁移到 Hive 和 Spark 上改写成本和风险高。

该国有大行在采用了偶数科技解决方案后，很好的解决了以上难点，偶数科技的解决方案如下。

首先基于 OushuDB 建立湖仓一体平台，数据存储容量得到保证。 OushuDB采用存储与计算分离架构，在保证上千节点级别的高扩展性下，实现计算和存储资源自由调度，支持秒级在线动态扩容，并支持数据三副本增强数据安全性和一致性。

其实数据分析时效性得到保证。OushuDB 国际领先的大数据分析性能优化技术，在多表Join的复杂跑批查询方面有SIMD执行器和高性能优化器算法支撑，国际标准TPCH测试比Greenplum快5-10倍，可实现PB级数据秒级交互式查询。

第三解决了数据迁移难题。OushuDB 完善的遵从ANSI SQL标准、OLAP扩展函数，并支持存储过程，行方大数据分析应用系统迁移到 OushuDB 几乎无需改动，迁移成本很小。将行方基于传统Greenplum分析型数据库的应用系统迁移到基于OushuDB 分析型数据库大型集群之上，迁移时间短，迁移风险小。

第四实现了全量分析。实现其传统分析型数据库Greenplum、Teradata单一集群所无法处理的十PB级海量数据基于 OushuDB 分布式分析型数据库，可以支撑分析行内的全量数据，并且以多租户模式实现各消费系统间的数据隔离，从而为领导决策分析和业务部门运营提供强有力的工具保障。

能够获得该国有大行的认可，最重要的原因是偶数科技的技术优势，我们在来看看偶数湖仓一体化解决方案的技术优势。

性能快：OushuDB是新一代分析型数据库引擎，可以实现PB级大数据交互式查询，性能比传统数据仓库快5-10倍，比其他SQL on Hadoop引擎快30+倍，领先的性能优化技术，采用了基于SIMD的全新执行器，动态流水线架构，基于SIMD的压缩解压算法

功能完善，构建快：遵循ANSI SQL-92, SQL-99, SQL-2003标准, 以及OLAP扩展，支持事务ACID支持多租户、支持标准JDBC, ODBC连接，支持存储过程 (PL/pgSQL, PL/python et al)，支持混合工作负载

云原生，资源弹性：计算与存储分离，计算集群之间数据可以方便共享，弹性扩展架构，可以扩张到上千节点，多级资源管理，支持全局-用户-操作符多级别资源管理，对PaaS/CaaS云平台原生支持。

开放式架构，支持Hadoop生态：无缝访问与Apache Hadoop兼容的各大发行版本的数据，支持对象存储及HDFS存储，支持访问Hive系统数据，支持Tableau、Zeppelin、Kettle等Hadoop生态组件，支持新一代可插拔存储框架，用户可以自己快速扩展新的外部数据源，支持ORC等行列混存存储格式，外部存储性能较行式存储提升10-50倍。

笔者认为从以上介绍可以看出，偶数科技的湖仓一体化解决方案是银行理想的解决方案，可以满足银行业对数据分析未来的需求，原因如下。

首先是技术先进性，偶数科技湖仓一体化解决方案扩容简单，可进行全量数据分析。支持的场景的所有数据类型，迁移成本低。分析速度快，可在秒级给出分析结果。偶数科技湖仓一体化解决方案可满足当前及未来银行业数据分析的需求，是银行业数据分析的利器，使用偶数科技湖仓一体化解决方案可以增强银行的竞争力。

第二是偶数科技湖仓一体化解决方案成熟稳定，获得了客户的认可，不光有国有大银行，还包括一些行业及区域性银行都已经使用了偶数科技湖仓一体化解决方案。说明了偶数科技湖仓一体化解决方案能够适应不同场景，经得起实践的建议。

另外，建设银行旗下的建信金融科技和偶数科技联合成立了高性能大数据处理技术实验室，专门研究高性能湖仓一体解决方案在银行的落地。

这里额外补充下，偶数科技不光在银行业获得认可，也获得了国家电网、南方电网、海尔、志高空调等工业能源行业的客户认可，获得了公安部、湖北省公安厅、中国移动、中国联通等公安电信客户的认可。

第三是偶数科技湖仓一体化解决方案获得了信创资质，可以满足银行业未来的信创需求。偶数科技是信息技术应用创新工作委员会会员单位，取得统信软件、飞腾、鲲鹏、申威、兆芯、海光等过程软硬件兼容性认证证书，中标了中央国家机关 2021 年数据库软件协议供货采购项目。

总结：湖仓一体化是趋势

偶数科技是典型代表

银行业的发展具有两面性，一方面是业务的驱动，一方面面临强监管。必然要求银行IT从技术上同时满足业务和监管需求，大数据分析就是很好的解决方案，即能帮助业务创新，也能帮助风控部门满足合规和监管。

随着业务发展银行的数据越来越多，在数据的全量存储、实时分析等方面面临巨大挑战。解决方案就是湖仓一体化的数据分析产品，这也是大数据分析的必然方向，偶数科技湖仓一体化数据分析解决方案便是典型代表。偶数科技湖仓一体化数据分析解决方案可以很好的解决银行业的挑战，已经获得了不同规模银行客户的认可，且满足信创兼容性要求，是银行业数据分析很好的选择。相信还会看到偶数科技服务更多的银行，帮助更多银行提升业务竞争力。

来源：云技术

MPP和Hadoop正在被抛弃？聊聊银行业数据分析的趋势

产品

解决方案

文档

社区

培训

关于我们