400-801-8971
Languages:
  • CN
  • EN

实时数仓

保障企业实时决策

实时数据处理的三个阶段

第一阶段任务主要通常通过流处理引擎进行处理;

第二、第三阶段任务的按需型智能需要强大的实时数仓支撑;

不同阶段概念参考Gartner行业报告。

传统Lambda实时数据处理架构

Lambda架构 (批流分离)

Batch View = Push_function(Historical Immutable Data)

Real-time View = Push_function (Real-time View, New Immutable Data)

Query = Pull_function(Batch View,Real-time View)

传统的Kappa实时数据处理架构

Kappa架构(批流一体)

Real-time Batch View =Push_function(New Immutable Data, Historical Immutable Data)

融合了历史和当前实时数据计算的结果视图

Query = Pull_function(Real-time Batch View)

新一代Omega全实时数据处理架构

Omega架构

在按需型智能 (On-demand Intelligence) 之后由偶数科技2021年5月提出的新一代全实时数据处理架构。

Omega架构由流数据处理系统和实时数仓构成。融合了Lambda架构和Kappa架构处理流数据的优势,增加了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变更数据实时快照的能力。

Snapshot View =Pull_function(All data)=Pull_function(Immutable Data, Mutable Data)基于全景快照数据计算得出的结果视图

Real-time Batch View =Push_function(New Immutable Data, Historical Immutable Data)

Query = Pull_function(Real-time Batch View, Batch View,Snapshot View)

实时数据处理架构对比

项目LambdaKappaOmega
全实时
不支持
不支持
支持
实时按需智能
不支持
不支持
支持
可更改数据实施快照
不支持
不支持
支持
离线按需职能
计算资源消耗
各自一套,开销较大
只有一套,开销较小
一套,开销可控,计算节点高可用
批处理效率
效率高,吞吐量大
批处理性能弱
效率高,吞吐量大
流处理效率
效率高,吞吐量大
效率高,吞吐量大
效率高,吞吐量大
流处理研发成本
两套,开发成本高
一套代码,维护成本低
一套代码,开发成本低
流处理研发成本
两套,开发成本高
一套代码,维护成本低
一套代码,开发成本低

偶数实时数据处理解决方案

基于云原生技术进行深度优化,采取计算、存储分离的技术架构,充分适应云上数字化应用对高度弹性、无限扩容能力的要求,保证数据服务能力高可用;

具备对各类SQL标准的兼容性,如ANSI SQL-92、SQL-99、SQL-2003等,支持OLAP扩展,支持标准的JDBC/ODBC,并支持基于传统交易型数据库的数字化应用的平滑移植;

面向PB级大数据,具备比MPP、SQL-on-Hadoop数据仓库更快的查询性能,从而明显降低批处理、即席查询所需的时间,保证数据服务能力的高时效;

具备对自动化机器学习技术的支持能力,基于AutoML等技术,为业务人员提供自动化AI建模能力,实现AI模型全生命周期管理,降低AI研发与管理成本;

完整支持ACID特性,可以保证数据在并发更新、查询失败等情况下保持数据的完备性、一致性和准确性,支持基于Oracle、DB2等传统交易型数据库的数字化应用的平滑移植;

偶数科技基于核心产品Oushu Database新一代云原生数据仓库,以及Oushu Lava数据管理平台、Oushu LittleBoy自动化机器学习平台,构成实时数据处理整体解决方案。