Oushu Database简介#

基本介绍#

Oushu Database(简称OushuDB)是一款高性能云原生分布式数据库,作为实时湖仓数据平台的核心组成部分,它能够便捷地构建核心数据仓库、数据集市、实时数据仓库、数据湖以及湖仓一体化数据平台。OushuDB通过计算存储分离多集群架构解决了传统MPP数据库和Hadoop高成本、低性能、低并发、不实时、难维护、难扩展的问题。OushuDB由国人自主研发,符合信创标准,已在金融、电信、工业、能源、互联网等各个行业得到广泛的应用,其中包括建设银行、中国移动、中国联通、国家电网、南方电网、海尔等诸多世界500强企业,以及VMware等海外软件巨头。

Oushu Database和Apache HAWQ的不同#

  • 多活主节点,多虚拟计算集群,多虚拟存储集群的云原生无限扩展架构

  • 自研的分布式表存储 Magma,支持高效的 update/delete/index

  • 原生支持基于 HDFS 存储的 update/delete

  • 原生支持 Hudi-ORC,和大数据组件共享一份数据

  • 原生支持 Hive External Catalog,共享 Hive 元数据

  • 原生支持对象存储

  • 全新执行引擎,充分利用硬件的所有特性,比 Apache HAWQ 性能高出5-10倍

  • 支持 Update 和 Delete,以及索引

  • C++ 可插拔外部存储

  • 支持 ORC/TEXT/CSV 作为内部表格式,支持 ORC 作为外部表格式 (通过 C++ 可插拔外部存储)

  • 替换 JAVA PXF,性能提升数倍,无需安装部署 PXF 额外组件,极大简化了用户安装部署和运维

  • 原生支持 CSV/TEXT 外部存储

  • 可以用于不同集群之间数据共享与传输(如数据仓库和集市)

  • 支持高速数据加载、导出、备份和恢复

  • 可以实现可插拔文件系统:比如 S3, Ceph 等

  • 可以实现可插拔文件格式:比如 ORC 等

  • 对 PaaS/CaaS 云平台的原生支持

  • 世界上首个可以原生运行于 PaaS 容器平台中的 MPP++ 分析型数据库

  • 支持 Kubernetes 集群容器编排与部署

  • 关键 Bug 修复

主要功能#

  • 极速执行器: 高效的执行器,比传统数仓 MPP 快5-10倍,比 Hadoop SQL 引擎要快5-30倍。

  • 支持公有云和私有云部署:支持亚马逊和阿里云等公有云平台,同时可以支持主流 PaaS 云平台(比如 Kubernetes 等)和 Docker 部署。

  • 完善的标准支持:兼容ANSI SQL 标准,OLAP 扩展,标准 JDBC/ODBC,优于 Hadoop SQL 引擎。

  • 具备非常成熟的并行优化器:对复杂查询性能提升显著。

  • 支持ACID事务特性:保证数据一致性,降低开发和运维负担。这是很多现有基于 Hadoop 的 SQL 引擎做不到的

  • 弹性调度执行:可根据查询大小动态分配节点和 Segment 数量。

  • 支持多种分区方法及多级分区:支持 List 分区和 Range 分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。

  • 支持多种压缩算法:如 snappy、zlib、zstd、lz4、RLE 等。

  • 支持多种存储过程语言:如 Python、C/C++、Perl 等。

  • 动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。

  • 多级资源和负载管理:支持 Memory 管理、多级资源队列和便捷的 DDL 管理接口。

  • 支持访问任何 HDFS 及其他系统的数据:支持多种 HDFS 格式(文本、ORC 等)及外部系统(如 Hive),支持自定义插件扩展数据源。

  • 支持原生机器学习数据挖掘库 MADLib :易用且高性能。

  • 与 Hadoop 系统无缝集成:包括存储、资源、安装部署、数据格式和访问等。

  • 完善的安全及权限管理:支持 Kerberos 及数据库、表等多级授权。

  • 支持多种第三方工具:比如 Tableau,SAS,较新的 Apache Zeppelin 等。