一、产品简介

OushuDB是由偶数科技自主研发的新一代极速云数仓。   可以构建企业核心数仓、数据集市、实时数仓、湖仓一体数据平台,以及BI、即席查询、实时指标等分析应用。OushuDB符合中国信创标准,通过计算存储分离架构解决了传统数据库高成本、高门槛、难维护、难扩展的问题。

二、产品特色

云原生:采用计算存储分离架构,利用云服务器、分布式存储,对数据基础设施的可扩展性进行深度优化,充分满足云端应用高度弹性、无限扩容的要求。支持腾讯云、阿里云、华为云、金山云、微软Azure、AWS等主流云平台。

高性能:面向PB级大数据的复杂查询,相比MPP和SQL-on-Hadoop快一个数量级。全新设计的执行器让性能提升5~10倍,显著降低批处理和即席查询所需的时间。

强兼容:具备完善的SQL标准和ACID特性,支持HDFS和多种对象存储的增删改查、以及偶数自研的Magma存储。兼容基于Oracle,PostgreSQL,Greenplum开发的数字应用,用户可以轻松实现不同数据基础设施的平稳迁移。

纯国产:OushuDB由国内数据库内核研发团队自主开发,符合国家信创标准。偶数研发团队曾主导国际顶级的数据库开源项目。

应用广:OushuDB已在金融、互联网、电信、政府、制造等行业的数百家头部企业得到广泛应用,助力各类企业完成数字化转型。

三、技术特点

· 极速执行器: 高效的执行器,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。

· 公有云和私有云部署:支持腾讯云、阿里云、金山云、AWS等公有云平台,同时可以支持主流PaaS云平台(比如Kubernetes等)和Docker部署。

· 对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC,比Hadoop SQL引擎更完善。

· 成熟的并行优化器:优化器是并行SQL引擎的重要组成部分,对性能影响很大,尤其是对复杂查询。

· 支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。可以有效减少开发及运维人员的负担。

· 动态数据流引擎:基于UDP的高速互联网络。

· 弹性调度执行:可以根据查询大小来决定执行查询使用的节点及Segment个数。

· 支持多种分区方法及多级分区:支持List分区和Range分区。分区表对性能有很大提升作用,如果用户只想访问最近一个月的热数据,查询只需要扫描最近一个月数据所在分区。

· 支持多种压缩方法:snappy,gzip,zlib, zstd, lz4, RLE等。

· 多种存储过程语言支持:python, c/c++, perl等。

· 动态扩容:按照存储大小或者计算需求动态按需扩容,秒级添加节点。

· 多级资源和负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;具有方便的DDL管理接口。

· 支持访问HDFS及其他系统的数据:各种HDFS格式(文本,ORC等等)以及其他外部系统(Hive等),并且用户自己可以开发插件来访问新的数据源。

· 原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。

· 与Hadoop系统无缝集成:存储、资源、安装部署、数据格式和访问等。

· 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。

· 支持多种BI工具:帆软、观远、SmartBI,以及Tableau、SAS、Apache Zeppelin等。

四、产品区别

OushuDB 和 Apache HAWQ 的区别

· 全新执行引擎,充分利用硬件的所有特性,比Apache HAWQ性能高出5-10倍。

· 支持Update和Delete,以及索引。

· C++可插拔外部存储:

替换JAVA PXF,性能高数倍,无需安装部署PXF额外组件,极大简化了用户安装部署和运维;

原生支持CSV/TEXT外部存储;

可以用于不同集群之间共享数据,比如数据仓库和集市之间共享及传输数据;

可以用于高速数据加载和数据导出;

可以实现高速备份和恢复;

可以实现可插拔文件系统:比如S3, Ceph等;

可以实现可插拔文件格式:比如ORC,Parquet等。

· 支持ORC/TEXT/CSV作为内部表格式,支持ORC作为外部表格式 (通过C++可插拔外部存储)。

· 对PaaS/CaaS云平台的原生支持,支持Kubernetes集群容器编排与部署。

· Csv和Text文件格式中对非ASCII字符串或长度大于1的字符串作为分隔符的支持。