数据库技术在各行业的应用 数据库行业专题研究
(报告出品方:华泰证券)
产业概览:关系型数据库占主流,分布式时代加速到来数据库是信息系统运行的关键基础。从定义来看,数据库是按照一定的数据结构组织、存 储和管理数据的仓库,在计算机中一般由一个或者一组文件构成;从本质来看,计算机解 决的是数据计算和数据处理问题,数据库则是计算机应用系统中的专门管理数据资源的系 统;从架构上看,数据库作为计算机三大基础软件(操作系统、数据库、中间件)之一, 向下可充分发挥硬件算力,向上支撑上层的应用需求,是信息系统高效运行的关键基础。
数据库软件的核心是数据库管理系统。数据库作为基础软件,可面向多种应用,被多个用 户、程序共享,其中数据库管理系统(DataBase Management System,DBMS)负责搭 建、处理、维护数据库的数据及数据间逻辑关系,由外部组件集与内核组件集共同组成:1) 外部组件集:以数据库配套的独立支撑软件为主,例如数据库驱动;2)内核组件集:一般 可以分为管理组件、网络组件、计算组件、存储组件四大模块。
产业复盘:变革与数据需求相协同,发展迈入后关系型阶段
自 20 世纪 60 年代以来,数据库行业随信息技术发展而快速演变,主要经历了三大阶段: 1)前关系型阶段(1964-1970):1964 年查尔斯·巴赫曼(Charles Bachman)开发出第一 个数据库管理系统,网状数据管理系统 IDS(Integrated Data Store)初步成型;随后为解 决阿波罗登月计划所需的大量数据,1968 年 IMS(Information Management System)系 统作为最早商业化的 DBMS 正式发布;此阶段数据库主要解决了数据独立存储、统一管理、 统一访问的问题,实现了数据与程序分离,但缺乏被广泛接受的理论基础; 2)关系型阶段(1970-2008):1970 年,员埃德加·科德(Edgar F. Codd)发表《大型共 享数据库的数据关系模型》,关系型模型理论被初步提出;随后关系型数据库(Relational Database Management System,RDBMS)诞生,国际标准组织将 SQL 作为国际数据库 标准语言,并进行标准化,SQL 成为关系型数据库主流语言并引领变革,Access、MySQL、 PostgreSQL 等大批关系型数据库诞生,带动关系型数据库完成了从理论到实践的转换; 3)后关系型阶段(2008-至今):随着 Web 2.0 的到来,数据量出现指数增长,传统关系型 数据库无法有效对应日新月异的数据类型及业务场景,为更有效地处理海量数据,应对多 样的数据结构,NoSQL、NewSQL 等非关系型数库脱颖而出,数据库迈入第三发展阶段。
根据数据结构、架构模型、业务负载特征的不同,数据库可划分为不同类别。为了更清楚 的了解数据库之间的特性差异,数据库产品可依照不同标准进行分类,常见的分类依据包 括数据结构、架构模型、业务负载特征、部署方式等,其中数据结构类型是最常用的标准。 1)根据数据结构类型:可分为关系型数据库、NoSQL 数据库、NewSQL 数据库; 2)根据架构模型:可分为集中式数据库、分布式数据库; 3)根据业务负载特性:可分为 OLAP 数据库(分析型数据库)、OLTP 数据库(事务型数 据库)、HTAP 数据库(混合型数据库)。
按数据结构分类:关系型、NoSQL、NewSQL
数据库的数据结构类型随存储需求变化而不断拓展。最早的数据存储需求主要来源于结构 化数据,因此数据库产品多采用关系型架构,主流产品包括:Oracle、MySQL、PostgreSQL 等;2000 年以后随着互联网应用的快速普及,产生大量非结构化数据的存储需求,NoSQL 数据库快速兴起,主流产品包括 Redis、MongoDB 等;后来为解决 NoSQL 数据库缺乏强 一致性及事务支持的问题,NewSQL 数据库逐步发展,主流产品包括:Spanner、TiDB 等。
1)关系型数据库
关系型数据库是由多个二维表所组成的集合。关系型数据库,是指采用了关系模型来组织 数据的数据库,数据以行和列的形式进行存储,这一系列的行和列被称为表,一组表组成 了数据库。表格之中每一行通过独有的主码(Primary Key)来区分彼此,每一列都拥有统 一的数据类型,外码(Foreign Key)通常与主码(Primary Key)一起使用,用于建立表与 表之间的联系,通过匹配外码以寻找相应的行。
关系型数据库具备 ACID 特性,为主流数据库类型。关系型数据库严格遵循原子性 Atomicity、 一致性 Consistency、隔离性 Isolation、持久性 Durability(以上简称 ACID 特性),在维护 数据库完整性、数据一致性方面优势突出,适用于对数据安全性、事务支持高度要求的应 用场景。1)原子性:为避免不同指令之间的冲突,数据库中的事务执行被视为原子不可再 分,指令要么全部成功执行,要么失败而保持原状;2)一致性:为确保业务逻辑一致性, 数据库设置约束与触发器保证数据库完整性,任何事务看到的数据总保持一致;3)隔离性: 数据库通过加锁,保证事务之间相互隔离,从而避免脏读、幻读等;4)持久性:为避免数 据库丢失等意外事故,数据库所有指令都将会被永久保存,不会被回滚。
2)NoSQL(Not Only SQL)数据库
NoSQL 数据库尝试解决关系型数据库的扩展可用性缺陷。不同于关系型数据库,NoSQL 数据库只遵守 BASE 模型:基本可用 Basically Avaliable、软状态 Soft state、最终一致性 Eventual consistency:1)基本可用:当系统出现故障时,NoSQL 数据库不像关系型数据 库一样进行强制拒绝,而是允许损失部分可用功能或降低响应速度,以保证核心功能可用; 2)软状态:在处理数据过程中,允许数据状态出现暂时不一致的情况;3)最终一致性: NoSQL 数据库只追求最终的结果一致,数据处理的过程中暂时不一致将被允许。NoSQL 数据库解决了关系型数据库刚性架构的拓展性缺陷,NoSQL 的动态架构可实现横向扩展。
NoSQL 数据库更适用于海量数据的快速读写场景。NoSQL 概念早在 1998 年就已经被 Carlo Strozzi 提出,21 世纪初才进入规模化发展阶段,主要原因在于 2008 年互联网进入 Web 2.0 时代,大量非结构化数据出现,数据量呈现指数型增长,传统的关系型数据在非 结构化数据处理、海量数据快速读写、数据库扩展等方面的劣势逐渐暴露,因此,基于 BASE 特性的 NoSQL 架构被重新提出并得到快速发展,MongoDB、Redis、HBase 等 NoSQL 数 据库逐步进入大众视野,并实现了在电商、社交网络、搜索引擎等领域的应用落地。
常见 NoSQL 数据库主要包括键值型数据库、列族数据库、文档数据库、图数据库: (1)键值型数据库:适用于内容缓存,如会话、配置文件、参数等。其扩展性高,灵活性 好,大量操作时性能高,但数据无结构化,查询方法单一; (2)列族数据库:适用于分布式数据存储与管理,将同一列数据存在一起,可扩展性强, 查找速度快,复杂性低,但功能局限; (3)文档数据库:适用于存储文档数据,数据结构灵活,但缺乏统一查询语法; (4)图数据库:适用于图像数据、社交网络、推荐系统,专注构建关系图谱,支持复杂的 图形算法,但只能支持一定的数据规模。
3)NewSQL 数据库
NewSQL 数据库实现关系型数据库与 NoSQL 数据库的优势整合。尽管 NoSQL 数据库处 理数据的速度快,常用于处理海量数据,但 NoSQL 数据库并不遵守 ACID 原则,无法满足 事务一致性要求。2011 年,Matthew Aslett 提出 NewSQL(可横向扩展的 OLTP 关系型数 据库)概念,2012 年谷歌公司发布 Spanner 与 F1 论文,用原子钟和 Truetime API 解决分 布式问题,推动 NewSQL 快速发展。NewSQL 架构旨在整合关系型数据库与 NoSQL 数据 库的优势:1)保留 NoSQL 数据库对海量数据处理的速度与可扩展性;2)采用以 SQL 为 主要接口的关系数据模型,保持传统关系型数据库的 ACID 特性。 近年来 NewSQL 数据库快速发展,主要包括三类发展路径:1)基于全新的架构设计,代 表产品为 Google Spanner、SAP HANA;2)基于分片中间件,代表产品为 ScaleArc;3) 基于云服务商的 DaaS(database-as-a-service)平台,代表产品为 Amazon Aurora、ClearDB。
关系型数据库与非关系型数据库各有千秋。对比来看,1)关系型数据库:严格遵守 ACID 原则,具备较强的约束性以及数据完整性,利于数据库的管理的同时也导致数据库难以扩 展,在业务快速发展的信息时代存在一定的成本劣势;其二维的数据结构减少了数据的冗 余,但读取海量数据效率不理想;作为传统数据库,关系型数据库发展时间长,技术成熟, 学习成本低;2)NoSQL 数据库:遵守 BASE 原则,相较于关系型数据库,更便于扩展, 储存模式简单,查询速度更快;但其极高的可用性在一致性上做出了妥协,使用成本较高 且不利于管理,相关技术具备较高的成熟度;3)NewSQL 数据库:在底层解决了事务一 致性问题,并整合了 NoSQL 在可扩展性、可用性上的优势,但 NewSQL 技术较新,学习 成本较高,且目前大多 NewSQL 只适用特定场景,距离普及还需要一定时间。
按架构模型分类:集中式架构、分布式架构
集中式数据库指将信息存储、维护在单个位置的数据库。集中式数据库利用系统中心的服 务器统一管理所有资源,对数据进行集中储存及管理,并由一台机器作为服务器。由于集 中数据库的所有数据仅存储在单个位置,因此在数据访问、协调、管理方面具有突出优势, 同时相较于其他数据库成本更低,为大多数企业最开始的选择。但随着数据存储需求的变 化,集中式数据库的缺点逐渐显现:1)难以扩展:只能通过提升硬件性能实现数据处理性 能的提升;2)容灾性差:集中式数据库采用完全共享(Shared-everything)架构,一旦任 何环节发生系统故障,整个数据库系统都将无法使用。
常见的集中式数据库架构,主要包括一主多备、一写多读、多写多读三类:1)一主多备(备 用不可读):使用单台主机模式部署,其他备机为主机备份数据,并在主机宕机的情况下代 替主机提供服务;2)一写多读:一个节点提供写服务,其他多个节点提供读服务,写节点 宕机时,读节点可以代替写节点来提供服务;3)多写多读:多个计算节点共享存储,每个 节点都提供读写服务,同时采用分布式锁或集中式锁解决写冲突。 分布式架构逐渐成熟,主要解决集中式架构扩展性差的问题。不同于既重视数据库统一处 理数据的架构,分布式数据库将数据分散在多个相互连接的节点上,通过使用多台机器, 将需要处理的数据、工作均衡分散到各个节点中,各节点相互连接又能够独立工作,节点 故障不会对其他节点产生影响。因此,近年来随业务拓展与数据体量变大,分布式架构成 为众多企业的选择。分布式数据库涵盖两大核心技术:1)数据的复制/分区:通过复制或分 区实现数据的多节点存放,复制包括主从复制、对等复制,分区包括垂直分区、水平分区 (即分片);2)分布式事务:通过机制设计保证分布式环境下事务的 ACID 特性,包括两 阶段提交(2PC)、三阶段提交(3PC)、最大努力通知等解决方案。
分布式数据库技术路线选择上,都是以解决数据容量扩展问题为首要目标,主流方案包括 三类:1)分库分表 中间件:下层的单机数据库提供存储和执行能力,在多个单机数据库 上封装一层中间层补充分布式能力,以统一的数据分片规则管理分布在不同数据库节点的 数据;2)共享存储架构:计算节点独立并且共享一个不带计算功能的存储集群 (Shared-storage),采用存算分离架构,计算层和存储层都可以动态扩缩容;3)去中心化 架构:每个节点有独立的计算和存储功能,采用存算分离架构,并且节点之间不共享数据 (Shared-nothing),分布式集群的每个节点都是独立节点。
按业务负载分类:OLAP、OLTP、HTAP
OLAP 为分析型数据库,OLTP 系统为事务型数据库。按业务负载类型区分,数据库大致 可以分成两大类:联机事务处理 OLTP(On-Line Transaction Processing)、联机分析处理 OLAP(On-Line Analytical Processing):1)OLTP 是传统的关系型数据库的主要应用,主 要是基本的、日常的事务处理,记录即时的增、删、改、查,例如银行交易;2)OLAP 是 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查 询结果,典型的应用就是复杂的动态报表系统。
发展趋势:数据、计算双重变化加速分布式数据库时代到来
数据库的发展与计算载体紧密相关。数据库是计算机行业的基础核心软件,所有应用软件 的运行和数据处理都要与其进行数据交互。数据库的开发难度,不仅体现在与其他基础器 件的适配,更在于如何实现对数据高效、稳定、持续的管理。从数据库的发展历程来看, 计算架构的变化,计算载体的变化、计算场景的变化,以及计算数据格式的变化都对数据 库的发展带来一定影响。或者说,在以上计算环境变化下,其需要的数据库类型也发生了 变化。 从计算载体来看,数据的计算从原来的大型机、到小型机、个人电脑 PC、互联网、移动互 联网、云计算,以及未来更多终端的物联网智能终端。计算的载体更加多样化。 从计算场景来看,数据计算也从单独的单机计算,到互联网多群体交互的联网计算和云计 算,以及万物互联的高并发、低时延的物联网计算。 从计算架构来看,传统的 IT 架构也正逐步向云架构迁移。我们也经历了从 C-S 架构到 B-S 架构,而目前的云原生、分布式计算架构正对传统计算架构带来深刻变革。而新的计算架 构也对计算的基础软件(操作系统、数据库、芯片等)提出更高的需求。
在以上计算环境的变化下,我们看到,联网的数据也在发生深刻变化。 数据的大小。目前联网数据量也在高速增长。通信技术的发展带动从 2G 到 3G、4G、5G 的演进,每代通信技术之间,联网的数据规模也呈现(几个)数量级的增加。对大容量、 高性能计算提出更高要求。 数据的类型。计算场景的演变,我们对数据的定义也在发生变化。图片、语音、视频等非 结构化数据成为增量数据的主要类型。联网的数据类型也逐步从原来的结构化数据到非结 构化数据演变,这就对计算的并发性提出了更高的要求。 数据的快慢。对数据的高速计算是计算机一直以来的追求。但原有的 IT 架构下,计算速度 的提升存在一定的物理条件限制。经典的 IT 架构已经存在了几十年的历史,当时的 IT 架构 并没有完全考虑到目前计算场景的变化。因此,新的计算场景下,对数据高速计算的追求, 需要我们从底层基础软件的变革开始。我们看到无论芯片、操作系统还是数据库,都在经 历深刻变革。
全球关系型数据库市场增速渐趋平稳。近年来受数据量激增以及数据类型不断丰富影响, 传统关系型数据库的流行程度呈下降趋势,据 DB-Engines 数据显示,近 24 个月关系型数 据库的市场流行度下降 8.23pct,市场增速逐步趋于平缓,据 T4.ai 预测,2018-2022 年全 球关系型数据库市场规模复合增长率为 6%,较 2012-2017 年的 11%或将有所下降。非关 系型数据库的市场份额占比快速提升,根据 Gartner 2021 年发布的《全球数据库管理系统 (DBMS)市场报告》,2021 年全球非关系型数据库的市场收入达 148 亿美元,占总体数 据库市场的 19%,相较于 2017 年 8%的市场占比,非关系型数据库的市场份额显著提升。
全球数据量激增,分布式数据库机遇显现。随着智能移动手机普及、云计算的兴起以及互 联网的快速发展,全球数据量不断攀升,据 IDC 数据显示,全球数据量已从 2010 年的 1.2ZB 增长至 2020 年的 59ZB,复合增长率高达 47.63%。据 IDC 预测,2025 年全球数据量将进 一步增长至 175ZB,2020-2025 年复合增长率为 24.29%。随着数据量上升,全球数据库规 模快速增长,据 Gartner 预测,2024 年全球数据库市场规模有望突破千亿美元,2018-2024 年复合增长率为 13.78%,同时大数据分析、高并发计算、非结构化/异构数据处理的需求日 益显现,分布式数据库兼具拓展性与高可用性,或将成为数据库行业新的增量市场。
在非结构化数据与高并发计算需求的推动下,分布式数据时代加速到来。在计算、数据的 双重变革下,我们认为,数据库行业的发展演进也将经历重要的技术变革。在传统计算环 境和数据类型方面,传统的关系型数据库依然发挥着重要的作用;但面向未来新的计算场 景与数据需求,数据库产品亟需进行技术升级以适应下游需求的变化,通过统计国内外典 型数据库厂商的技术路线及产品体系变化,我们判断,数据库行业已进入以云数据库、分 布式数据库为代表的 3.0 阶段。
竞争格局:海外数据库先发优势突出,国产数据库快速发展
全球数据库产业呈现海外厂商主导的典型特征。相较海外厂商来说,国内数据库研究起步 较晚,大约是 20 世纪 90 年代改革开放以后才开始进入萌芽阶段,该阶段数据库研究主要 源自国家的相关研究计划或者大学科研需求,缺乏实际的业务场景驱动,因此数据库技术 发展较为缓慢。从全球市场来看,以 Microsoft、Oracle 为代表的海外数据库数据库厂商仍 占据绝大部分市场份额,处于绝对领导地位,根据 Gartner 发布的《2018 年全球数据库研 究报告》,全球共 14 家企业入选事务型数据库魔力四象限(中国仅 1 家入榜),19 家企业 入选分析型数据库魔力四象限(中国仅 3 家入榜),处于领导者象限的企业均为海外厂商。
根据 Gartner 发布的《全球数据库市场份额报告 2021》,微软连续两年市场占有率排名第一, 2021 年占全球市场份额 24.0%,与 2020 年相比略有下降;亚马逊云科技 AWS 市场占有 率排名上升,主要受其云数据库产品快速增长带动,2021 年 AWS 云数据库产品同比增长 42.3%,约为全球云数据库市场增长率 22.3%的两倍;Oracle 数据库市场占有率排名略有 下降,2021 年占全球市场份额 20.6%,主要由于 Oracle 云数据库增速远低于市场增速。
国产数据库国际影响力快速提升:1)云数据库表现优异: 2019 年 OceanBase 数据库打 破数据库基准性能测试(TPC-C)世界纪录,且于 2019-2021 年连续三年稳居首位;2021 年阿里云、华为云数据库产品分别入选 Gartner《全球云数据库魔力象限报告》领导者象限、 特定领域者象限;2)非关系型数据库受国际认可:根据 DB-Engines 发布的数据库管理系 统受欢迎程度排名,2021 年 2 月,智臾科技 DolphinDB 荣登时序数据库排行第 10 位,2022 年 10 月,智臾科技 DolphinDB、涛思数据 TDengine、阿里 TSDB,依次位列时序数据库 排行第 9、13、35 位;2021 年 5 月,欧若数网 Nebula Graph、华为云 GraphBase 、百 度智能云 HugeGraph 图数据库,依次位列图数据库排行第 15、28、30 名。
数据库产品包含开源数据库、商业数据库两种商业模式。其中,商业数据库收费方式主要 有两种:1)本地部署:本地部署的商业数据库,一般采用 License 订阅方式收费,一般按 用户数或者按 CPU 数定价,按年订阅,以 Oracle 为典型代表;2)公有云部署:公有云部 署的商业数据库,除了 License 收费还可采用 SaaS 收费方式,用户可按用量付费,按年/ 季度/月收费,以 Snowflake 为典型代表;开源数据库供用户免费使用,主要商业模式包括 三种:1)完全开源式:借助基金会完全托管,以 HBase 为典型代表;2)开源版本和商业 版本分别运营:通过运营开源版本社区积累人才、应用场景、市场品牌等,再通过售卖商 业版本获取利润,以 TiDB 为典型代表;3)先开源后闭源:运作前期通过开源社区优化产 品与品牌,之后停止社区的维护将产品闭源商业化,以 Neo4j 为典型代表。
国产数据库:产业机遇明朗,国产品牌迅速成长
国产数据库迎来产业黄金期,国产替代空间广阔。国产数据库产业黄金期加速到来,主要 受三方面因素影响:1)数据库广泛开源:全球数据库开源趋势明显,据 DB-Engines 数据 显示,2021 年 1 月起开源数据库流行程度反超商业数据库,数据库开源为国产数据库发展 提供了良好的技术生态;2)国产化替代逐步推进:国产数据库作为信创的关键环节,随国 产化替代深入推进而受到高度重视,产品、技术均实现快速发展;3)云数据库日益兴起: 从全球数据库部署占比来看,云数据库产业趋势明朗,受益于高人口基数与应用软件繁荣 带来场景红利,国产云数据库爆发巨大的产品优势。根据艾瑞咨询发布的《中国数据库行 业研究报告》,2020 年国产数据库占全国市场 47%,仅存量市场的替换空间已超 130 亿。
技术沉淀叠加信创需求,国产数据库迎来黄金发展期
国产数据库发展顺应国家需求,国产替代加速产业发展。1995 年,国家邮电部提出开发和 建设“市内电话业务计算机综合管理系统”,即“九七工程”,在此背景下,国内第一批数 据库企业开始发展,早期国内数据库行业高度依赖大学以及国家政府机关,主要用来满足 国家部门的使用需求。2009 年以前,国内银行以及企业高度依赖 IMB、Oracle 等海外厂商 研发的数据库系统,单方向的技术依赖使国内厂商处于被动态势。2013 年,棱镜门事件爆 发,信息安全的自主可控成为国家需求,国内企业积极响应国家需求,自主研发数据库系 统。国产数据库作为国产化替代的重要环节,在我国信创产业政策的指引下实现加速发展。
总体来看,国产数据库的发展历程大致可分为三个阶段: 1)海外垄断期(1978-2000 年):SQL 体系初建立,美国三巨头(Oracle,MySQL,SQL Server)相继初露峥嵘,并逐步统治全球市场。1977 年国内召开第一次数据库年会,改革 开放引领浪潮,积极引入国外技术,以三大巨头为代表的海外数据库于 90 年代席卷中国; 2)国产萌芽期(2000-2009 年):“十五”计划期间,国家 863 计划设立“数据库重大专项”, 国内研究所与大学积极投入数据库研究,IT 社区逐步兴起;1999 年,中国首个数据库“人 大金仓 KingbaseES 数据库系统”诞生,随后武汉达梦数据库、神通数据库系统等国产数 据库系统相继面世,打破了 Oracle、IBM 的市场垄断格局; 3)快速发展期(2009 年至今):2009 年,阿里巴巴成立阿里云,开始研发自己的数据库 产品 AliSQL;随后,华为、腾讯等企业相继加入自主研发队伍,推出自有数据库产品;云 计算时代与开源社区的兴起,国产数据库实现弯道超车,基于 NoSQL 等新技术的数据库产 品加速面世。2019 年,国外厂商神话被打破,蚂蚁集团的 OceanBase 数据库成功登顶世 界上最权威的数据库评测机构 TPC(国际事务处理性能委员会)排行榜榜首。国产数据库 逊于海外数据库已成为过往,国产自研数据库进入百花齐放阶段,近年来随着国产化替代 深入推进,软件厂商、集成商、运营商纷纷入局数据库市场,我国数据库产业加速发展。
经过多年技术研发和经验积累,国产数据库市场份额逐年提升。以人大金仓、南大通用、 神舟通用为代表的国产数据库厂商自 1999 创建以来不断发力,逐步打破了海外厂商的垄断 局面,同时数据库初创厂商、云厂商等也加速发力,快速替换海外数据库厂商的市场份额。 根据智研咨询数据显示,国产数据库企业的市场占比已从 2009 年的 4.19%提升至 2017 年 的 16.64%;根据艾瑞咨询发布的《中国数据库行业研究报告》,2020 年国产数据库市场占 比已提升至 47.4%,其中传统数据库厂商占比 7.1%,国产云数据库等新兴厂商占比40.3%。 根据 IDC 发布的《2021 年上半年中国关系型数据库软件市场跟踪报告》,在传统部署模式 市场中,华为、阿里、达梦数据、人大金仓的市占率分别为 14.7%、5.7%、5.7%、5.0%, 在公有云部署模式市场中,阿里、腾讯、华为的市占率分别为 44.7%、17.4%、7.4%。
关系型数据库占主流地位,市场竞争格局初显
国产数据库参与厂商包括传统厂商、初创厂商、云厂商和跨界厂商四类。1)传统厂商:以 达梦数据、人大金仓、南大通用等企业为代表的传统数据库厂商,是我国最早参与数据库 研发、应用的企业,在数据库领域具有深厚的技术沉淀;2)初创厂商:以巨杉、PingCAP、 偶数科技、星环科技等企业为代表的初创厂商,依托于新兴的数据库技术与需求,近年来 实现蓬勃发展;3)云厂商:以阿里巴巴、腾讯等企业为代表的云数据库厂商,得益于互联 网业务和开源技术的快速发展,积极搭建自研云数据库平台,迅速占领云数据库市场份额; 4)跨界厂商:以中兴、浪潮等企业为代表的跨界厂商,积极布局企业级数据库市场。
根据源代码来源不同,国产数据库代码来源可分为三大类: 1)基于开源代码研发:MySQL 系的巨杉数据库、阿里云数据库,PostgreSQL 系的华为 Gauss 数据库; 2)收购商业源码 自研:南大通用收购 IBM 的 Informix 数据库源码; 3)独立自研:以武汉达梦数据库为典型代表。
关系型数据库占主流,多基于 MySQL 和 PostgreSQL 二次开发而来。关系数据库作为 传统数据库产品,诞生时间早于非关系型数据库,产品体系更加成熟,在我国数据库市场 中占据主流地位。1)从数据库数量来看:根据中国信通院发布的《数据库发展研究报告》, 截至 2021 年 6 月,我国数据库产品共有 135 款,其中关系型数据库 81 个,占比 60%, 非关系型数据库 54 个,占比 40%;关系型数据库中基于开源数据库 MySQL 和 PostgreSQL 进行二次开发的个数分别为 23 和 24 个,分别占关系型数据库比例为 28.40% 和 29.63%,合计占比为 58.03%。2)从市场份额来看:根据艾瑞咨询发布的《中国数据库 行业研究报告》,关系型数据库市场份额占比约为 90%,非关系数据库市场份额仅约为 10%。
云数据库产品优势逐步显现,国产厂商掌握场景红利。国产云数据库厂商的快速发展主要 获益于我国的互联网场景红利,过去十年互联网及移动互联网在中国快速发展,国产厂商 享受了高人口基数与丰富软件应用场景带来的场景红利,积极开拓面向海量、高并发数据 的云数据库产品,并凭借产品优势与本土化业务理解迅速占领国内市场。根据 IDC 发布的 《2021H2 中国关系型数据库软件市场跟踪报告》,2021H2 公有云关系型数据库规模为 8.7 亿美元,国产云数据厂商的市场份额合计占比超 68%,国产厂商(阿里、腾讯、华为)分 别位居前五名中的第 1、2、4 位,其中阿里处于绝对龙头位置,占总体市场份额的 42.5%。
初创厂商不断涌现,数据库产业体系日益完善
国产厂商多处在发展初期,具备较大成长空间。与老牌海外数据库厂商 50 余年的发展历史 相比,多数国产数据库厂商的成立时长在 10 年以内,根据中国信通院发布的《数据库发展 研究报告》,2013-2017 年成立的数据库厂商数量占国内厂商总数比重近 50%。由于多数国 产数据库厂商成立年限较短,因此在人才储备与技术积累等方面,仍与海外厂商存在较大 差距。根据中国信通院发布的《数据库发展研究报告》,员工人数小于 300 的国产数据库企 业占比高达 84%(Oracle 员工 13,700 名),专利数量小于 50 的国产数据库企业占比高达 77%(Oracle 专利 1.4 万个),大部分厂商仍然拥有较大的成长空间。
初创厂商多基于新兴数据库技术,关注非关系型数据库细分赛道。2015-2018 年大批初创 数据库厂商成立,包括费马科技、创邻科技、欧若数网、蜀天梦图等图数据库厂商以及浙 江智臾、涛思数据等时序数据库厂商。据艾瑞咨询统计,2015 年前后成立大部分初创厂商 均采用 NewSQL、SQL on Hadoop、NoSQL 等新技术架构,主要原因在于新技术架构尚处 于发展阶段,同时更符合互联网、金融、物联网等应用场景的业务需求,为初创厂商实现 新场景下的“弯道超车”提供了更大的可能。初创厂商纷纷涌入非关系型数据库细分赛道, 有望带动基于新技术架构的非关系数据库快速发展,据艾瑞咨询预测,2020-2025 年以初 创厂商为代表的新兴数据库市场规模有望实现高于 10 倍的增长。 国产数据库的支撑体系不断完善。数据库支撑体系包括学术组织、行业支撑组织、人才培 训体系三大类:1)学术组织支撑:主要包括高校、企业的学术理论研究,以及相关论文在 学术领域的学术影响;2)行业支撑组织:主要包括具备官方背景的研究组织、数据库从业 人员牵头发起的用户组织、由数据库企业组建的官方技术社区、汇聚数据库整体行业信息 的第三方技术社区等;3)人才培训体系:主要包括高校教育培训、专业机构培训以及企业 培训。
学术研究与行业发展齐头并进,学术影响逐步提升。2016 年-2020 年,我国成为世界第二 大数据库领域论文产出国,发文量为 1,141 篇,占全球总发文量 22.4,仅次于美国的 1,319 篇。学术界主要有以 VLDB、ICDE、SIGMOD 为首的数据库领域顶级会议,高校及企业在 三大会议每年贡献占比平均为 22.14%、23.74%和 23.81%,占比逐年上升,研究方向多 以图数据库、数据挖掘、机器学习、查询处理等为主。阿里巴巴、华为、腾讯、蚂蚁金服、 等企业和清华大学、香港科技大学、北京大学、香港中文大学、香港大学、浙江大学等高 校论文纷纷入选三大顶会,显示我国数据库学术水平国际影响力不断扩大。
国内厂商重视人才培养,加快人才培训体系建立。数据库厂商积极搭建官方社区、开源社 区、第三方数据库,与全国开发者积极进行技术讨论与交流,加快技术发展,如阿里云开 发者社区、PostgreSQL 中文社区、墨天轮等。同时企业厂商积极建立培训机构与认证体系, 加强与院校的交流,办理不同的培训课程与证书考试,为我国数据行业培养相关储备人才。
数据库开源实现人才积累,贡献长效技术动力。数据库开源对于实现人才积累、生态拓展、 产品技术迭代具有重要意义,2014 年 12 月,巨杉数据库 SequoiaDB 正式开源,成为国内 最早的开源自研数据库项目,此后 PingCAP TiDB、百度 Roris 和 HugeGraph、华为 Gauss、 蚂蚁集团 OceanBase 等国产数据库纷纷拥抱开源,积极构建开源生态社区,实现了数据库 开发人才的快速积累。据 Github 发布的《2021 年度开发者报告》显示,中国作为全球第二 大开发者来源(755 万开发者,占比 9.76%)正在快速成长,据 Github 预测,中国有望于 2030 年超越美国,成为全球最大的开发者来源。
各路资本积极入局,国产数据库市场空间广阔
各路资本纷纷注入数据库产业,产业态势明朗。根据中国信通院统计,自 2013 年至 2021 上半年,数据库企业累计完成融资约 42 次,单年融资企业次数呈现明显的上涨趋势。根据 沙利文发布的《2021 年中国分布式数据库》报告,2021 年是国产数据库投融资最活跃的 一年,2021 年获得新一轮融资的企业就多达 20 家,千万级甚至上亿级融资数量在 14 轮 以上,其中偶数科技完成 B 轮融资 2 亿元,四维纵横完成 A 轮融资 1 亿元,智臾科技完成 B 轮融资 1 亿元。国产数据库的投资方包括红杉、高瓴、经纬、云启、明势等众多知名投 资机构,国产自研数据库产业趋势明朗,有望在资本注入下实现强劲增长。
据中国信通院预测,中国数据库市场 2020-2025 年复合增长率将高达 23.35%,2025 年市 场规模有望达到 688 亿元,考虑到目前国产数据库市占率仍处于较低水平(2020 年国产数 据库市场占比不足 50%),未来随我国数据库市场规模扩大与国产数据库替代加速,国产数 据库有望同步扩大存量与增量市场,国产数据库市场空间前景广阔。
厂商梳理:海外厂商、国产厂商各具优势观点一:海外厂商向云化方向深度迈进,SaaS 模式助推新兴厂商加速发展
分布式云数据库成为海外厂商的发展共识。通过总结 Oracle、Microsoft、SAP、MongoDB 等海外传统数据库厂商以及 AWS、Snowflake、databricks 等新兴云数据库厂商的发展路径、 技术演进以及现有产品体系,可以看到分布式云数据库已成为海外厂商的发展共识,各类 云托管、云原生数据库不断面世,加速数据库产品云化转型。传统数据库厂商基于原有业 务优势,以云托管数据库为主要发展方向,支持数据库产品在公有云、私有云、混合云环 境下部署;新兴厂商多选取云原生路线,Snowflake、databricks 等厂商更是推出专门面向 公有云环境的数据仓(分析型数据库)服务,SaaS 模式助力新兴厂商业绩高增,以 Snowflake 为例,截至 2022 年 7 月 31 日,公司年化付费超百万的客户为 246 个,同比增长 112%。
观点二:开源、分布式两大技术趋势下,国产数据库有望弯道超车
开源构建数据库产业正反馈循环,主流数据库产品陆续拥抱开源。数据库开源旨在通过开 放核心代码,运营开源社区以实现多方共赢,1)对于社区开发者来说,开源数据库提供免 费的数据库产品,成本优势突出;2)对于数据库厂商来,通过开源社区可快速获得产品反 馈,加快产品开发、提升产品质量;3)对于生态伙伴来说,开源产品的生态影响力更强, 可以更好地实现产品兼容。通过梳理国产数据库厂商的发展历程,可以看到众多国产厂商 最早都基于开源数据库构建底层代码,同时近年来主流数据库产品纷纷拥抱开源,以加速 产品技术升级,构建友好的数据库生态。典型代表有巨杉数据库 SequoiaDB、华为 Gauss 数据库、阿里云 PolarDB for PostgreSQL 数据库、蚂蚁集团 OceanBase 数据库。
分布式数据库时代加速到来,国产厂商加速分布式产品布局。分布式数据库可有效解决现 有互联网环境下海量数据、高并发计算的数据需求,成为国产数据库厂商的产品发展共识。 传统国产数据库厂商重点关注分布式关系型数据库,主要选择分库分表 中间件、原生分布 式两类技术路线;新兴国产数据库厂商广泛布局分布式关系型数据库、NoSQL 数据库、 NewSQL 数据库等多类型分布式数据库,大量非关系型数据库厂商实现弯道超车。
海外厂商:云数据库是主要方向,传统龙头与新兴厂商并驾齐驱
根据 DB-Engines 发布的数据库流行度最新排行(2022 年 10 月),全球数据库排名前五名 依次为:Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB,新兴数据库 厂商 Snowflake、Databricks 分别位列 13、20 名。我们选取关系型数据库代表 Oracle、 Microsoft SQL Server,NoSQL 数据库代表 MongoDB,内存数据库代表 SAP,云数据库 代表 AWS、Snowflake、Databricks 作为范例,对海外数据库厂商的发展历程及现有产品 体系进行了详细梳理。
Oracle:传统数据库龙头,加速云数据库转型
Oracle 的数据库产品是公司的起家业务,技术积淀深厚。Oracle 的数据库业务发展历程, 与全球数据库发展历史交织在一起,也与 Oracle 整个公司的发展绑定在一起。Oracle 的数 据库产品包括两种:1)Oracle 自有数据库产品 Oracle Database;2)MySQL:2008 年 Sun 以 10 亿美元收购 MySQL,2009 年,Oracle 以 74 亿美元收购 Sun。
随着 IT 架构、终端设备形态的不断变化和迁移,Oracle 的数据库产品也在不断更新迭代。 从 Oracle 数据库产品服务的计算载体的形态来看,经历了小型机与大型机、客户机/服务器 (PC 与服务器)、互联网架构/瘦客户端、数据库云/大数据四个阶段。目前 Oracle 的数据 产品已经更新到 21c。从以往 Oracle 更新的版本来看,我们可以将其划分为几个不同时代:
阶段一:Oracle 9i 之前,支持传统的 C-S 架构
Oracle 的数据库产品主要解决的是数据库的高可靠性问题(注:衡量数据库产品的核心指 标在于五个方面:高可用性(High Availability)、高性能(High Performance)、高可管理 (High Manageability)、高安全(High Security Ability)、高数据服务能力(High Data Service Ability)五个领域)。Oracle 数据库核心优势在于高效、安全、稳定等。
阶段二:9i-12c,支持互联网计算环境
从 Oracle 9i 开始,Oracle 引入新的技术 Oracle RAC,RAC 是指 real application clusters, 译为“实时应用集群”。RAC 是 Oracle 新版数据库中采用的一项新技术,是高可用性的一 种,也是 Oracle 数据库支持网格计算环境的核心技术。用来在集群环境下,实现多机共享 数据库,以保证应用的高可用性。同时可以自动实现并行处理及负载均衡,并能实现数据 库在故障时的容错和无断点恢复。它是 Oracle 数据库支持网络计算环境的核心技术。 Oracle RAC 主要支持 Oracle9i、10g、11g、12c 版本,可以支持 24 x 7 有效的数据库应用 系统,在低成本服务器上构建高可用性数据库系统,并且自由部署应用,无需修改代码。 从 Oracle 12c 开始,Oracle 逐步开始推出 Options 产品线,推动企业数据中心的整合、数 据集中和网格计算的发展,强化了数据的高可靠性,提升了数据库对云计算需求的应对能 力:1)Exadata 数据库一体机和内存选件(In-memory Option)的推出,用来提高性能、 简化架构,提高数据库的速度;2)Oracle 12c 的多租户和 DBaaS 则让数据库混合云成为 可能,客户可以在不同云环境中进行切换。
阶段三:12c 之后,支持云计算环境,进入自治时代
Oracle 12c 引入了 CDB 与 PDB 的新特性。在 Oracle 12c 数据库引入的多租用户环境 (Multitenant Environment)中,允许一个数据库容器(Container Database,CDB)承载 多个可插拔数据库(Pluggable Database,PDB)。在 Oracle 12c 之前,实例与数据库是一 对一或多对一关系(RAC):即一个实例只能与一个数据库相关联,数据库可以被多个实例 所加载,而实例与数据库不可能是一对多的关系,当进入 Oracle 12c 后,实例与数据库可 以是一对多的关系。 Oracle 21c 是 Oracle 最新一代数据库,致力于实现可部署在本地和云端的单一融合数据 库。Oracle 从 19c 开始就致力于提供全球唯一可运行在本地和云端的融合数据库,可支持 使用包括 JSON、图、XML 等在内的任何数据类型。同时,用户不必再为不同的工作负载 而创建不同的数据库,可以在同一个数据库中运行交易型负载、分析型负载、物联网、区 块链等,大大减轻 DBA 的工作负担,降低维护成本,进一步减少故障点,从而保证数据库 系统安全平稳运行。
Microsoft:兼顾本地、云端两大数据库应用场景
Microsoft数据库产品多为关系型数据库。Microsoft于1988年推出Microsoft SQL Server, 为企业提供商业数据管理;1992 年推出 Microsoft Access,为软件设计师与分析师提供便 捷的应用开发软件;2010 年推出 Microsoft Azure,为用户提供云端数据库服务,以上三款 产品皆使用关系型数据库模型。 Microsoft SQL Server 历经多年迭代,目前包括本地、云端两大产品类别。Microsoft SQL Server 的发展大致可分为三个阶段: 1)合作创始初期(1988-1995 年):SQL Server 最早由 Microsoft、Sybase、Ashton-Tate 三家公司共同开发,最早于 1988 年推出了 OS/2 版本;随后 Aston-Tate 退出,1992 年 Microsoft 与 Sybase 共同开发了基于 Windows 系统的 SQL Server,但在 SQL Server 4 后 Microsoft 与 Sybase 分道扬镳,于 1995 年独立完成 SQL Server 6.0 版本的开发;
2)独立发展期(1995-2010 年):自 Microsoft SQL Server 6.0 发布后,SQL Server 产品 进入以Microsoft为单一研发主体的独立发展期,随后相继发布SQL Server 7.0、SQL Server 2000、SQL Server 2005 等多个版本;其中,2008 年发布的 SQL Server 2008 新增了数据 压缩、资源调控、备份压缩等功能,保护了数据库查询、减少了管理操作所需时间、增加 了稳定性、增强了系统性能优化以及预测功能等,使其成为了至今为止最强大和全面的 SQL Server 版本; 3)云化转型期(2010 年至今):早在 2008 年 Microsoft 专业开发人员大会上,Microsoft 当 时的首席软件架构师 Ray Ozzie 就宣布推出新云计算操作系统 Microsoft Azure,并推出 Azure 服务平台关键组件之一是 Microsoft SQL 服务;2010 年以 SQL Server 2008 为基 底的云数据库 SQL Azure 正式面世,后改名为 Azure SQL,旨在作为 Azure 云计算平台的 一部分提供的云数据库产品/服务。
总体来看,Microsoft SQL Server 作为一个全面的数据库管理平台,为用户提供了企业级的 数据管理,拥有较好的伸缩性与集成度高等优点,主要包括: 1)本地部署 SQL Server 系列; 2)私有云部署 SQL Server Private Cloud 系列; 4)公有云部署 Azure SQL 系列:Azure SQL Database、Azure SQL Managed Instance、 SQL Server on Azure VM; 其中,Azure SQL Database 支持大多数本地数据库级功能,提供最常用的 SQL Server 功 能;Azure SQL Managed Instance 几乎支持所有的本地实例级和数据库级功能,与 SQL Server 高度兼容,适合用于大部分云迁移方案;SQL Server on Azure VM 能够轻松直接迁 移 SQL Server 工作负载,保持 100%的 SQL Server 兼容性和操作系统级别的访问权限。 根据 Gartner 发布的《2021 年数据库市场份额》,Microsoft 数据库市场份额为 24.0%,位 居全球第一,其中云数据库产品收入增长率为 39.5%,带动公司数据库产品整体增长率推 高至 20.9%,略低于市场 22.3%的增长率。
MongoDB:NoSQL 典型代表,提供文档型数据库服务
MongoDB 旨在为 Web 应用提供可扩展的高性能数据存储解决。MongoDB 于 2007 年成 立,是文档型的 NoSQL 数据库,数据以文档的形式在 MongoDB 中保存,它使用 BJON 作 为数据格式,拥有轻量级、可遍历性、高效性三大特点,有效应对了传统关系型数据库在 面临高读写、高存储、高扩展性与可用性的挑战。MongoDB 支持 Java、Python、C 等 多类型语言,数据从 MongoDB 中读取出来后,可无需转换直接使用,适用于数据量大, 读写操作频繁、数据价值低且对事务要求不高的场景。MongoDB 支持在公有云、本地和混 合云环境中大规模部署,2019 年最新发布的 MongoDB 4.2.0 开始支持分布式事务。
MongoDB 遵从开源协议提供商业数据库产品。MongoDB 产品体系主要由企业级数据库产 品 MongoDB Enterprise Advanced、云数据库 MongoDB Altas、开源数据库 Community Server、移动数据库 MongoDB Realm。1)MongoDB Enterprise Advanced:为企业级数 据库平台,包括商业数据库服务器、企业级管理工具、图形用户界面、分析工具集成等功 能;2)MongoDB Altas:为完全托管的云数据库产品,包括全面系统监控、托管备份、恢 复等功能;3)Community Server:为免费下载的开源版本;4)MongoDB Realm:为用 于数据密集型网页的移动数据库,可借助 Realm Sync 实现边缘设备数据到后端云数据库的 无缝同步。
SAP:专注企业业务流程管理,提供内存数据库产品
SAP 作为业务流程管理软件供应商,致力于实现企业数据的高效治理。SAP 成立于 1972 年,最初称为 System Analysis Program Development,后来缩写为 SAP。SAP 总部位于 德国,在全球拥有 10 万多名员工,业务范围遍布 130 多个国家,拥有超过 2.3 亿云用户。 公司 2010 年发布的 SAP HANA (Hight-Performance Analytic Applicance)Cloud 产品, 作为统一的数据库即服务 (DBaaS) 平台,支持针对所有企业数据的现代应用和分析工具, 在扩展性、速度与性能上为用户提供极佳的体验。 SAP HANA 组件包括:1)名称服务器(Name Server):将信息传播到其他组件上;2)预 处理服务器(Preprocessor):用于文本数据分析;3)统计服务器(Statistics Server):用 于检查和分析 HANA 所有组件的运行状况;4)XS 服务器(XS Server):用于帮助外部 Java 和 HTML 的应用程序访问 HANA 系统;5)索引服务器(Index Server):用于处理数据库 查询语句的 SQL/MDX 处理器,它将所有查询请求分段,并将它们引导到正确的引擎以进 行性能优化。
AWS:把握分布式浪潮,提供多类型云数据库产品
AWS(Amazon Web Service)把握分布式数据库浪潮,带动云数据库产品快速发展。AWS 是全球云服务的先行者,产品覆盖了弹性计算、储存、分析、开发、网络安全、数据库等 多个 200 多个方向,业务覆盖全世界 245 个国家。AWS 云数据库拥有一系列全面的数据库 管理服务,包括针对运营用例、分析用例、图数据处理、键值以及分类账等,致力于为用 户提供适应多场景的专用云数据库产品。 AWS 数据库产品多为单一用途的专用云数据库,并为用户提供云迁移服务。根据数据库类 型的不同,AWS 云数据库产品分为八大类:1)关系型数据库:Amazon Aurora(高性能 托管式关系数据库)、Amazon RDS、Amazon RedShift(经济高效的数据仓库);2)键值 型数据库:Amazon DynamoDB(托管式 NoSQL 数据库);3)内存数据库:Amazon ElastiCache(内存中缓存服务)、Amazon MemoryDB for Redis(与 Redis 兼容且持久的 内存数据库);4)文档数据库:Amazon Document DB;5)列族数据库:Amazon Keyspaces (兼容 Cassandra);6)图数据库:Amazon Neptune;7)时序数据库 Amazon Timestrea; 8)账本数据库:Amazon Ledger Database Services(QLDB)。
Amazon Aurora 是 AWS 关系型云数据库的典型代表,兼容 MySQL 与 PostgreSQL。 Amazon Aurora 是 AWS 从 2014 年开始开发并提供的云原生关系型数据库,专门面向云计 算场景,实现了传统企业数据库的性能、可用性与开源数据库的简单性、成本效益的有机 融合,可与 MySQL 和 PostgreSQL 完全兼容。Amazon Aurora 作为高性能数据库,兼具高 性能和高可扩展性、高可用性和持久性、高度安全、完全托管等重要特性,服务三星 Samsung、 Halliburton、任天堂 Nintendo、A E Networks 等多类型客户。
Snowflake:提供数据仓库、数据湖等多种产品
Snowflake 满足并发性、可扩展性、易用性、平台中立性需求。公司产品完全基于公有云, 提供包括数据仓库(Data Warehouse)、数据湖(Data Lake)在内的多种产品,支持非结 构化数据、数据可视化和分析。公司意在打造综合性的云数据平台,其数据库可在三大公 有云 AWS、Microsofe Azure 和 Google Cloud Platform 上部署,对于企业多云异构的复 杂环境有适用性、中立性,同时亦提供数据交换功能,解决了过去用户面临的投入高、灵 活度低等问题,可吸引中小型客户。据公司财报,截至 2022 年 7 月,公司有 6,808 个企 业客户,同比增长 36%,包括全球 2,000 强企业中的 510 家,环比增加 12 家。
数据仓库满足多种使用场景需求。数据仓库采取 Shared-nothing 架构,在节点之间不共享 任何数据,此外 Snowflake 基于 Multi-cluster, shared data 的概念,将存储和计算分离,解 决了升级扩容时需要重新分配节点资源等痛点。在数据支持方面,Snowfalke 支持结构化和 半结构化数据的组合使用,可以接收 JSON、XML 或 Avro 格式的数据,并且支持嵌套和重 复数据类型,从而满足传统数据库、Hadoop 等半结构化使用场景的使用需求。
Snowflake 数据湖产品强调查询性能、数据管道集成可扩展、安全等。Snowflake 数据湖 产品在利用内置数据治理和安全性的同时,实现快速的数据访问,具备较好的查询性能, 并且对数据转换进行了良好的支持,通过云的模式为客户省去运维成本。在查询性能方面, 支持即时和几乎无限的可扩展性和并发性,此外,通过集成和可扩展的数据管道,实现简 化数据管道开发以优化性能,依靠管道实时可靠地扩展来处理繁重的数据工作量和可扩展 的数据转换;在安全方面,则提供了安全的数据协作功能。
Snowflake 服务各行业客户。以 hookit 为例,据公司官网,Snowflake 为 hookit 构建具有 可扩展性的多集群共享数据架构数据库,提高了 Hookit 的运营效率。查询效率提高 30 倍, 每天可自动评估社交帖子 5 亿条,数据仓库基础架构成本降低 40%,消除了 88%的内部支 持请求,提升了客户的运行效率,使客户能够专注于产品创新。
Databricks:Lakehouse 概念,帮助客户构建统一分析平台
Databricks 提出 Lakehouse(湖仓一体)概念。Lakehouse 由数据湖 Data Lakes 与数据 仓 Data Warehouses 融合而成。普通的数据湖在数据质量、一致性/隔离性、混合处理追加 读取等方面不如数据仓库。Lakehouse 兼容了数据仓库和数据湖的优势,在数据湖的低成 本存储上实现数据仓库的数据结构和管理功能。Lakehouse 功能包括事务支持、模式执行 和治理、商务智能 BI(Business Intelligence)支持、存储与计算分离、开放性、支持多种 数据类型、各种工作负载、端到端流。
Databricks 为客户提供统一分析平台以提升效率。Databricks 通过构建统一分析平台,1) 可以简化跨功能团队的分析工作流程,使用单一平台查询、调试和探索流式处理和批次数 据,以及构建和部署 ML 模型;2)打造交互式工作空间,促进与共享笔记本环境的合作, 使数据科学家能够快速实时在模型上进行重复;3)简化管理,使公司无需人工干预即可完 全自动化作业调度、监控和集群管理。 以 RB 为例,Databricks 为 RB 提供了一个统一的数据分析平台,该平台在数据科学和工程 领域营造了可扩展的协作环境,使数据团队能够更快地进行创新,并为业务提供 ML 驱动的 见解。据公司官网,该方案使得公司业务可支持量提高 10 倍,数据从 80TB 压缩到 2TB, 降低了运营成本,24*7 个任务的数据管道性能提高 2 倍。
国产厂商:传统厂商积淀深厚,新兴厂商聚焦新兴技术根据墨天轮发布的国产数据库流行度最新排行(2022 年 10 月),国产数据库排名前五名依 次为:TiDB、OceanBase、达梦、openGauss、PolarDB。我们选取传统数据库代表武汉 达梦、人大金仓,云数据库代表 OceanBase,GaussDB,新兴数据库代表巨杉数据库、TiDB、 星环科技KunDB作为范例,对国产数据库厂商的发展历程及现有产品体系进行了详细梳理。
达梦数据:背靠中国电子,主攻混合型数据库HTAP
背靠 CEC 中国电子,主攻混合型数据库 HTAP。武汉达梦成立于 2000 年,是中国电子信 息产业集团(CEC)旗下基础软件企业,专注于为客户提供以数据库软件、集群软件、云 计算、大数据平台为代表的全栈数据产品及解决方案,产品涵盖数据库、云计算、大数据 三大类。在数据库领域,武汉达梦主攻混合型数据库 HTAP,旨在用一种数据库模式处理客 户所有数据库需求,适合业务广、数据量大的综合型客户使用,目前已掌握数据管理与数 据分析领域的核心前沿技术,拥有全部源代码,具有完全自主知识产权。达梦数据库产品 目前已广泛应用于金融、电力、航空、通信、电子政务等 30 多个行业领域。
达梦主推透明分布式数据库(DMTDD)技术。达梦提出的 DMTDD 技术包括灵活横向扩展、 完整的 SQL 特性支持、多副本数据异地容灾的特点。结合了分布式数据库高可扩展、高可 用、高并发处理能力,并支持传统数据库开发接口和业务开发框架的技术架构。 (1)灵活横向扩展:DM8 TDD 采用计算存储分离的系统架构,实现计算、日志、存储三 层分离,可实现各层独立扩展、按需配置设备的特点。 (2)完整的 SQL 特性支持:支持多表连接查询、子查询、视图嵌套查询、递归表达式查 询等高级查询语法。提供存储过程、触发器、Package、序列等高级功能特性。 (3)多副本数据异地容灾:支持异地部署,通过将数据副本存储在不同的容灾域,实现数 据的异地容灾;日志服务本身具备副本与容灾能力,可在每个数据中心分别部署;数据库 服务在主机房按需部署,在检测到灾害时,即时启动。
新一代分布式数据库 DMDPC 具备极致的横向扩展能力。2022 年,达梦数据发布新一代分 布式数据库产品 DMDPC,DMDPC 数据库无状态计算节点,可随数据库并发压力负载按需 增加或减少节点,具备极致的横向扩展能力。同时 DMDPC 支持分布式事务(满足 ACID 规范)、数据分片的多副本容灾、多机并行协同计算,适用于 HTAP 场景。DMDPC 架构包 括三类节点:1)计划生成节点 SP:对外提供分布式数据库服务,也会分配执行带有汇总 性质以及不包含数据扫描操作的子任务;2)数据存储节点 BP:访问数据并进行简单的过 滤、投影以及分组操作;3)元数据服务器节点 MP:获取 SP、BP 节点的数据字典信息。
新一代分布式数据库 DMDPC 满足金融、电网、交通、工业互联网等多场景需求。1)金融 系统:DMDPC 基于改进的多主机 XA 协议、基于分布式环境的多版本并发控制等技术,保 证了分布式数据库对事务 ACID 规范的支持,满足金融核心业务系统对事物强一致性的需求; 2)智慧电网:支持同城异地多活,可有效支持电网在全国多地的部署联网;3)智慧交通: DMDPC 可实现计算资源的按需分配,弹性扩展、支持 GIS 地理信息存储;4)工业互联网: 支持100以上的分布式节点且采用多种安全加固措施,可支撑工业互联网的数据安全需求。
人大金仓:背靠 CETC 中国电子科技集团,老牌数据库
背靠 CETC 中国电子科技集团,是成立最早的国产数据库企业。人大金仓背靠 CETC 中国 电子科技集团,由中国人民大学最早一批从事数据库研究的专家于 1999 年发起创立,先后 承担了国家“863”、“核高基”等重大专项。人大金仓专注数据库领域 20 余年,具备出色 的数据库产品研发和服务能力,数据库产品广泛服务于电子政务、国防军工、能源、金融、 电信等 60 余个重点行业和关键领域,截至 2021 年,产品累计装机部署超百万套。
三大数据库产品各具优势,使用多类型应用场景。1)KES:KingbaseES 作为人大金仓的 通用型数据库产品,是一款面向大规模并发交易处理的企业级关系型数据库,严格支持 ACID 特性,具备迁移简单、高度容错、系统自治、兼容性好的突出优势,并提供可覆盖迁 移、开发及运维管理全使用周期的智能便捷工具;2)KADB:KingbaseAnalyticsDB 采用 shared-nothing 分布式架构,是一款具有高性能、高扩展性能力的 MPP 数据库产品,适用 于数据仓库、决策支持、高级分析等分析类应用场景;3)KSOne :是人大金仓自主研发 的 HTAP 分布式数据库,拥有高可靠,高安全,弹性伸缩,高效备份恢复等关键能力,可 以为海量数据、海量并发用户、高负载压力、高连续性要求的业务系统提供强有力支撑。
人大金仓致力于为政务、能源、国防、金融、电信等国家企事业单位提供数据解决方案。 人大金仓作为国产数据库领军企业,积极推动与产业链上下游伙伴产品的兼容适配,涵盖 芯片、操作系统、云平台、中间件以及上层软件应用,具备来自上下游 1,300 多家公司超 4,000 份兼容认证,全面适配国家专用项目相关产品。人大金仓在部署模式上提供线下部署 与线上云适配两种形式,云联合方案覆盖主流云厂商。金仓数据库产品广泛服务于电子政 务、国防军工、能源、运营商、金融等 60 余个关键行业,涵盖国家电网、南方电网、中国 人民银行、中国银行、中国邮政、中国移动等重点企事业单位。
阿里 OceanBase:金融级分布式关系数据库,核心代码开源
发端于阿里内部,2021 年正式开源。OceanBase 是由蚂蚁金服、阿里巴巴完全自主研发 的分布式关系型数据库,始创于 2010 年,应用于支付宝全部核心业务以及阿里巴巴淘宝业 务,从 2017 年开始,开始服务外部客户。2020 年 6 月 8 日,蚂蚁集团将自研数据库产品 OceanBase 独立进行公司化运作,同年 9 月,中国工商银行开始采用蚂蚁自研数据库 OceanBase,其对公(法人)理财系统已完成从大型主机到 OceanBase 分布式架构的改 造。2021 年 6 月,OceanBase3.0 版本发布并正式开源;2022 年 8 月,OceanBase4.0 正 式发布,成为业内首个单机分布式一体化数据库。
OceanBase 是金融级分布式关系数据库,具备在线水平扩展能力。OceanBase 是一款针 对特殊巨型复杂网络、超大实时更新数据场景的分布式实时数据库产品,拥有简单易用、 性能高的特点。该产品定位是一款分布式关系数据库,适合于金融、证券等涉及交易、支 付和账务等对高可用、强一致要求较高,同时对性能、成本和扩展性有需求的金融属性场 景,以及各种关系型结构化存储的 OLTP 应用。
OceanBase 产品体系涵盖四大类:1)分布式数据库:包括社区版、企业版、公有云三大 版本,社区版可免费下载,适用于中小企业开发者,企业版适用于追求更高扩展能力、稳 定性的中大型企业,公有云版适用于阿里云、AWS 等全球主流公有云场景;2)图数据库: OceanBase TuGraph 构建了包含图存储、图计算、图学习、图研发平台的完善的图技术体 系,适用于金融、工业、政务等业务场景;3)时序数据库:OceanBase CeresDB 基于 OceanBase 分布式存储引擎,用来存储和管理时间序列数据,适用于物联网 IoT、运维监 控等业务场景;4)工具体系:涵盖数据库评估、迁移、开发、运维等工具。
OceanBase 客户主要集中在银行、保险证券、政企、互联网。OceanBase 最早应用于阿 里集团的淘宝、网商银行、支付宝等业务场景,实现了在互联网、金融交易等业务上的产 品沉淀,目前下游客户主要集中在银行、保险、证券、政企、互联网等领域。以中国工商 银行为例,面对工商银行的 5 级容灾要求,OceanBase 结合不同的副本属性组合实现“数 据库同城双活、异地 RPO=0 的两地三中心方案”的容灾部署,实现了两地三中心的城市级 容灾,解决了容灾标准高、建设成本高、备机房资源浪费等问题,满足 7x24 小时服务要求, 数据库服务器资源利用率达到 75%,降低了整体的投入成本。
华为 GaussDB:AI 原生数据库,拥抱开源生态
AI 原生&支持异构计算。华为 GaussDB 是一个企业级 AI-Native 分布式数据库,可为超大 规模数据管理提供高性价比的通用计算平台,也用于支撑各类数据仓库系统、BI 系统和决 策支持系统,为上层应用的决策分析提供服务。GaussDB 采用 MPP(Massive Parallel Processing))架构,支持行存储与列存储,提供 PB 级别数据量的处理能力。GaussDB 是 全球首款 AI-Native 数据库,能够同时支持 X86、ARM、GPU、NPU 等异构计算,布局全 球 7 大区域,服务金融、政企、互联网、游戏、汽车等行业标杆客户超 2,500 家。
GaussDB 包含三大产品线:关系型数据库、非关系数据库、数据库生态工具/中间件。1) 关系型数据库:包括华为自研的云数据库 GaussDB(for openGauss)、GaussDB(for MySQL)以及非自研的适用于 MySQL、PostergreSQL、SQL Server 的云数据库 RDS;2) 非关系型数据库:包括华为自研的 GaussDB(for Mongo)、GaussDB(for Cassandra)、 GaussDB(for Influx)、GaussDB(for Redis)以及非自研的文档数据库服务 DDS;3)数 据库生态工具/中间件:包括数据复制服务 DRS、管理服务 DAS、数据库和应用迁移 UGO 以及分布式数据库中间件 DDM。
openGauss 拥抱开源。2019 年 9 月,华为宣布开源其 GaussDB 数据库,开源后的产品 命名为 openGauss,2020 年 6 月 openGauss 源代码正式开放并发布 1.0.0 版本,同年 7 月社区关键组织开始运行。openGauss 内核源自 PostgreSQL,代码自研占比超过 74%, 截至 2022 年 6 月开源社区用户超 64 万,贡献者约 3,000 人。基于 openGauss 开放生态, 华为进一步推出分布式云数据库 GaussDB(for openGauss),该产品具备企业级复杂事务 混合负载能力,同时支持分布式事务强一致、同城跨 AZ 部署、数据 0 丢失,支持 1000 的计算节点扩展能力、4PB 海量存储,拥有云上高可用、高可靠、高安全、弹性伸缩、一 键部署等关键能力,现已广泛适用于金融、政企、互联网等关键场景。
GaussDB 适应互联网、金融、游戏、汽车等多业务场景。GaussDB(for openGauss)作 为金融级分布式数据库,具有高性能、高弹性、AI-Native 自治的典型特性,广泛应用于金 融业务场景;GaussDB(for MySQL)数据库提供百万级 QPS,性能最高可以达到 MySQL 社区版本的 7 倍、GaussDB(for Mongo) 性能最高可以达到 MongoDB 社区版本的 3 倍, 满足游戏业务场景下弹性伸缩、一键回档、快速开服的业务需求;综合应用 RDS 数据库、 DDS 文档型数据库、数据复制服务 DRS、分布式数据库中间件 DDM 等产品,可构建读写 分离的分布式架构,为互联网行业应用提供分布式解决方案。
巨杉数据库:自研金融级分布式数据库的独立厂商
专注分布式数据库技术研发的自研数据库独立厂商。巨杉数据库成立于 2012 年,是一家专 注分布式数据库技术研发的自研国产基础软件厂商,公司自成立以来,专注数据库产品研 发,坚持从零开始打造原生分布式数据库引擎,经过多年积累,现已推出分布式数据库 DB (实时数据湖)、内容管理平台 CM(多模数据湖)、湖仓融合平台 DP(湖仓一体)三大产 品线,广泛应用于金融、政府、能源、电信、交通等领域,企业用户总数超过 1,000 家。
从商用首发时间看,巨杉数据库是国内最早进行商业化布局的分布式数据库。2012 年, SequoiaDB 巨杉数据库作为独立数据库公司开始研发,进行原生分布式架构布局。2013 年 SequoiaDB v1.0 产品化正式商用并进军企业级领域,开始为客户提供产品及技术服务支持。 自研内核具有领先性,支持跨结构化、半结构化、非结构化的多模数据处理。巨杉数据库 坚持自主打造原生分布式数据库引擎,专注数据库技术研发,聚焦金融赛道,致力于以金 融行业为核心,打造安全可靠、高性能,适合全行业通用的分布式数据库产品。巨杉分布 式数据库 SequoiaDB 基于巨杉自研的原生分布式内核,研发出引擎级多模及 STP 逻辑时 钟协议分布式数据库技术,能够实现分布式交易与 ACID 的完全兼容,同时架构及功能特性 与传统数据库完全兼容,提供跨引擎事务支持和一致性保障。SequoiaDB 支持多种级别的 容灾部署形态,如同城双中心、同城三中心、两地三中心、三地五中心等,独创四级熔断 容灾安全保护机制,充分保证数据安全,满足核心交易业务的严苛要求。
湖仓一体平台为数据联通提供解决方案。巨杉推出的湖仓融合平台 SequoiaDP 以分布式数 据库 SequoiaDB、内容管理平台 SequoiaCM 为基础,打破了数据湖与数据仓库割裂的体 系,可以为上层应用提供“一数一源”的数据基础设施。湖仓一体架构除了具备多模能力, 兼容多种结构化数据、半结构化数据和非结构化对象数据引擎以外,还可以提供包括流式 计算、高性能列存分析引擎、跨引擎数据 ACID 一致性等能力,支持 Tableau、Power BI、 帆软、SmartBI 等国内外分析工具,解决了独立建设、管理的数据库数据互不相通的问题。
助力数据库信创生态、支撑体系建设。巨杉数据库积极参与信创生态建设,根据 2021 年信 创产业技术与应用大会,截至 2021 年 3 月,巨杉已经与鲲鹏、飞腾、统信、银河麒麟等产 品完成兼容认证,合作伙伴总数超 50 家,为企业客户打开丰富的上下游产品生态。得益于 引擎级多模的高度兼容,巨杉数据库现已与近百家企业的 200 产品完成了兼容测试与认证, 产品对接时间平均降低到 15 个工作日,为企业客户打开丰富的上下游生态。 2019 年,巨杉数据库搭建“巨杉大学”认证与学习体系,讲师团队由巨杉数据库官方的数 据库架构师、资深分布式技术专家以及开源社区技术大咖共同组成。截至 2021 年 6 月,已 有超 180 家金融机构,30 余家知名技术服务开发商参加巨杉大学计划。截至 2020 年底, 经过短短 1 年的发展,巨杉大学已认证工程师超过 1 万人,网站用户注册数量超过 5 万人, 为分布式技术业界发展提供坚实的人才积淀。
PingCAP TiDB:开源分布式关系型数据库
TiDB 为 PingCAP 自主研发的一栈式实时 HTAP 数据库。PingCAP 公司成立于 2015 年, 借鉴 Google Spanner 及 F1 论文的实现,TiDB 在 Github 上开源,从仅有 SQL 层及 KV 层 的 beta 版本到现在已经衍生出庞大家族的 6.0 版本,始终围绕着为用户提供一栈式 OLTP、 OLAP、HTAP 解决方案的目标演进。在内核设计上,TiDB 分布式数据库将整体架构拆分 成了多个模块,各模块之间互相通信,组成完整的 TiDB 系统。与传统的单机数据库相比, TiDB 的纯分布式架构拥有良好的扩展性且具有丰富的工具链生态,覆盖数据迁移、同步、 备份等多种场景。2022 年,TiDB Cloud 正式商用,TiDB 支持本地和云部署两种方式。
TiDB 适应多应用场景。依托纯分布式架构及开源社区,TiDB 持续扩展出丰富的应用场景: 1)对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高的金融场景:TiDB 采 用多副本 Multi-Raft 协议的方式将数据调度到不同的机房、机架、机器,当部分机器出现 故障时系统可自动进行切换; 2)对存储容量、可扩展性、并发要求较高的海量数据及高并发的 OLTP 场景:TiDB 采用 计算、存储分离的架构,可对计算、存储分别进行扩容和缩容,计算最大支持 512 节点, 每个节点最大支持 1000 并发,集群容量最大支持 PB 级别; 3)Real-time HTAP 场景:TiDB 在 4.0 版本中引入列存储引擎 TiFlash,结合行存储引擎 TiKV 构建真正的 HTAP 数据库,在增加少量存储成本的情况下,可以同一个系统中做联机 交易处理、实时数据分析,极大地节省企业的成本;
4)数据汇聚、二次加工处理的场景:TiDB 通过 ETL 工具或者 TiDB 的同步工具将数据同 步到 TiDB,在 TiDB 中直接生成报表,便于将分散在不同系统中的数据汇总,以便决策层 了解公司的整体业务状况及时做出决策。 “开源社区”助力“开源商业化”。PingCAP 拥有丰富的开源社区活动,形成开源社区和自 身研发的有效协同。通过开源及免费策略,快速扩展开发者及技术粉丝用户群体,实现未 来商业变现机会的长期积累。据 GitHub,截至 2022 年 8 月,TiDB 项目在 GitHub 上已 总计获得超 32,000 颗星,超 1,800 位开源代码贡献者,高度活跃的开源社区为 TiDB 产 品发展带来了正向反馈闭环。TiDB 已广泛应用于互联网、游戏、金融、政府等多领域。
星环科技:专注企业级大数据服务,布局分布式数据库
布局分布式数据库,搭建数据服务闭环。星环科技成立于 2013 年,专注于企业级容器云计 算、大数据和人工智能核心平台的研发和服务,目前已形成包括大数据与云基础平台(大 数据基础平台 TDH、数据云平台 TDC)、分布式关系型数据库(ArgoDB、KunDB)、数据 开发与智能分析工具(大数据开发工具 TDS、智能分析工具 Sophon)在内的产品体系。 ArgoDB 与 KunDB 分别为分析型、交易型数据库产品:1)ArgoDB:是一款具备多模型、 联邦等特性的高性能分析型分布式数据库,于 2019 年成为全球第四个通过 TPC-DS 基准 测试并经过 TPC 官方审计的数据库产品;2)KunDB:是一款兼容 SQL 标准语言的交易 型分布式数据库,可支持高并发交易场景的核心业务。
ArgoDB 满足数据多模、联邦计算需求。与传统的 MPP 数据库相比,ArgoDB 具有存算解 耦结构,存储和计算独立按需扩缩容,具备更强的可扩展性、一致性、平滑适配云原生架 构等优势。2022 年最新发布的 ArgoDB 5.0 推出新一代的向量化计算引擎和多模存储引擎, 分析能力达到了同类数据库产品 2~10 倍,同时可提供多模分析,拥有实时数据处理、AETP 混合负载、联邦计算、隐私计算等能力,可一站式满足湖仓集一体化建设需求。
KunDB 支持高并发交易场景的核心业务。KunDB 具有业内领先的事务处理性能,SQL 兼 容性以及最新的分布式查询优化技术,支持复杂查询且性能是 MySQL 的 10 倍以上,充分 满足高并发、大数据量的交易型业务场景。升级后 KunDB 3.0 高度兼容 Oracle 语法及 PL/SQL,基于升级的 TSO 全新分布式事务架构,性能领先主流开源 NewSQL 5 倍以上, 分布式查询优化和向量化执行引擎技术支持 TPCH 复杂分析,并提供一体化实时 HTAP, 支持一致性备份恢复及容灾,全面助力数据库国产化升级。
星环科技数据库服务能源、金融、政府、交通等多业务场景。ArgoDB 主要用于构建离线数 据仓库、实时数据仓库、数据集市等数据分析系统,适用于构建能源、物联网、政务等大 数据平台的业务场景。KunDB 适用于对数据具有高并发读写需求,同时需要 ACID 保证的 交易型场景,如金融、电信、能源等核心业务系统;也适用于对数据库有高并发和大容量 存储需求的场景,如物联网、日志存储等系统。此外,公司结合 KunDB 和 ArgoDB 打造了 一体化实时 AETP技术(分析增强型交易库),可以同时支撑交易与分析混合型的业务场景。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com