近日,中国信息通信研究院(简称“中国信通院”)公布了第十五批“可信数据库”评测结果。天云数据Hubble数据库凭借过硬的技术实力顺利通过“HTAP数据库基础能力”评测。

 

“可信数据库”系列评估评测是中国信通院自2015年推出的权威评估评测体系,覆盖范围包括数据库产品及周边工具、数据库服务商和应用侧等。本次评审会专家由来自中国信通院、中国农业银行、邮储银行、光大银行、华夏银行、中移信息、中国联通等单位的专家组成,评审环节包括产品资料审核、测试报告审核、质询与答疑、集中评议。在本次HTAP数据库基础能力评测中,天云数据Hubble数据库经过评审专家严格把关,顺利通过各项环节的严苛考验,技术实力备受认可,成为三家HTAP数据库基础能力测评通过厂商之一。

为何要使用事务和分析处理一体的HTAP数据库?

在互联网浪潮出现之前,企业的数据量普遍不大,特别是核心的业务数据,通常一个单机的数据库就可以保存。随着互联网的发展,企业的业务数据量不断增多,单机数据库的容量限制制约了其在海量数据场景下的使用。在实际应用中OLTP、OLAP 在技术上分道扬镳,在很多企业架构中,这两类任务处理由不同团队完成。

互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型。交易、分析的两阶段体验,以及大屏小屏化个性化服务下沉。如何能够在一份数据上同时支撑OLTP运行和OLAP场景,避免在传统架构中在线与离线数据库之间大量的数据交互?基于创新的计算存储框架,HTAP数据库能够在一份数据上同时支撑OLTP场景和OLAP场景。

要成为真正的事务数据库(用于OLTP),它应该支持ACID事务、并发性和很高的每秒查询量(QPS)。如果事务包括数据库更新,则必须做到实时更新。而OLAP数据库虽然具有计算大规模数据的批量计算的能力,但缺少将计算结果直接写回数据源的能力,此外还要考虑导入分析结果写回的时间成本,和相应的复杂流程造成了延迟。极少有一款数据库能同时满足上述要求,这需要混合事务/分析处理(HTAP)是同一款数据库。目前,实现HTAP数据库不多,坚持原创的天云数据是一家。

如果没有HTAP数据库会出现什么问题?

数据库市场有传统数据库、大规模事务处理的TP数据库、大规模分析处理的AP数据库。互联网的消费化,越来越强调体验的实时性,交易和分析场景必须一致,这对传统数据库的应用来说是一次巨大的升级。

那么在HTAP出现之前,应对以上的刚需市场是怎么做的?把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,传统 MPP 结构根本没法满足刚才说的这种服务价值,要实现手机端对大屏小屏化的趋势,还要配套数百个节点,所以现在市场上的湖仓一体本质上还是一个集成方案,需要在传统MPP数据库和开源hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口,数据的不及时性、不一致性。

这不是简单的替代逻辑,是产业链升级逻辑。面向新兴的大数据领域,新兴的数据库依然扮演着重要角色,不仅仅可以对传统数据库Oracle做碾压替代,同时还能够胜任大数据领域的刚需。而在整个流批一体的市场需求上,Hubble数据库的自身定位就具有天然优势。

国产原创Hubble数据库,提供统一支撑事务处理和工具负载分析。如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。

HTAP技术之后数据库的技术方向应该是什么?

历史上很多重大制度或秩序,都由技术创新推动。例如威尼斯商人建立的复式记帐法,在现金流之上建立了现代社会“资本”这—重要要素;荷兰海上马车夫设计的Loca可投资的独立船舱单元, 奠定了现代公司股权治理结构。数据, 作为土地,劳动力,资本之后的第四要素,一定有科技要素的配套作为制度保障。数据作为创新生产要素,必然配套制度创新。

互联网带来了产销合一,越来越多的数据并不是面向宏观趋势的供给,做报表、做管理驾驶舱、做仪表盘、上大屏,供给领导决策分析。互联网带来了个性化服务,淘宝推荐引擎、千人千面个性化结果,他要跑的是贝业斯网络、是协同过滤算法,是这些算法再替代SQL的可视化服务。

所以怎么能够在同一个计算的库体上,面向机器学习的操作面向新兴的数据驱动业务的算法?AI内生数据库是一个必然要走的路径。尤其是应对产业互联网,第三波的机器数据生产,更多的物联网的机器生产、传感器,他的机器数据物理意义人理解越来越难,比如油压、温度、结蜡、工况都是一些科学属性。这些数据它很难用决策,因为它对人类来说需要更强的科学知识才能去理解。所以将会是机器生产数据,机器消费数据。

今天IT向DT的迁移,流程驱动转向数据驱动,并不仅仅是一个概念的迭代。而更多的是,很多基础的核心组件发生一些变化。这些组件从严谨的执行人类指令的这些系统架构、代码程序,转向了由数据驱动的供给和消费。很多我们耳熟能详的ETL、MDM数据处理的逻辑渐渐被洗牌掉。我们开始用一种新兴的‘不动Data’而‘动Code(代码)’的方式,来完成大规模数据在分布式环境下的融合、处理和计算。