为助力北京国际科技创新中心建设,贯彻落实北京市“十四五”时期高精尖产业发展规划,引导和支持企业加强创新能力,培育和引导企业技术中心建设,北京市经济和信息化局组织开展了2022年度第一批北京市市级企业技术中心的创建工作,经过严格的核查、评审,天云数据等96家企业进入“2022年度第一批北京市市级企业技术中心”名单。

 

为什么Hubble数据库屡获国家级背书?

本次创建工作重点支持领域包括两个国际引领支柱产业;“北京智造”四个特色优势产业;“北京服务”四个创新链接产业;未来前沿产业,是依据《北京市“十四五”时期高精尖产业发展规划》提出的“2441”高精尖产业体系,天云数据入选是以新一代信息技术为基础利用大数据提供科技服务。

无独有偶,今年工业和信息化部办公厅关于组织开展2022年大数据产业发展试点示范项目,天云数据Hubble数据库作为国产HTAP数据库入选,获得国家级重点项目推荐。

从数据库的发展历程来看:IOE体系数据库利用位于系统中心的服务器统一管理所有的共享资源,并处理来自用户的请求,是面向数据结构的融合;分布式数据库是对IOE体系数据库的优化升级,是面向物理资源的融合;HTAP数据库满足互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,是面向IO资源的融合。

互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型。交易、分析的两阶段体验,以及大屏小屏化个性化服务下沉。基于创新的计算存储框架,HTAP数据库能够在一份数据上同时支撑OLTP场景和OLAP场景。

那么在HTAP出现之前,应对以上的刚需市场是怎么做的?把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,传统 MPP 结构根本没法满足刚才说的这种服务价值,要实现手机端对大屏小屏化的趋势,还要配套数百个节点,所以现在市场上的湖仓一体本质上还是一个集成方案,需要在传统MPP数据库和开源hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口,数据的不及时性、不一致性。

这不是简单的替代逻辑,是产业链升级逻辑。面向新兴的大数据领域,新兴的数据库依然扮演着重要角色,不仅仅可以对传统数据库Oracle做碾压替代,同时还能够胜任大数据领域的刚需。而在整个流批一体的市场需求上,Hubble数据库的自身定位就具有天然优势。

国产原创Hubble数据库,提供统一支撑事务处理和工具负载分析。如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。

Hubble数据库10年前实现去O,用硬核科技服务产业变革

“IOE”架构成型的根本,在于先入为主以量取胜。

12年前,中国技术人就已经开始了“去IOE”的历史工程。

2010年,天云数据在云基地就开始对分布式数据和机器学习进行产品研发,通过多年的摸索,从最开始的计算层、调度层、存储层最后到解析层,自下而上,在没有行业经验可借鉴的情况下,最终走向了自研数据库的道路,打造了代际更迭的无第三方开源代码的HTAP数据库Hubble。

实践中,在某股份制商业银行A类核心系统国产化成功替换Oracle一体机。对比Oracle,单表3亿记录数量级下的用户业务场景性能突破Oracle 800并发瓶颈,1600 并发下依然保持线性稳定服务。同等并发下,平均响应时间和最大响应时间均优于Oracle,具有稳定的线性横向扩展能力。

项目时,该银行核心系统只能够查询13个月以内的数据,对于一年以前的数据,无法实施在线获取,只能通过备份库导出的方式,耗时耗力。随着业务的逐渐增大,客户对于历史数据查询的需求变高,所以迫切需要成立历史数据在线查询系统。在此背景下该银行验证了Oracle一体机与Hubble数据库,综合性能Hubble完胜Oracle一体机,最终选择用Hubble数据库。

并且实现了:

  • 历史数据查询系统将近50只业务交易,每日交易量达到15W笔,成功的为核心系统减负近50%的交易压力。
  • 历史数据查询系统的数据是全行内数据存储最长的系统,对接各类画像系统,通过历史数据,分析用户的行为轨迹。
  • 历史数据查询系统的各类文件导出,如excel、pdf、txt,文件为监管查询提供了极大方便,不用再去找备份库进行数据恢复。

写在最后:

历史上很多重大制度或秩序,都由技术创新推动。例如威尼斯商人建立的复式记帐法,在现金流之上建立了现代社会“资本”这—重要要素;荷兰海上马车夫设计的Loca可投资的独立船舱单元, 奠定了现代公司股权治理结构。数据, 作为土地,劳动力,资本之后的第四要素,一定有科技要素的配套作为制度保障。数据作为创新生产要素,必然配套制度创新。

AI原生数据库通过更多的逻辑计划丰富数据消费能力和形态,是面向服务的融合,Hubble数据库不仅支持SQL,还可以支持 Graph、ML、NLP2SQL、体素的计算。当AI的数据消费替代了可视化数据消费成为主流,数据资料的生产工具必须是AI-Native数据库。可以充分地释放数据库的计算资源,最大化释放数据要素的价值,进一步突破行业天花板,形成更大产业规模。