7月28日-30日,由北京市人民政府、国家发展和改革委员会、工业和信息化部、商务部、国家互联网信息办公室、中国科学技术协会共同主办的2022全球数字经济大会在北京市召开。大会颁布了数字经济“创新引领成果”共15项和“产业创新成果”共45项。按照“赛道分类、同类选优、一企一项”的原则,天云数据Hubble数据库被授予“数字经济产业创新成果”,国产HTAP数据库能力获得大会权威认可。

 

这是大会首次举办数字经济新品成果征集评选和发布活动,重点推出首创产品和首发服务等企业新品。来自北京、上海、深圳、南京、杭州、青岛等国内15个省市、数百家企业参与申报,汇聚了20多个数字经济细分赛道的新产品和新场景。经过公开征集、产品分类、专家评议、复核验证等程序,经来自国家部委、高等院校、投资机构、新技术新产品测评机构等专家评议打分,最终推出关键科技攻关突破、开创产业市场增量、引领数字经济未来的标杆成果。

 

在本次全球数字经济大会上,天云数据CEO雷涛出席了数据要素峰会,就“构建数据基础制度,促进数字经济发展”发表一线企业实践见解:“数字经济让人类经历第二次文艺复兴,祛魅去神秘化,是—次人类知觉唤醒。今天,从数据中学习生成知识,面向答案的学习将洗牌我们习以为常的经验、规则、流程,所有的商业流程将被解构和重构。”

 

 

为什么HTAP数据库能屡获国家级重点项目/活动力荐?

数据库市场有传统数据库、大规模事务处理的TP数据库、大规模分析处理的AP数据库。互联网的消费化,越来越强调体验的实时性,交易和分析场景必须一致,这对传统数据库的应用来说是一次巨大的升级。

那么在 HTAP出现之前,应对以上的刚需市场是怎么做的?把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase 和 ES 来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,传统 MPP 结构根本没法满足刚才说的这种服务价值,要实现手机端对大屏小屏化的趋势,还要配套数百个节点,所以现在市场上的湖仓一体本质上还是一个集成方案,需要在传统 MPP 数据库和开源 hadoop 之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口,数据的不及时性、不一致性。

这不是简单的替代逻辑,是产业链升级逻辑,面向新兴的大数据领域,新兴的数据库依然扮演着重要角色,不仅仅可以对传统数据库 Oracle 做碾压替代,同时还能够胜任大数据领域的刚需。而在整个流批一体的市场需求上,Hubble数据库的自身定位就具有天然优势,因此能够作为大数据产品领域里的HTAP数据库荣获2022数字经济大会“数字经济产业创新成果”,也作为HTAP国产数据库入选工信部全国试点。

 

国产原创Hubble数据库提供统一支撑事务处理和工具负载分析

Google File System、Google BigTable、Google MapReduce——这三驾马车是大数据平台Hadoop技术的基石,不仅支撑了新一代分布式架构体系,而且实现了海量数据高效存储和快速计算。2012年,Google发表了一篇论文——Spanner: Google’s Globally-Distributed Database,将同时支持大数据量下做事务交易的数据库提取出来,既支持TP的操作,也可以在上面做一些分析类的操作。在Google提出Spanner架构的基础上,2014年,Gartner对HTAP进行了正式定义,这便是混布数据库的产生缘起。

目前,数据库基本分为两大流派,一个是非关系型(NoSQL)数据库,一般使用KV技术,主要用于用户画像、业务报表等海量数据挖掘的AP场景。另一个是关系型数据库(SQL),针对个别记录增、删、改、查的速度很快,一般用于联机交易的TP场景。简而言之,TP库处理速度快,AP库处理数据量级高。之前,AP与TP的应用场景井水不犯河水,相互之间没有太多交集,然而随着数字化转型的不断深入,直播带货这样的新场景不断涌现,在直播过程中既需要处理联机交易,又需要对客户进行实时画像,而传统单一TP或者AP数据库难以应对这样的混合式场景。近几年来,某些国产混合负载数据库以行列混存方式,打破了AP与TP两种场景之间的鸿沟。

如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。

全球数字经济大会将以此次集中展示发布数字经济领域创新成果为起点,完善构建助力数字创新成果转化、应用、合作的机制。本次入选,说明Hubble数据库的HTAP获得已经突破关键科技攻关、开创产业市场增量、可以成为引领数字经济未来的标杆产品。未来,天云数据会持续探索深耕,利用一线企业的实战经验,不断深化服务,为企业助力,为产业赋能,促进数字生态共享共建。