本月,中国信息通信研究院第十三批数据库产品基础能力、性能和稳定性评审会结束。天云数据Hubble数据库通过分布式分析型数据库产品能力评测。今年六月,Hubble数据库以优异的成绩通过信通院分布式事务数据库能力评测

 


信通院是国内首个大数据产品评测体系,已成为大数据行业产品研发和用户选型的重要参考。连续通过信通院分布式事务数据库能力评测和分布式分析型数据库产品能力评测,这无疑印证了Hubble数据库的HTAP能力

 

OLTP和OLAP分离的传统解决方案可行吗?

 

传统的解决方案一般会形成应用、数据库、分析平台的三层结构,数据需要在这三层之间传输,尤其是最后这两层之间的数据传输,数据量大、延迟高、产生数据冗余等等。尤其在分析任务有所变更的情况下,代价更大。

 

然而当今业务日趋争分夺秒,无论是及时发现模式、标记核心程度、防止欺诈行为,还是可以高效地为使用者提供准确及时的推荐、进行交叉营销和消费升级,都期待可以突破T+1日的桎梏,走向更加实时的响应。

 

为何要使用事务和分析处理一体的HTAP数据库?

 

<在互联网浪潮出现之前,企业的数据量普遍不大,特别是核心的业务数据,通常一个单机的数据库就可以保存。

 

随着互联网的发展,企业的业务数据量不断增多,单机数据库的容量限制制约了其在海量数据场景下的使用。在实际应用中OLTP、OLAP 在技术上分道扬镳,在很多企业架构中,这两类任务处理由不同团队完成。

 

当物联网大数据应用不断深入,催生面向数据分析的HTAP架构,如何能够在一份数据上同时支撑OLTP运行和OLAP场景,避免在传统架构中在线与离线数据库之间大量的数据交互?因此,能够统一支撑事物处理和工具负载分析的数据库成为新需求。

 

要成为真正的事务数据库(用于OLTP),它应该支持ACID事务、并发性和很高的每秒查询量(QPS)。如果事务包括数据库更新,则必须做到实时更新。

 

而OLAP数据库虽然具有计算大规模数据的批量计算的能力,但缺少将计算结果直接写回数据源的能力,此外还要考虑导入分析结果写回的时间成本,和相应的复杂流程造成了延迟。

 

极少有一款数据库能同时满足上述要求,这需要混合事务/分析处理(HTAP)是同一款数据库。

 

目前,实现HTAP数据库不多,坚持原创的天云数据是一家。

 

天云数据提供什么性能的HTAP数据库?

 

在国内纷繁复杂的开源数据库封装市场中,天云数据Hubble 无疑是一支原创的清流。原创数据库的开发重点在IO存储、线程调度以及代价解析等核心栈上。天云数据依靠计算血缘优势,以分布式NoSQL起步,直接跨越了物理计算资源的集群整合。

 

近些年,基于Raft分布式MVCC快照一致性等开放协议标准,原创开发重点开始转向HTAP混布,从物理资源扩展的集群版DB再到OLTP/OLAP计算融合的混布版DB,这对原创技术提出了更大的挑战。

 

如何能够在同一数据库实例下,同时支撑高并发低延迟的OLTP事务,和海量密集计算的OLAP分析作业?

 

天云数据凭借其多年来在大数据分布式计算领域的经验以及多家大型银行的实践最终通过引入损失函数动态评价SQL逻辑计划的执行成本、CBO代价优化解析、Sharding切片线程级别物理资源匹配不同计算负载、TP和AP双引擎调度执行、随机和序列化IO对存储的访问、依靠数据副本机制同时支持KV键值存储和列存存储交出了完美的答案。这意味着一张表可以同时支持行存和列存,真正的融合了存储结构,避免了在交易和分析数据库间每夜ETL数据搬家的繁琐运维工作和数据冗余。

 

天云数据HTAP数据库融合了Oracle交易和MPP数仓的数据库替代升级,在新型大数据环境中扮演了越来越重要的角色。

  • 借助优化便捷SQL服务替代ES+HBase方案,节省昂贵Hadoop开发成本;
  • 高并发实时流升级,完成了Flink不能处理更多事实表的金融反欺诈和复杂权益服务;
  • 比Impala更快的多表关联AP计算,性能是 Impala 的231%倍;
  • 比Presto更高可用的数据pipeline服务。

 

在开放的大数据生态中,Hubble完全可以作为计算组件与开源组件协同工作,嵌入并服务主流数据中台环境。
天云Hubble数据库在三家大型股份银行、两家互联网银行和多家城商行部署商用,替代Oracle支撑银行核心A类交易系统56种交易; 在军政公安领域支撑万亿记录规模的多表关联模糊查询计算。

 

HTAP数据库Hubble在某银行的“交易+分析”提速之路

近年来,混布数据库在银行承载了很大使命:一方面,满足海量数据强交易场景;另一方面,权益类服务也和其他服务一样,需要计时实时处理。

日前,某股份制商业银行发布“大数据平台HTAP集群优化项目”,天云数据国产自研的混布Hubble数据库中标。

细数下来,今年是天云数据为该股份制商业银行提供服务的第三个年头。在这三年里,天云数据Hubble数据库先后为其提供了贷中实时监控反欺诈、实时监控人工审查的优化、实时存款余额、指标管理平台功能优化等服务。

该行大数据平台建设之初,主要侧重为离线任务提供算力。随着业务量的不断增长,传统应用系统架构无法满足大数据量场景的业务流程迭代。如何提升客户体验及同业竞争力,该行提出三大需求:

  • 及时查看各分支行的目标进度;
  • 每天定时同步指标清单及相关数据,支持实时营销的业务特性;
  • 建立一套数据实时分析服务系统,对风险进行快速反应、联动管控。

Hubble数据库提供服务后:

  • 实时反欺诈:实现了每天千万级交易数据数据实时并发入库;接近100个复杂欺诈规则分析,毫秒返回分析结果单。
  • 实时监控人工审查的优化:复杂类查询平均响应时间为100ms内,数据实时接入平均耗时3.12ms过。
  • 实时存款余额查询功能:对一般复杂的查询,百毫秒级的查询响应。
  • 指标管理平台功能优化:将衍生标签接入持续集成,实现了与指标加工、应用加工同样的快速更新迭代。

此外,完成实时数仓建设和实时特征工程表达。

 

互联网带来的是迅猛的数据资源爆发。数据是流通的副产品,最早的属性是交易数据。互联网驱动行为数据的爆发,行为数据需要靠高并发、高扩展、更松耦合的高服务能力来支撑完成。传统数据库难以支撑。在技术新世界里面,我们很少看到Google宕机,因为它不是靠高可用性来保证,而是靠整个服务的容错。行为数据中诞生了新的架构,催生分布式架构。能够统一支撑事物处理和工具负载分析的数据库成为必须刚需。

 

Hubble数据库之所以能实现是在设计之初就考虑了向上兼容性以及场景的复用,以抽象存储层、抽象计算层、抽象资源管理作为基础支撑,通过Hubble AP、TP的混合存储以及混合计算引擎,来支撑上层逻辑计划成为了可能。我们知道,业务场景分为两种模式,面向联机事务交易(OLTP)和面向联机分析(OLAP)。不管是关系型数据库还是图数据库都可以分为上面的两层业务逻辑。如果TP、AP业务在场景上是统一的,那么数据存储上就可以向上做兼容,满足同样的场景。未来,Hubble数据库将继续深耕技术,成为各行各业基础设施的支柱。