天云大数据研发总监乔旺龙：百万原生代码规模HTAP数据库Hubble如何实现混合交易分析处理

2018年6月13日，天云大数据产品发布暨渠道招募会在京举行。本次论坛以“AI浪潮下，如何参与DT转型”为主题，来自投资方、第三方独立国际咨询公司、媒体等十余位业内重量级嘉宾进行了精彩分享，数百名科技、金融、能源等领域从业者、投资人参会。

如下是天云大数据

研发总监乔旺龙的演讲实录

研发总监乔旺龙

首先来讲Hubble是什么？它是一个HTAP数据库。我今天将从发展、产品特性和案例三个维度来介绍。

Hadoop生态体系是一个复杂的场景，包括批处理，图计算等等一系列的场景，我们从2012年开始在大数据领域耕耘，在整体大数据生态体系中都有丰富的项目经验积累，如果说从传统的厂商要进入到大数据领域，需要经历一个很长一时间的磨练，从Hadoop生态系统中涉及到的各种技术和业务融合、各种组件框架之间的整合等等都要掌握，在此我们发现到在整体Hadoop大数据生态体系中尚没有OLTP的解决方案，更没有融合OLAP与OLTP场景的解决方案，从以上两点出发就是我们研发Hubble的初心。

我们回顾以往的技术体系，从传统世界进入到大数据体系，从我们最先了解的关系型数据库，比如Mysql、Oracle，还有扩展型数据库MPP，以及NoSQL数据库。它们之间虽然各有千秋，但是进入整个DT的数据时代，它们就差强人意了。今天我们讲Hubble怎么解决这样的问题，怎么使它更容易的进入到整个生态体系里面去。

解决问题之前，我们先来普及一下，什么是HTAP库，在传统的业务场景里面分OLTP和OLAP，OLTP是什么？传统的OLTP是一种在线的服务，OLAP可以理解为数据仓库，每天晚上会从OLTP的数据不断地，搬到仓库里面去，仓库里面的数据加工分析完成后再搬回来，这是一个整体的传统架构下的场景。也是我们比较常用的场景，但是它依赖于两套分离的业务系统，为解决这个问题，我们研发了HTAP的库，它是OLTP加上OLAP在一起的库，数据都在一个平台，不再需要搬家，数据就在这儿，直接可以做各种业务处理。

Hubble的发展历程是一个漫长的过程，不是一蹴而就的。天云从最开始做项目一直慢慢积累，从最开始使用开源，包括做开源融合，一直到最后做自主开发和场景融合，这是我们在不断地改进这种开源包括融合开源之后产生的一套体系。今天我们要讲的就是Hubble3.0，它是一个实现场景融合的工具，场景融合实现的OLTP与OLAP场景融合的一款产品。

对于数据库来说稳定性是一个前提，对于稳定性的Hubble仅依赖于HDFS和Zookeeper，这是公认的在大数据界最稳定的两个组件，剩下的都是我们Hubble自有的功能，在稳定的基础之上做稳定的产品。

Hubble的定位，Hubble也是一个生态，不是一个单独的产品，Hubble首先它可以整合传统的架构，比如说数据源包括业务系统、系统的日志等等作为数据源，作为连接，包括Kafka都有现成的接口，可以直接进入到Hubble体系，Hubble体系会提供对外的应用，包括在线的应用和OLAP的场景。

Hubble的定义是什么？就是国产的HTAP数据库，它是国内第一个实现了离线、实时的高速入库，超高并发的功能，支持全部SQL标准语法，支持上万用户的场景。

前面讲了Hubble的发展，再来看Hubble产品的介绍。首先它支持SQL语法，数据库要访问它第一个标准接口就是SQL，它是降低人员使用这个门槛的，如果说没有一个硬性标准是进不来的，其次Hubble通过了TPC-DS和TPC-H的测试，提高了它在影响力。。如果从传统的业务场景迁移到整个大数据里面来，hubble能做到几乎直接无缝迁移，直接能做到切换到大数据的应用中。

第二个就是高并发，这个很多人会说大数据比传统的要快，理解的快是Hive比传统架构快，整个大数据，在OLTP场景下没有一个比它快的。但是不光要在比传统的Mysql、Oracle快，要支持这种高并发的性能，支持海量数据。

在军方的一个项目，基本上它的数据量在三千多个亿，支持海量用户的并发。

第三个特点外部表支持多种数据源，我们知道一个生态支持外部数据源，我们说HTAP是一个数据库，有一个外部表的概念，什么是外部表呢？比如你在HDFS的数据，或者本地的数据，都可以作为外部表，除了新增和更新以外，剩下表的操作都是一样的，所以我们把这些融合完之后，相当于传统架构的数据包括非结构化的数据直接做融合之后，直接做外部表的关联查询都是可以的，相当于少了一步操作就可以实际整体的迁移，或者跨库之间的融合，这是第二个特性。

最后实现了场景融合，从OLAT到OLTP的融合，可以把这个做成外部表放到我的库里面，数据融合。

场景的案例介绍，Hubble业务场景，首先是全量数据在线，就是从公司成立以来所有的数据全部可以全部在线，这个在线指的是即时，即时的数据挖掘，想要一个场景马上就响应。另外一个它是支持核心交易的。

最后一个是跨库的进行数据融合，相当于支持外部表对于外部数据跨部之间可以做关连交易和查询。

这里边列了几个业务场景，第一个核心交易应用场景，举个例子，比如我们做某大型股份制银行，它的核心交易是接近两百亿条，它的回单数据上千亿条的数据进入柜台交易，柜台输入之后立马出结果。

客户标签，我们知道用户的需求越来越多，我们怎么跟用户做业务关联，怎么实现业务标签的业务场景。

自动化运维，我们知道机器产生的数据包括应用产生的数据，量会越来越多。日志的运维也是我们场景的一部分。

最后，下一个独角兽企业会产生在哪块，可能会是做IOT的数据或者做互联网的数据。

最后说一下案例，第一个股份制银行的核心交易系统，刚才说到稳定性。从去年上线到现在，它的数据库一直运行没有发生过任何一次故障，而且没有硬件故障，比如说磁盘的坏损，包括机器硬件故障死掉之后，整个系统依然运行的非常稳定，整个系统没有出现任何的问题。

再来看，某网贷的企业信用系统，它从外部拿了很多数据，方方面面很多种，如工商的数据，包括人员的数据等等，这些数据非常之多，他有上万亿条这样的数据。

另外一个是给某家大型股份制银行搭建风险一体化中心，风险一体化相当于汇集了所有的银行内部的数据，包括整体数据的融合，做这种数据处理。

谢谢！