7月4日,由中国通信标准化协会和中国信息通信研究院主办,大数据技术标准推进委员会承办,InfoQ联合主办的“2023可信数据库发展大会”主论坛在北京国际会议中心隆重召开。大会以“自主 创新 引领”为主题,邀请行业内近百位演讲专家围绕数据库技术、产业和生态热点进行研讨,并重磅发布了多项中国信通院及中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)在数据库领域的最新研究和实践成果。凭借在分布式数据库领域的优异表现和突出成果,天云数据成功入选《中国数据库产业图谱(2023)》。

会上,中国信通院云计算与大数据研究所所长何宝宏指出:HTAP数据库助力用户降本增效。天云数据是HTAP数据库厂商代表。

年初,中国信通院公布了第十五批“可信数据库”评测结果。天云数据Hubble数据库凭借过硬的技术实力顺利通过“HTAP数据库基础能力”评测,成为三家通过测评单位之一。

和IT时代对比,DT时代有哪些重要变化?需要什么技术能力支撑?

去年一篇论文《我的HTAP系统有多好?》,谈到的第一个技术指标就是Freshness(新鲜度)。就你在消费什么时间的数据?用什么样的一个方式?如果基于传统BI架构的话,我们需要从Oracle、MySQL这些交易型的生产系统里把数据同步出来,用ETL的方式或者是批处理的方式加工到数据仓库里头。所以在数据仓库里,待分析的原材料已经是以天为时间的信息了。

你是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?我们怎么去把一些从最早的Storm、Spark Streaming这些流计算的框架到现在比较成熟的像Kafka、Flink的框架来驱动一个流数据作业?比如量化交易里,我们怎么去对冲击成本?对实时的挂单数据去做一个预测?这个肯定要基于3秒之内的挂单数据来完成。

现在的一些开源框架,通过工程化的手段能够被市场接受了。把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。

这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase和ES来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,实现手机端对大屏小屏化的趋势,传统MPP结构根本没法满足刚才说的这种服务价值,还要配套数百个节点,所以现在市场上湖仓一体的本质还是一个集成方案,需要在传统MPP数据库和开源Hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口、数据的不及时性、不一致性。

所以第一个变化,就是数据新鲜度的变化。我们在使用什么时间的数据,是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?HTAP现在作为一种主流的技术框架,已经开始进入到核心数据驱动业务的前端,支撑我们消费最新鲜的数据。我们怎么用数据,流的形式跟库发生关系HTAP就是Hybrid Transaction and Analytical Process就是混合负载架构。

此外,我们在面前谁提供数据服务?这个问题是非常关键。

传统BI以报表、可视化更多是面向C-Level的决策,所以是宏观的、共性的、统计趋势性的问题。但互联网带来的金融服务的业务化,越来越多地把数据驱动业务推到了理财经理,推到了营业厅一线,甚至推到了C端客户。从大屏演示转向了C端客户的小屏操作,这种个性化的数据驱动和要求对后台的技术设施提出了一个非常关键的、很难逾越的技术指标就是:高并发。

我们以前在数据消费的时候更多的都是在数据仓库里完成。数据仓库是OLAP分析型业务,通过侵占更多的资源来完成一个大IO操作。所以MPP数据库有一个很大的挑战就是它不能够支持高并发,它的作业是排队机制。当遇到个性化服务下沉时,它就碰到了一个瓶颈。

市场提出了一个新概念Lakehouse(湖仓一体),就是把数据仓库处理结果再同步到一个大数据平台,比较受欢迎的方式就是MPP再加上Hbase。我曾经看到一个国产化项目,真的把MPP数据库给替代了。但是面向1亿多用户的小屏服务的时,它不得已还要同步到一个大规模的Hbase里头,Hbase来支撑MPP数据库的个性化的驾驶舱与提交,又变回开源且复杂的工程。就这个项目大概300多个节点Hbase、600多个运维开发人员,每年的运维费用、开发服务费用大概3个多亿的人力成本。

所以用产品级基础设施架构去替代开源工程和大规模人力外包服务是一个很典型的一个技术平台趋势。无疑又是HTAP混布型数据库,可以支撑替代MPP加Hbase这个结构来实现服务下沉。

所以第二个变化,我们面向谁在提供数据服务?互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,数据从服务决策者转向服务一线人员,HTAP系统才能保障每个人都能实时看到同样高质量的数据。

因此,新一代硬核基础设施必须是HTAP数据库。

新一代数字基础设施必须是立足当下且面向未来与此同时必须坚持自研道路

今天IT向DT的迁移,流程驱动转向数据驱动,并不仅仅是一个概念的迭代。而更多的是,很多基础的核心组件发生一些变化。这些组件从严谨的执行人类指令的这些系统架构、代码程序,转向了由数据驱动的供给和消费。这不是简单的替代逻辑,是产业链升级逻辑。所有支撑市场服务的开源工程必将转向原创产品,国产数据库必须摒弃利用开源封装的伪软壳技术,才能掌握硬核技术核心突破外部限制,实现技术创新科技创新。

很久以来,国产基础软件都停留在被“卡脖子”的印象里。软件再好,但若是都使用美国的软件开发工具开发,则意味着无法彻底摆脱美国的制裁风险。国内软件厂商在核心技术被垄断的情况下,想要实现弯道超车十分困难。但是,软件行业为各行业全方位赋能的过程中,高速增长加快创新,逐步追赶、甚至局部超越国际一流水平。天云数据,在没有行业经验可借鉴的情况下,潜心耕耘另辟蹊径布局国产自研数据库,输出近四百万行自研Go语言代码。自主研发的Hubble数据库产品经过中国软件测评中心评测源代码系统自主研发率99.62%,面向基础设施而生。

国产替代整体的推进进程注定不是一场分蛋糕的游戏,而是一场残酷的淘汰赛。国产替代也只是第一步,最根本的目的就在于培养一批真正能够走出国门不怕外国制裁的公司。谁能够抓住宝贵的“窗口期”,谁就具备了被扶持和发展壮大的资格与条件。反观现在很多软件公司产品包含大量开源组件,短期内产品各方面可能会有显著提升,但其安全性仍然有待考量,在后续的评估测试中有很大概率会被淘汰。只有真正代码自主可控的企业长远看才值得被推崇,这也是企业未来面对国际巨头能够立足的底气与根本。数据库作为一个具有国家属性的产品,必然与属国命运与共。