和IT时代对比,DT时代有哪些重要变化?需要什么技术能力支撑?
现在的一些开源框架,通过工程化的手段能够被市场接受了。把TP和AP做融合,成为湖仓一体的概念;然后把MPP数据库与湖仓一体融合,成为新技术趋势。实际上就是将MPP数据库加Hadoop开源。
这种现象会带来什么风险?MPP数据库不能单独支持湖仓一体,它需要 Hbase和ES来配合,本质还是属于数据集。在某大型股份制银行,为了支持手机银行端的个性化数仓,实现手机端对大屏小屏化的趋势,传统MPP结构根本没法满足刚才说的这种服务价值,还要配套数百个节点,所以现在市场上湖仓一体的本质还是一个集成方案,需要在传统MPP数据库和开源Hadoop之间做大量的数据同步和一致性校验。既然要有数据同步,就必然有时间窗口、数据的不及时性、不一致性。
所以第一个变化,就是数据新鲜度的变化。我们在使用什么时间的数据,是在消费以天、小时级、分钟级、秒级还是百毫秒级的数据?HTAP现在作为一种主流的技术框架,已经开始进入到核心数据驱动业务的前端,支撑我们消费最新鲜的数据。我们怎么用数据,流的形式跟库发生关系HTAP就是Hybrid Transaction and Analytical Process就是混合负载架构。
此外,我们在面前谁提供数据服务?这个问题是非常关键。
我们以前在数据消费的时候更多的都是在数据仓库里完成。数据仓库是OLAP分析型业务,通过侵占更多的资源来完成一个大IO操作。所以MPP数据库有一个很大的挑战就是它不能够支持高并发,它的作业是排队机制。当遇到个性化服务下沉时,它就碰到了一个瓶颈。
市场提出了一个新概念Lakehouse(湖仓一体),就是把数据仓库处理结果再同步到一个大数据平台,比较受欢迎的方式就是MPP再加上Hbase。我曾经看到一个国产化项目,真的把MPP数据库给替代了。但是面向1亿多用户的小屏服务的时,它不得已还要同步到一个大规模的Hbase里头,Hbase来支撑MPP数据库的个性化的驾驶舱与提交,又变回开源且复杂的工程。就这个项目大概300多个节点Hbase、600多个运维开发人员,每年的运维费用、开发服务费用大概3个多亿的人力成本。
所以用产品级基础设施架构去替代开源工程和大规模人力外包服务是一个很典型的一个技术平台趋势。无疑又是HTAP混布型数据库,可以支撑替代MPP加Hbase这个结构来实现服务下沉。
所以第二个变化,我们面向谁在提供数据服务?互联网的数据产销合一方式带动了流程驱动向数据驱动的数据库架构转型,数据从服务决策者转向服务一线人员,HTAP系统才能保障每个人都能实时看到同样高质量的数据。
因此,新一代硬核基础设施必须是HTAP数据库。
新一代数字基础设施必须是立足当下且面向未来与此同时必须坚持自研道路
很久以来,国产基础软件都停留在被“卡脖子”的印象里。软件再好,但若是都使用美国的软件开发工具开发,则意味着无法彻底摆脱美国的制裁风险。国内软件厂商在核心技术被垄断的情况下,想要实现弯道超车十分困难。但是,软件行业为各行业全方位赋能的过程中,高速增长加快创新,逐步追赶、甚至局部超越国际一流水平。天云数据,在没有行业经验可借鉴的情况下,潜心耕耘另辟蹊径布局国产自研数据库,输出近四百万行自研Go语言代码。自主研发的Hubble数据库产品经过中国软件测评中心评测源代码系统自主研发率99.62%,面向基础设施而生。