天云大数据荣选中国数据智能创新企业50强

 


 

2011年5月,麦肯锡发表研究报告:《大数据:下一个创新、竞争和生产率的前沿》,如今八年过去,我们见证了大数据从概念诞生到行业落地,整个数据行业由最初漫无目的的基础设施兴建,逐渐发展到基于中台而驱动决策的数据智能时代。数据中台被誉为大数据的下一站,成为下一风口。据不完全统计,2019年,国内约有500余家大型头部企业正在尝试建设数据中台,据知名调研机构Canalys2019年2月的相关数据报告,2018年全球云计算市场规模突破800亿美元,未来10-15年,数据中台或超越今天的云计算市场,形成万亿级别的市场。

数据中台具有坚实的基础平台能力,距离业务更近,能更快速的响应业务和应用开发的需求,可追溯,更精准,重在以数据驱动为中心。举例而言,在数据量爆发式增长、涌现大量新业务场景的大型金融机构之中,数据中台可以加强数据融合和流动,支撑混合交易处理,大幅提升业务响应能力,这部分价值已在大型金融机构得到印证实践,数据中台的核心技术价值与行业地位日益凸显。

在4月23日举办的2019·爱分析中国数据智能高峰论坛上,数据智能创新企业50强榜单正式揭晓。最终入榜的50家企业,覆盖了数据中台、技术中台、业务中台以及金融、政务、工业、零售等领域。其中,中台领域共有30家公司上榜,是大量优秀数据智能公司的聚集赛道。天云大数据荣登本次50强企业榜单。

天云大数据经过数年积累,将大数据平台、复杂网络、HTAP数据库融合而成了数据中台。能够实现对海量工业互联网数据的高效、统一管理。实现数据标识融合、多源数据融合和多业务流程融合,向下兼容多种大数据开源技术框架工具,向上提供丰富的数据共享服务,支撑大规模数据处理能力,处理PB量级数据,提供实时并发事务级服务应用,同时向上提供丰富的数据服务,如面向金融、石油、医药、工业生产等领域输出各种微服务。

数据中台三阶段路线图

第一阶段

数据识别和组织,数据资产评估

ADG

每个中大型企业在经过多年的IT系统建设后都会有很多的业务系统,而每个业务系统后面又会有一个数据库、甚至会有多个数据库,这些数据都是企业多年业务的积累。为了充分利用这些数据,各企业一般会通过实施数据仓库的方式来生成这些数据的视图。但数据仓库不如业务灵活性强,当需要看不同的数据视图时,需要对数据仓库做大的调整。此外,很多银行的业务太多,为了实现数据的统⼀,又要实施主数据和数据治理方案。无论是主数据还是数据仓库,实施和维护成本都非常⾼。

为此,天云推出了一种轻型的BI和自动化数据管理系统,可以在天云的复杂网络大数据平台上 利用人工智能技术自动地发现银行各业务系统数据的架构和数据主体,并直接发现跨数据库的表和人财物各类数据间的关系,当用户需要做跨数据库的复杂查询时,天云产品可以根据关系图快速生成SQL语句,从而使得各银行的技术人员快速从不同的数据库中提取出所需要的数据。

ADG图计算应用可以服务于多种场景,在银行方面包括向人民银行上报审查数据、灵活的BI、 为AI或SAS模型提取数据、为各种跨业务应用提供数据服务。

天云在某能源公司的分局已经成功实施了该应用,共将十几个业务系统(数据采集、核心应用、信息中心、开发月报、开发应用、协同平台等)的数据库、7000多张个表、 十几万个字段的元数据和主数据提取出来,并建立了统⼀一的关系视图,而整个工程从天云的复杂网络Hilbert安装部署开始只需要2周就可以完成;与数据仓库和主数据系统的建设相比明显快了很多,而且可以根据业务和数据的变化,天云所产生的Schema可以跟着一起变化,非常灵活。

第二阶段

数据融合和流动,重构基础设施

混布HTAP

伴随着数仓消费化,数据的鲜活性与复杂性出现日益交错的矛盾,因此在技术上一款能够同时支持OLTP(在线事务处理)与OLAP(在线分析处理)的数据库应运而生,这即是Gartner提出的HTAP数据库,涵盖大部分行业应用的需求,一站解决数据鲜活性与复杂性的交错矛盾。

以某银行的客户积分为例,移动代码需要将客户的积分分析进行统计计算,等待数仓计算一个半小时之后,再将结构返回应用系统提供联机事务处理。这种时效性难以满足要求即时反馈的客户需求。而天云的HTAP分布式系统融合了TP联机事务和AP的分析引擎,使得效率更优,架构更优;融合之后完成和联机、分析、建模一体功能。保持了数据鲜活性需求。

再以某商业银行实时流水交易业务可视化展示项目为例,在该项目中使用了Kafka 和SPARK Streaming流式处理框架,在该框架中成功地引入了天云大数据HTAP HUBBLE 数据库, 在大数据环境下通过和Kafka,SPARK Streaming 等组件的深度融合,成功地实现了对互联网用户交易报文数据的实时采集,经过一系列的处理之后,最终有HTAP 数据库提供数据可视化展示, 达到了预期功能目标。

第三阶段

数据价值化,数据模型服务应用

AI PaaS

天云从2014年开始投入人力研发AI产品工具,打造了特征工程,模型孵化平台和模型运行平台三款产品,实现模型自动化流程线。即Kaleido——Maxim AI——Gare。

kaleido是基于Spark的分布式特征工程平台,包括非常丰富的基础组件和面向不同行业应用的转用组件,用于将脏数据清洗、加工为可用于AI建模的“特征”,Kaleido的输出可用于AI建模,例如供给到天云Maxim AI分布式数据科学平台。Maxim AI是集成了多种机器学习算法,并且支持自动化机器学习建模的数据科学平台,适用于分类、聚类和回归等多种机器学习任务,能够将“特征”训练为预测性模型,Maxim AI 输出的模型部署到生产环境后可接收业务数据并给出预测值,以便支持业务人员进行业务决策。Maxim AI输出的模型可部署到天云Gaea决策引擎中,在决策引擎中运行,接收业务数据给出预测值。此外,gaea还支持通过界面编辑规则,创建纯规则模型或规则+AI模型的混合模型,能够快速将业务知识或AI模型变成业务人员易于理解的业务语言。Kaleido、Maxim AI和Gaea可构成一个完成的系统实现从数据到业务决策的全流程数据挖掘,也可配合其他系统单独使用。