2019年12月5-7日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的中国大数据技术大会(BDTC 2019)于北京长城饭店隆重举行。

天云数据在本次大会上覆盖了四个论坛议题:HTAP混布数据库、AI中台、AutoML、AI赋能金融科技。四位嘉宾受邀发表主题演讲。

一、天云数据CEO雷涛受邀在新一代数据库转型论坛发表主题演讲“大数据体系下HTAP数据库Hubble”。

雷涛提到,数据资源、数据消费者以及数据架构的变化不断催生了HTAP技术,HTAP可以解决很多痛点,重点体现在两个生态问题,一方面解决了传统旧世界的性能和扩展问题,另一方面则是打破了事务处理和分析之间的“墙”,大大提升了大数据体系下数据实时处理和分析计算能力。

运维多个组件、交互性差、稳定性差、使用不够方便……用户存在多重使用痛点,为解决这些问题,天云数据自研HTAP数据库Hubble,只需运维一个组件,标准化SQL语法,客户端工具更加灵活,降低了使用人员的技术门槛。最大的技术创新在于其不仅是一款支持标准SQL的大数据分布式数据库,而且其可以进行多源异构,并且同时支撑AP和TP两种业务。Hubble可以对多个不同来源的数据库进行查询。目前支持的数据源包含但不限于Oracle、hive、mysql、DB2等。

 

二、天云数据副总裁李从武受邀在大数据与AI中台论坛发表“数据中台三部曲”主题演讲。

李从武提出,现代企业的业务模式正在经历从流程驱动到数据驱动转变的商业重构,从BI向AI升级,数据不再是业务系统的副产品,而成为业务系统的核心资产,成为企业运营决策和业务发展的驱动力。数据中台从诞生至今,经历了数据资产化、数据融合与流动、数据价值化的三部曲。

第一阶段:数据资产化

目前数据治理方式的变迁,已过渡到自动化数据管理系统(ADG),可以利用人工智能技术自动地发现企业各业务系统数据的架构和数据主体,并直接发现跨数据库的表和人财物各类数据间的关系。

天云在某能源公司分局已经成功实施了该应用,共将十几个业务系统(数据采集、核心应用、信息中心、开发月报、开发应用、协同平台等)的数据库、8000多张表、 十几万个字段的元数据和主数据提取出来,并建立了统⼀的关系视图,而整个工程从复杂网络Hilbert安装部署开始只需要2周就可以完成;与数据仓库和主数据系统的建设相比明显快了很多,而且可以根据业务和数据的变化,天云所产生的Schema可以跟着一起变化,非常灵活。

第二阶段:数据融合与流动

几十年来,信息化系统从架构、计算、信息已经发生了本质变化,move data还是move code,从程序为核心,到数据为核心的转型,计算的本质发生变化以后,从IOE转向了分布式计算,从资源的封装,走到了对服务的封装,从虚拟化转向了容器化。从流程驱动走向数据驱动,在数据的不同的使用方式上,从作为应用的副产品被沉淀下来,迈向了以数据加算法的数据科学的能力,BI向AI迁移,实现了数据仓库向人工智能的转型。两大技术阵营的转换中,新世界的科创技术在新的技术生态中开始发挥重要作用,对传统数据库的替代也是顺理成章的。比如天云大数据自主研发HTAP国产分布式数据库,上线了某大型股份制银行的全量数据在线实时交易系统,面向柜面系统提供7*8小时A类实时核心交易,面向手机网银系统提供7*24小时A类实时核心交易。

第三阶段:数据价值化

所有复杂、难以抽象的商业规则和场景,将它们数字化以后,复杂问题反而可以被清晰的界定和量化,算法可以对商业实践做替代,这个过程,即AI PaaS(AI平台即服务),可以成为产业升级、数字化转型的基石。天云大数据在数据价值化的第三阶段,提供各行业通用的人工智能 AI PaaS平台,服务AI的AI,天云积极推动AI跨行业赋能,已成功落地在金融、能源、政府、医药等领域。

三、天云数据首席数据科学家吕慧博士受邀在AutoML 大数据自动化机器学习技术与系统论坛发表主题演讲:自动化机器学习工程化的落地实践

天云在利用产品化的服务赋能企业的同时,如何保证让业务人员能够利用建模产品平台通过自动化建模流程真正实现模型从数据输入端到模型业务目标输出端的掌握,这是天云实践的最终目标,通过AutoML的工程化落地实践,能够实现数据端业务输入的便捷化处理,模型的后续维护、优化,更新,及限制场景下的模型快速外延。

天云自动化特征工程平台,底层是基于分布式框架,免代码的拖拽操作来实现,除了预定义的数据预处理、数据过滤、统计分析、特征工程、拟合评估变换、文本分析等模块,对于具有一定开发能力的人员,还可以实现可扩展的编程组件,包括SQL和pyspark的支持。在平台特性上,可视化保证了用户对于输入端能够进行方便的操作,流程化保证了特征数据构造的逻辑理解能力,抽象化模块的封装保证了自动化能力的体现。

天云AI平台和特征工程平台都支持容器化的部署方式。容器化的部署方式保证了特征工程模块可用户批量处理数据并供给到生产系统;并且可以保证快速的部署和复制特征工程环境,大大降低了环境部署的成本,还可以实现动态扩容,保证特征工程服务的不间断。通过特征工程平台+工作流+模型配合使用的方式,形成闭环,方便进行自动化建模流程的实践。

 

四、天云数据售前技术总监谢文华受邀在人工智能赋能金融科技论坛发表“AI赋能证券业异常交易智查系统”主题演讲。

长期以来,异常交易监测一直是证券公司加强账户实名制管理的重点和难点问题。传统方式以手工为主,存在成本高、效率低、更新慢等缺点。而通过信息化手段归集原本零散的知识经验,系统化形成证券公司筛查、统计、沟通、审核、处置、转化等工作流程,可以确保处理效率,并做到处理情况可审计、可检验。

智查系统建设的主要内容是基于天云的特征工程平台和AI建模平台,实现证券异常交易识别模型的商业重构,包括特征计算、算法选择、参数调整、一站式建模、模型评估、模型调优等功能。

异常交易风控建模平台的核心技术主要在于账户交易特征的设计和模型选择两方面。

首先,异常交易账户和普通账户鉴于其使用方式的不同,存在着交易行为模式上的差异,但这种差异难以直观的从原始交易记录上看出,因此通过设计交易特征,挖掘深层次隐含交易模式是整个系统成功的关键。而好的交易行为特征必须可以充分突出体现异常交易账户特有的交易特点。如何发现设计出好的交易特征是整个系统开发过程中的重点和难点。天云通过对大量的异常交易账户进行观察研究,概括总结了异常交易账户的两个特点:交易规模偏大和交易模式复杂,从这两个维度出发设计出了30个左右的能够充分区别异常交易账户和普通账户的行为特征,是智查异常交易账户监测系统取得满意效果的保证。

异常交易风控建模平台的另一核心技术在于人工智能模型的选择。人工智能领域今年来高速发展,涌现出越来越来的优秀模型和技术。但基于人工智能理论,并不存在最好的模型,每个模型都有自己的设计理念和应用场景,因此,选择最合适的模型也是整个系统构建的重点。天云一方面尝试使用了大量的分类监督模型,另外也从理论和设计原理的角度出发分析评价各个模型的优劣。经过大量的尝试分析后选择人工智能里面随机森林模型作为智查异常交易账户监测系统的最终模型。经过后续的验证结果也显示:随机森林模型可以取得令人满意的预测结果。

上线结果显示,异常交易风控建模平台在与传统异常交易账户查处方式相结合,提升异常交易账户查处效率;提升监管人员的查处效率;有效评估市场异常交易账户的状态等方面对异常交易账户监管起到了辅助作用。