51

 8月4-6日,Strata+ Hadoop World展会在北京召开,天云大数据出席了本次盛会。天云大数据CEO雷涛(上图左一)在展会上接受了会议主办方O’Reilly media的采访。

52

如下是采访实录——

主持人:今天是Hadoop大会的第一天,请谈谈您的参会感受?

雷涛:Strata+Hadoop是大数据领域非常专业和技术化的国际盛会,以前要越洋飞到北美去参加,我们非常高兴看到它首次走进中国,也是我们第一次以vendor的形式来参会。

主持人:您是否可以给我们解释一下什么是Hadoop中间件,Hadoop中间件和Hadoop发行版有什么关系呢?

雷涛:Hadoop中间件是天云大数据为屏蔽Hadoop生态体系众多技术框架的复杂性而自主研发的一款技术形态的产品,它能够有效帮助Hadoop商业版的平台管理软件与开源社区技术组件进行灵活对接,让Hadoop商业发行版保持与开源社区同步发展的一种最佳实践。举例来说,天云早期把开源打包、组合、配套、生成一个新的版本交付银行使用,但因为银监会要求双活的Hadoop集群特性,所以银行需要数据库回滚、审计、安全,去做每一个版本的代码review是很困难的,因为开源的社区发展速度非常快。

53

所以天云在2013年彻底重构了整个产品架构,把这些特性级的产品与开源的标准,企业化支撑mission critical的应用封装到了中间件平台,用大概500多个restful的接口、用put、get的方式与核心的Spark、Hbase做组合——也就是说,用户不用关心Hbase从0.8到0.9版本升级的过程,因为中间件还同样拥有企业级的特性;另一方面也给了这些早期使用开源项目的企业持续成长的路径,比如像一些新的金融企业,它们发展速度非常快,目前市值已近600亿,这些金融企业在发展初期,在Apache上建立了面向一亿多用户的系统架构,而当天云与这些企业合作时,不能把Apache推倒重来,天云的Hadoop中间件支持多集群管理,即异构的Spark、Hbase组件版本的管理,这样一方面接管这些企业系统架构多集群的同时,又能使其满足银监会要求的高可用的特性。

主持人:您刚才讲过一些Hadoop中间件的一些运用,那您能再给我们讲一些关于Hadoop中间件的成功案例吗?

雷涛:天云在这方面的成功案例很多,早期用发行版的方式做了很多大规模的Hbase、SolrCloud的项目(当时还没有spark),13年以后,我们开始在核心的交易体系里使用Hadoop,就是在银行的A类核心交易系统,人民银行、光大银行、兴业银行、银联这些核心的金融企业都是天云大型的客户;也包括泰康人寿、信诚人寿等大型保险公司。

主持人:好的,除了Hadoop之外,您能给我们讲一讲天云大数据在人工智能领域的规划和发展吗?

雷涛:其实Hadoop并不是解决传统世界的SQL问题的,所以天云很早就开始涉足人工智能,我们自己有博士后流动站,我也在做博士后导师。AI方面,天云先后投入了机器学习,深度学习,自然语言处理、复杂网络处理的平台。举例来说,天云曾帮助汤森路透做过几十万上市公告的资产重组、可转债的数据分析,用机器人去替代人去做分类、量化的标准。

今天在展会上我们发布了在Spark上的deep-learning平台,可以实现free coding,也就是不需要写Scala、Python这些代码,而是直接通过业务级的配置、训练级、测试级、目标的导向激活配置以后,就可以自动生产出Scala。目前天云的deep learning平台已经在金融企业里得到应用,比如航班预测、犯罪预测以及保险售单预测、金融欺诈等风险识别。

54

主持人:今年是Hadoop来到中国的第一年,不知道您对于明年Hadoop有什么样的展望和期许,明年天云大数据会再做一些什么呢?

雷涛:现在放眼望去天云旁边的展台,Teradata是传统数仓里的NO.1,阿里巴巴也是数据王国领域里的帝王,我们也期待明年有更多的像天云这样的企业能够参与到Strata+ Hadoop这样的国际顶级盛会中。

就国内市场来看,现在天云的角色还是做enabler,在大数据的另外两个维度,基础设施和AI两个层级上提供工具,Big data到底是force还是tools,我们现在看它更像force,所以我们从今年也开始用自然语言处理,做一些MGC的内容,来支撑消费金融以及保险代理人的项目,试图通过数据资源的方式来提升,就是说在工具层之外,我们也开始推动一些数据业务的销售了。

55

天云大数据CEO雷涛在接受采访

 主持人:最后一个问题,您觉得大数据在中国市场上,会有如何的作为呢?

雷涛:我认为大数据市场目前的情况,概念的东西还是多了些,在早期成熟的大型数据中心客户里面,现在大数据项目已经逐步落地了,比如早期的电信、现在的金融企业。我们作为大数据企业,也期待看到更多制造业、零售业参与到这波的系统的建设中来,因为越来越多的数据资源发生了变化。

早期之所以是大型企业进去,在于它在应用上产生了大量的数据,或者是行为产生大量的engagement data。发展到现在,IOT、可穿戴、MGC等内容生产数据,会让更多的行业参与到大数据浪潮中去。天云最近参与了很多Fintech方面的会议,今天展会的keynote session也是如此,不止有大数据,另一个主要的行业是金融,Fintech是目前非常热的话题和热点。

56

Strata+ Hadoop World

Strata+ Hadoop World作为致力于聚集大数据领域最有影响力的产业决策者、战略专家、架构师、开发人员和分析师的国际性会议,2016年首次从硅谷走进中国,旨在汇聚Hadoop生态最前沿科学与新兴商业基础的相互碰撞,共同打造产业和技术的未来。

O’Reilly Media

O’Reilly Media是世界上在UNIX、X、Internet和其他开放系统图书领域具有领导地位的出版公司,O’Reilly 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自1978年开始,O’Reilly 一直都是科技前沿发展的见证者和推动者,处于Internet发展的最前沿。

57