天云大数据数据科学家冯晟：MaximAI 3.0以Auto ML为客户赋能

2018年6月13日，天云大数据产品发布暨渠道招募会在京举行。本次论坛以“AI浪潮下，如何参与DT转型”为主题，来自投资、国际第三方独立咨询公司、媒体等十余位业内重量级嘉宾进行了精彩分享，数百名科技、金融、能源等领域从业者、投资人参会。

天云大数据

数据科学家冯晟博士的演讲实录

今天的主角是天云MaximAI3.0产品。实际上之前的1.0、2.0，其实是解决了自动化的问题和批量化建模的问题，3.0我们突出的是智能化建模。实际上这三代产品都是现实的驱动，而不是凭空构建的产品。“不忘初心，方得始终”，我想我们还是有必要回顾一下AI到底是什么。

不同人的眼中AI肯定有不同的答案，在我们公众的眼中AI是一个来自未来的科幻战士，在媒体人的眼中AI可能是很热的新闻点，在资本人的眼中AI像人脸识别还有自动驾驶，还有最近推出的小度语音，天猫的一些智能音箱的产品，还有一些最近最热的AI芯片，这些都是下一个资本的爆发点。但实际上AI已经深入到我们的生活中了，比如说滴滴打车每天上百万次的实时路径计算，还有快递公司的上门取件派单，也是根据AI算法的实时计算。还有大家天天可能去光顾的天猫、京东商城，它也是智能商品的推荐还有精准营销，还有每天离不开的银行服务，比如说银行的风控体系，也用了大量的算法。其实AI已经深入到我们生活中了。

但是尽管如此我们还是觉得AI不够那么普及，AI还是一个少数大公司或者说精英的科学家才能掌握的一个技术，我们还是希望能够把AI普及到各行各业，普及到更传统的公司里去。刚才雷总也提到了我们任何一个技术革新实际上从最开始的产生到最后的量产包括普及大众，其实都是经历了一个漫长的发展过程。

比如说像手机，现在虽然大家都离不开手机了，但是最早1983年Martin Cooper发明了手机，实际上是当时造价3395美元，大家可以想一下当时的美国经济发展水平，这个价钱意味着什么。说到电动汽车大家一上来想到的就是特斯拉，没错，但是第一台电动汽车实际上在1888年就已经产生了，虽然看上去有点像自行车的结构，或者三轮车的结构，但是它已经是靠电池驱动的车了。大家可以回想一下计算机刚刚产生的时候，当时的输入方式还是这种打孔纸带的方式，实际上计算机的使用只能是很高阶的科学家作为研究使用，普通人根本没法使用计算机。

现在AI扩张或者AI应用到各行各业的障碍，这里面其实主要是两点。第一点是成本的问题，也就是说人员成本的问题，大家都知道AI工程师的工资是非常高的。纽约日报有这么一个报道，说在美国AI工程师的年薪一毕业就可以达到三十万美元，而美国的平均年薪大概是八万美元左右。另外一方面就是AI的需求量是非常大的，有一份腾讯的报告显示，2017年AI的从业人员大约是二十万人，但是到了2020年左右预计要提升300%，同样的一个问题就是我们需要这么多的AI人才，但是AI人才的培养是非常缓慢的，Yoshua Bengio是世界一个著名的深入学习的学者，他提到AI博士需要培养数年的时间，日益增长的需求和AI人才的短缺是造成AI应用到各行各业或者说普及大众的一个最大的障碍。我们怎么去解决这样一个难题呢？用工具去赋能，刚才雷总已经说了，工具实际上可以把人才数量放大，也就是工具去弥补一些低端一点的科学家或者初级人才的技能。

我们最开始的时候，写计算机的程序是用汇编语言，后来出现编译器以后就可以用高级语言写程序，这么多代码实际上实现的是一个加法的操作，现在我们用高级语言一行代码就可以完成。大家都知道蓝翔是很大的挖掘机培训学校，通过蓝翔的赋能使建筑工人有了更高阶的能力去做工程方面施工的服务，这都是赋能的一个过程。

我们具像到我们的AI中，我们的赋能就是通过刚才雷总说的自动机器学习。今年一月份谷歌发布了他的云学习平台，这是主要用在图像识别的平台。它提出一个子网络，子网络学习的成果通过强化学习反馈回RNN，最终优化出来的网络就可以实现一个很好的图像识别的效果。除了企业级的这种autoML探索，在学界实际上也有一些探索，可以说autoML已经是一个很重要的学习方向。比如说像贝叶斯优化的过程，我们大家可能都知道机器学习是一个优化的过程，不同的优化方法最终的目标都是为了得到一个最优的解。贝叶斯优化通过减少对目标函数的评估降低计算量，它很快通过几次的迭代就可以达到一个最优的解。不管是学界还是工业界都在探索autoML。

我们天云有幸也是找到了这么一个方向，我们利用现在学界和工业界的一些前沿方向，集成到了我们的MaximAI3.0产品里面。拥有这样一个智能化模型生产的平台意味着什么呢？意味着每一家公司都聘请了一个很有经验的数据科学团队，最后我们建模只需要相对比较少的人员，或者相对低阶的数据工程师或者科学家，这样的话大大降低了我们建模的准入门槛和我们对人才的强依赖性，我们MaximAI3.0产品除了智能化的特色以外，还有两个特色。一个就是支持了更多的算法，还有一个就是我们支持了模型部署的容器化，后面我会分别介绍一下。

在我们智能化的模型生产里面，除了雷总提到的智能调参/自动模型优化以外，我们还提供了集成学习的stacking方法，我们建立了很多的基学习器，通过stacking把这些学习器集成起来，产生具有更好的模型性能的模型，然后这个模型一般来讲就可以实际投产。

我们在MaximAI3.0支持了一些新型算法，像GMM还有XGBoost，还有遗传算法。这里面我稍微举两个例子。就是说大家可能有这样的经验，坐飞机的时候经常需要坐摆渡车，而不是直接从廊桥登机，这个遗传算法就是可以最大化的提升从廊桥登机的比例，最后我们实现的是飞机的停桥率能够超过90%。XGBoost的算法是比较新的，2016年出来的算法，这个算法的好处是加了正则项，还有做了一些二阶的处理，效果更好一些。这个模型我们用于场外配资识别。大家可能知道2015年的股灾，提到这个股灾可能大家脑子里想到的就是杠杆，而杠杆很重要的一个实现的工具就是这个场外配资。但这里面我们通过对账户的资产情况还有它的交易情况，还有它持仓情况，我们总结了一系列的特征，最后通过XGBoost可以实现这种场外配资账户的识别，最后召回率达到80%的时候，我们的模型准确率可以达到95%。

借由MaximAI3.0这些特性，我们最希望实现的就是通过这种分布式的强大的算力，我们去取代数据科学家调参的过程，相当于把科学家的经验用机器去解决，这样大大降低了我们建模的门槛。只有少量经验的业务人员也可以去建模。

这个是3.0平台出来的一个拖拉拽的建模截屏，大家可以看到它不仅是免代码的建模方式，而且是一个完全鼠标拖拉拽，降低了建模的难度。刚才讲了那么多机器自动学习的事，是为了自动化建模。模型建好了以后还有一个问题，就是如何上线生产的问题。机器学习占了AI很少的一块，机器学习之前比如像环境的配置，数据的治理，还有我们特征工程，还有资源管理，还有底层的服务，包括后面模型的上线，这些都是AI我们要处理了一些问题。所以说AI离我们最后的普及大众很大的一个困难就是我们如何去处理这些，这些实际上在我们的2.0时候，基本上都已经解决了，现在2.0里面都是包括的，我们提供的是一个端到端的建模过程，我们在3.0里面更多提到的是如何解决模型上线部署的问题。一个著名的出版商O’Reilly的VP曾经说过，一个模型生产只用了三个月，但是模型十个月过去了都没有上线。最后一公里是制约我们最后AI能够从生产到落地的很大的障碍。另外就是涉及到安全的问题，tensorflow是谷歌的开源的深度学习的框架，我们的tensorflow建立的模型如果要上线的话，谷歌是支持一套叫tensorflow serving的这么一套框架去上线的，但是这个服务是在谷歌那边，我们需要把数据发给谷歌，谷歌再返回来，这种安全性是不言而喻的。

我们3.0容器化部署同时解决了这两方面的问题，简单说就是我们将3.0生成的模型和模型所依赖的环境完全打包，形成这么一个容器化的Docker镜像，客户部署好Docker环境以后，直接可以把这个镜像在Docker上运行，这个极大的加快了模型上线生产的速度。整个的服务在客户这边本地化运行，安全性得到了保障。

希望在这种新的时代，我们的AI能够产生新的商业模式，产生新的合作方式，这里面我们所提倡的就是一种AI生态，这种生态有点类似于安卓。在安卓出来之前我们去开发一个手机应用，其实是非常耗时耗力的，安卓出来以后很多标准化的接口，可能几个人花一两周的时间就能开发一个小的应用，天云也是希望通过MaximAI3.0这个智能化建模的流水线平台，我们各行各业的数据进入到平台以后生成这些微服务，这些所谓的微服务就是一个个的模型，这些模型就类似于我们在安卓或者是iPhone AppStore里面的微服务商店。在未来的时候同一个行业里面有同样的建模需求的时候，我们这些微服务都可以复用到那些场景，从而实现普惠AI的作用。值得一提的是我们这些微服务一旦从MaximAI3.0生产出来以后，完全可以脱离MaximAI3.0运行，就是我刚才说的容器化部署的方式，大家不用担心必须得依赖MaximAI3.0，而是完全可以独立的。

这么多年天云在各行各业都积累了一些经验，比如说像交易数据我们银行方面风控方面的，像交易反欺诈，还有申请评分等等这些模型，在行为数据方面我们跟海关、人行、证监会做了一些监测违法行为的模型。还有就是在传感器的数据领域，我们跟能源行业做了一些模型。这是我们在银行做的一个申请反欺诈的，我们使用的是MaximAI平台，用的是深度学习算法，最后我们达到反欺诈的识别率能够高达92%。这个是我们在汤森路透做的一个案例，这个案例说的是每年都有大量的上市公司的公告，大概是几十万份，以前都是依靠人力的金融分析师去分类，分成分发、存储和转债等类别，现在通过NLP处理和后面的建模，可以直接通过机器以很高的精度把他们区分开，每年可以阅读上市公告高达二十万份以上，等于替代了十位的高级金融分析师。

还有一个案例是我们在辅助医疗的领域，这个领域是我们跟阜外医院合作的，它本身有一个模型，根据我们身体检测的指标去判断病人需不需要做CT，我们新的模型相比原来的模型有一定幅度的提高，这样的话这个提高可以带来一百五十亿医疗资源的节省，有一些病人可能并不需要做CT。希望在这样一个AI时代里，大家能够乘着AI的东风。天云愿意和大家一起并肩努力，最后希望能把大家的数据资产转化为现实的利润，谢谢大家！