2017年6月29日,由数据猿主办,互联网普惠金融研究院联合主办的「数据猿·超声波」之金融科技­商业价值探索高峰论坛在上海隆重举办。天云大数据出席本次活动,并在“2017金融科技·大数据优秀案例”征集中荣获技术创新奖。
本次峰会主要聚焦产业方、服务提供方、投资方、业界专家学者等一起从风控、区块链、量化金融、个性化保险、大数据技术服务、客户管理,六大方面共同探索“大数据在金融领域的商业价值”,推进金融科技领域的发展与创新。天云大数据 CEO 雷涛、 星环科技董事、高级副总裁 张月鹏 、美国FinTech4Good 创始人 张晓晨、中关村大数据联盟副秘书长、中国互联网金融智库专家 颜阳、恒丰银行科技开发部副总经理 赵毅等金融科技界专家悉数到场并发表精彩演讲。
以下是数据猿现场直播“天云大数据CEO雷涛”的发言实录:
我们可以深刻地感受到,大数据并不是今天才做起来的,事实上,BI已经做了20年,那么在新技术领域里面,与AI相比BI有什么路线呢?
大家知道,现如今更多的数据利用都是面向人去做决策的,我们自己也参与了一些BI的项目,从中可以发现, BI里面确实有一些局部的创新,在整体结构上,数据驱动对于业务流程冲击的变化更多是由AI带动的,从一个面向人去做决策的过程开始走向自动化实施的过程,就像淘宝购物,都是直接嵌入到前端的。在过去的几十年里,计算机被广泛应用于完成自动化任务,后者是被清晰的规则和算法描述的,如今机器学习技术允许我们在难以精确描述规则的边界内完成同样的任务。
最传统的BI阶段是由人定义出一个清晰的规则,再放到决策引擎里去跑,这是第一个阶段。但是小数据时代仍然离不开“老三样”,需要一套SaS的保险平台、一批科学团队做数据科学服务,以及基于这两者生产出来的策略引擎。大家可以看到,现如今的人工智能,比如阿尔法狗等等,都非常清晰简单,图象只有IGB在象素上面的填充,但是在后台反馈出来的都是非常丰富的语义环境。当这些特征和内容很难被人类用简单的、清晰的语言描述出来的时候,BI失效的前提下我们该怎样用AI的方法提供更大规模的计算?
针对这个问题,我想跟大家分享三个观点:
第一个观点就是离线抽样to在线全量。当大家谈论到人工智能的时候,第一印象是怎样的?也许是一个客服机器人,又或者是人脸识别等等,大多局限在很窄的场景应用里面。而我今天跟大家分享的是泛AI的概念,就是怎么样利用很基础的机器学习能力支撑你的企业流程的改造BI的升级。首先,最重要的过程是数据资源的建立。当你跑一些很前瞻性的,捕捉这些隐含变量非线性事实的时候,数据已经被抽样,很难去面向我们的APP,微信等技术做营销了。而对于现在比较漂亮的前端应用、智能头部的项目、闪贷的项目来说,无疑都面临着即时性很大的挑战,因此我们现在要用到全量数据建模,而不是用抽样的方法去做统计了。这个概念所存在的最大的差距就是学习型的模型输出上的差距。

第二个观点是从静态个体到动态关联。在金融业务里面,我们现在面临着太多的挑战,数据维度不够,或是处理信息的方式方法太LOW了,我们传统上只有一维的方式从头读到尾,二维数据标的格式,但是大量的信息结构里面,复杂的高维结构很难量化和处理。
第三个观点就是我们传统的基于统计思路开始逐步进入到大规模的学习阶段。这个学习跟传统小数据学习也有很多差异性的本质区别。比如说在反欺诈方面,反欺诈最大的挑战就是在申请的时候,数据资源非常有限,只有你的申请进件的表格信息,没有更多的数据。按照BI的思路怎么解决呢?BI的思路获取更多的数据员核实,因为仅靠银行的这些信息横向比较有效性非常少,因为覆盖的比例很低,这个时候我们怎么去满足呢?包括这些黑名单,黑名单整个的客户占比太低,信息量完全不足,尤其是团伙型犯罪。
我们接到的一个项目,广东一个村子都不还,每个都是真实的身份证电话号码和住址,就是集团性的犯罪,这种方式给银行企业带来的损失非常大。这个时候我们开始考虑,不是从丰富外部数据源的角度,而是如何用高维的手段将已经有的信息提高识别率。
我们早期做的风险种子平台就是将图谱应用起来,我身边有多少骗子,通过这些信息我们把特征扔到学习平台上,这个学习平台如果是使用传统小数据的逻辑回归,决策树这些方法肯定是失效的,而现在深度学习可以通过路径强化和强化学习将有效的数据很好的保留起来。现在在AI领域里面最成熟的是将答案交给机器,用一个有监督的训练方式,通过大规模的持续的重复数据的输入通过深度学习的层级网络把这些隐含的我们无法定义的金融属性特征表达出来。
最后讲一下业务价值的融合
ABC就是从Algorithm  bigdata  cloud,我们能不能有效的做融合提交。大家不需要掌握太多的前沿的知识范畴也可以实验一下深度学习。
PaaS本身从去年已经出现了趋势性的平台,无论是谷歌,还是今年国内的几个大型的BAT厂商也都开始出现了PaaS化的平台趋势,我们现在已经在两家大型的股份制银行投入了AI的SaS平台,去年也拿到了对AI平台的认可,和科大讯飞拿到了榜单。AI不是基于少数科学家的团队能驾驭的,而是通过AI的PaaS化,以前没有用过AI的团队也可以快速地进入这个领域,那么以前使用传统SaS的这些数据挖掘平台的团队可以更高效规模化的使用,谢谢大家!