1月20日,由中国网络空间安全协会、金融科技创新联盟主办的“第二届中国金融科技创新大会”在京召开。本次大会以“智能金融——引领新时代金融大变革”为主题,展示了我国主要金融机构和科技企业在金融科技领域的最新创新创业成果。天云融创数据科技(北京)有限公司(以下简称:天云大数据),凭借“大数据有效对银行信用卡申卡欺诈预警解决方案”荣获金融科技优秀解决方案奖。

来自国家新一代人工智能战略咨询委员会、国家两院院士、人民银行等有关领导以及国家开发银行、中农工建交五大行及20余家商业银行及保险等金融领域专家500余人出席会议。

大会联合发布了专题报告《智能金融联合报告:与AI共进,致胜未来》,同时中国工商银行、中国农业银行、中国银行、国泰君安等国内主流金融机构以及百度、腾讯、百度等知名科技企业、研究机构发布了金融科技最新成果和应用创新案例;微软、IBM、埃森哲、毕马威、普华永道等国际知名科技与咨询公司就“区块链、数字货币与智能金融”等当前热点话题进行了圆桌对话。

中国金融科技创新大会在国家互联网信息办公室、中国人民银行、工业和信息化部等部委的指导和支持下,已成功举办三届,活动立足国内,放眼全球,已成为金融科技业界理论研究、趋势探讨、案例推介、成果分享、应用指导和业务对接的交流平台,对于推动我国金融科技的理论研究和业务创新,维护国家金融信息安全和金融体系稳定有着积极意义。

天云大数据获奖全文:天云大数据有效对银行信用卡申卡欺诈预警

当前,伴随着金融市场向着国际化、自由化的方向发展,由金融衍生出的信贷工具越来越多,信用卡作为一种新型的、大众化的金融电子产品给银行带来了兼有利弊的机遇和挑战。所谓挑战则是在办理信用卡中存在的风险问题,银行每年因金融欺诈损失数十亿元,传统的离散式反欺诈分析方法的漏洞暴露得越来越多,已无法有效阻止这些欺诈行为,经验丰富的欺诈者利用这些漏洞创造出更多的欺诈手段而不被金融机构发现。如何迅速有效的预测信用卡欺诈者,成为避免信用卡风险的关键。在这个需求的推动下,大数据信用卡申卡欺诈预警应运而生。

天云大数据致力于帮助企业解决内部数据的分析和已有数据孤岛问题,基于对金融、保险、运营商、广视等行业的数据治理经验的沉淀和复制,在服务过程中,研究由数据衍生出的各类产品的共性,探索出一套完整的数据产品服务体系。其在金融服务领域为银行、保险等客户提供历史数据挖掘、风险一体化、风险种子识别、申卡欺诈预警等服务。

需要解决的问题

2016年上半年中国信用卡行业整体逾期半年未偿贷款总额超过480亿元,坏账率较年初上升0.2个百分点。为更好应对欺诈风险,提高欺诈预警效率,国内银行不断加强研究反欺诈手段,加强不同产品条线、业务部门之间的分工协作,防范欺诈风险。但是,从总体情况来看,国内银行的欺诈风险分析预警工作仍处于初级阶段,面对欺诈者越来越多样的高新技术手段,欺诈团伙越来越组织严禁密切复杂的欺诈活动,欺诈范围逐渐趋向国际化的现状,以及随着信用卡交易由有卡交易逐渐向无卡交易过度,为欺诈者提供了更多的便利,加强了其欺诈手段的隐蔽性,造成欺诈分析预警工作难度的增大,银行亟需系统研究银欺诈风险,积极探寻应对之策。

目前行业申卡欺诈分析预警工作存在的问题如下:

1.欺诈分析数据仅仅局限于历史数据

银行现有的申卡欺诈分析预警系统主要基于历史数据进行分析建立相关规则,对申卡信息进行规则匹配判断预警欺诈人员以及进行欺诈类别判断。而对于目前大部分银行来说,其欺诈分析预警系统都是由不同部门在不同时期根据各自业务需要建立的,不同系统间信息相对隔离,不能做到及时传递、整合和共享,风险信息条线化、碎片化问题严重。此外,已经建立的系统主要是客户信息采集系统,以收集客户信息、检测业务动态、提供综合查询和统计报表等功能为主,对损失历史数据的积累和分析严重不足,在缺乏损失事件基础数据库支撑的情况下,难以对欺诈风险进行定量识别和评估。

2.基于规则匹配预判,受限制性强

目前银行的申卡欺诈分析工作主要基于规则匹配进行实现。一方面,传统的规则匹配普适性较差,伴随着新的参数状态的出现常常有新的匹配规则需要被及时定制以进行新的欺诈判断。长久积累的结果就是规则积累的数量不断增多,与此同时规则维护需要的人员也迅速增长,银行压力渐渐增大,到最后已经无力应付规则维护强大的压力冲击。另一方面,规则匹配要求业务的可表达性强,需要人工的介入,此种情况下,必然受到职业素养、道德品质等主观因素影响,造成的结果为较强的规则可规避性,引起欺诈风险的提高。

3.人才配备不能满足需要,专业人才能力要求较高。

欺诈风险分析预警对商业银行而言是一项难度系数比较高的工作,专业人才的积累和培养还需要一定时间,二随着新技术的引入,人才空缺的范围进一步扩大,接受过系统培训的人才一旦跳槽,很难从市场上找到合适人选。此外,银行人才资源主要向前台倾斜,中后台配置高素质人才在薪酬激励、职业发展等方面也都存在诸多制约。反欺诈工作缺乏高素质、复合性人才资源支撑,直接影响了反欺诈工作的专业化水平。

解决方案

随着互联网+时代的到来,各种各样的信息越来越多的被以“数据”的形式记录、存储下来。对于银行而言,其数据体系也逐渐发展成包括结构化数据,非结构化数据,半结构化数据的完整体系,涵盖除了申卡系统及其相关流程的文本数据之外的email数据、录音数据、视频数据等以及其他的外部数据如银联数据。数据体系的扩展如双刃剑一般对银行欺诈分析预警带来机遇和挑战。一方面,数据的丰富拓展,提高了欺诈风险分析预警的准确度,带来了新的研究方式与研究角度;另一方面,数据量的增大,数据类型的增多,增加了数据处理的难度,传统的基于规则匹配的离散式欺诈分析预警系统已经无法适应庞大的数据系统,无法提供更为合适准确的判断方法。

天云融创融合银行内部的数据,建立数据挖掘系统,引入地域关系、联系关系、推荐关系等拓展建立申请人社交关系复杂网络,联合银行信用卡申请系统数据,利用大数据分析技术,建立信用卡申卡欺诈分析预警新模式。

1.引入复杂网络,构建申请客户社交关系网络

具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络,只要能抽象出网络结构的客观事务,都可以作为复杂网络的研究的对象。天云融创将某大型股份制商业银行北京地区信用卡申请客户的基础信息数据(总计超过30万)借助复杂神经网络Hilbert,把申请人、申请人亲属、联系人及推广人这四种角色的移动电话、家庭电话、办公电话的相同作为关系,构建客户社交网络图,设计并计算出相关社交数据。

2.引入深度学习,构建欺诈分析新模式

深度学习是在神经网络的基础上构建一个多层结构学习能力的算法。2016年Gartner在全球范围内对于计算智能的统计显示,深度学习的热度仅次于机器人被列入前三名的位置。近年来依托分布式、内存等机器计算能力的飞速发展,深度学习在金融领域有了更广泛的应用。

神经网络是一种通过模仿人脑信息,类似于大脑神经突触联接的结构加工过程的智能化信息处理技术及进行信息处理的数学模型,与博弈论中的动态博弈很相似,具有自适应性、自组织性以及较强劲的稳健性,在应用过程中具有很强的鲁棒性和容错性,能够并行处理方法,具有自学习性,拥有自组织、自适应性和很强的信息综合能力等良好性能,能同时处理定量和定性的信息,能很好的协调多种输入信息关系,适用于处理复杂非线性和不确定对象,能成功的应用于多种不同的信息处理。天云融创将复杂网络得出的申请人社交数据,联合推广人信息数据、申请人信息数据、单位联系数据等引入神经网络模型,神经网络在真实的数据集环境中学习,通过不断地学习过程提高效率,交互式的调整其连接权重,通过不断增加学习过程,增强神经网络模型对真实数据集的环境的了解,当所有用于估计模型的训练集样本误差达到最小时,神经网络拟合完成,并且隐含的神经网络模型决定属性的分类规则。根据需求把新的申请信用卡客户属性转换为相应的数据代入模型,便可以得到客户是否数据欺诈属性以及其所属类别。

图 一个简单的神经网络

3.申卡客户社交关系网络构建

在申卡客户复杂关系网络的过程中,天云融创利用具体某地区信用卡申请客户的基础信息数据,对该地区进件审批数据有全面的了解之后,确定该数据中包含申请人、推荐人在内的四种角色,借助复杂神经网络Hilbert将申请人角色作为社交网络的关键节点,把四种角色的电话、地址等的相同作为关系,来实现复杂网络的构建,设计并计算出相关社交数据。

图 申卡客户社交关系复杂网络

4.基于神经网络模型的客户欺诈分析预警

天云融创将该地区信用卡申请客户基础信息数据,以及复杂网络计算所得社交数据,主要使用神经网络模型和逻辑回归模型进行模型训练和样本测试。选取指标对模型测试结果进行评价,并进行相应的改进,最终运用模型对申卡客户进行欺诈分析。

通过神经网络和逻辑回归模型的交叉验证以及预测结果可以看出,神经网络模型的AUC值能够达到0.9,相比逻辑回归模型的AUC值0.86,具有明显的优化效果。

达到的效果

当前阶段,大数据申卡欺诈分析预警技术是传统欺诈预警的有力补充,二者结合既提高了申卡欺诈分析预警的效果,使普惠金融得以有可能真正落地。尤其随着互联网+的发展,各种信息以数据的形式被存储记录,大数据欺诈预警更是发挥了重要的作用,其使欺诈预警的评估维度更多、预警效率更高、应用场景也更加多样化。

1.扩大了申卡欺诈数据源

目前的大数据反欺诈技术离不开文本挖掘,最重要的是语义识别。其次重要的是图像的挖掘,包括OCR识别图像文字、相似图片等等。传统申卡欺诈分析中往往运用强变量来评估个人在未来信用卡使用行为中的表现,没有整合分析其他维度的数据源。大数据申卡欺诈分析预警系统,首先,融合了信用卡申请环节的各个业务数据,解决了数据孤岛的问题;其次,引入第三方数据,比如银联数据等,扩展了数据的维度;最后,通过复杂网络技术,构建申卡客户的社交复杂网络提供客户的社交数据,在拓展覆盖维度的同时,以弱变量来体现强变量,并且实现了社交数据的高频率更新,提高了数据的准确有效性。

2.极大提高申卡欺诈预警准确率

传统的申卡欺诈分析预警技术需要大量的人工审核工作,必然掺杂了员工的主观因素,同时也提高了银行内外部联合诈骗的风险。基于大数据技术的申卡欺诈分析预警系统,大量减少了人工操作部分,同时提供了社交关系数据库,提高申卡欺诈预警的准确率。

3.扩大了申卡欺诈分析模式

传统的申卡欺诈分析模式主要是基于规则匹配模型进行实现。随着经济的发展,市场的变化,科技的创新,欺诈方式不断更新积累,这倒是规则的数量不断增多到非常庞大的数量,维护和迭代更新的压力增大。基于大数据技术的申卡欺诈分析预警模式,主要是对大量数据进行挖掘,提供和清洗训练样本,针对亿级别的训练样本,提取扩展千万的特征,结合社交关系数据,利用大规模机器学习和深度学习平台进行模型训练。新型模式具有准召率高、预测效率高、善于发现新模型、从海量数据中总结规律、模型稳定、还有能力同时应对多个分类的优势。