• 模型微服务
    天云公司将已经实施的模型算法整理容器化运行,提供模型产品微服务,配合MaximAI大数据挖掘平台,为企业提供数据建模孵化运行服务,实现人工智能+行业应用。
  1. 1
    天天富卡行为评分模型产品

    ◆ 模型产品背景

    B卡行为评分模型是根据客户在使用信用卡之后的行为数据,个人用卡习惯,来预测客户在未来使用信用卡过程中的违约概率。
    天天富行为评分模型是根据某股份制信用卡公司发行的天天富信用卡,利用天天富信用卡发行后客户用卡行为数据,通过梯度提升算法构建行为评分模型。

    ◆ 模型训练应用

    模型训练步骤:
    step1:导入模型开发时间窗口内数据,模型开发时间窗口内没有灰度客户(BehavioralScoreData.csv,案例实际数据为银行内部数据,无法获取,因此用其他数据集替代,替代数据集特征名称按照实际特征名称进行了部分修改)。
    step2:解析数据,将目标列设置为枚举类型(最后一列“Label”为目标变量)
    step3:按0.7/0.3比例拆分数据集
    step4:在70%数据建立模型,目标是分类,因此选择分类模型;在此选择梯度提升;将模型开发时间窗口内70%数据用于训练,30%数据用于测试,目标变量为Label,设置树的个数为30,树的深度为8
    step5:模型训练验证评估
    step6:测试集包括:1)与模型开发时间窗口内与70%训练数据互补的30%数据;2)验证时间窗口内的三组数据,每组数据包括有灰度客户和无灰度客户两种数据集;共7组测试数据集。在此以模型开发时间窗口的30%数据作为测试集
    step7:查看数据预测结果

    模型预测结果:

    ◆ 模型产品总述

    行为评分模型用于评估个人用卡违约的可能性,通过分析个人历史行为情况及相关影响因素,反映个人信用风险程度。该指数阈值范围为0—100分,分值越大表明个人履约程度越高,未来违约风险越小;反之违约风险越大。

    模型方法论基于经典二分类违约模型,根据银行实际的客户逾期数据,与客户行为数据总体进行匹配,并将匹配后的总体分为建模样本和验证样本,采用GHOST算法来训练建模样本,得到每一个客户的违约概率,然后将违约概率转换为行为评分分数输出,然后对新增数据进行预测,提高违约人员发现概率。

  2. 2
    贷款行为评分模型产品

    ◆ 模型产品背景

    根据存量贷款客户的基本信息、贷/还款信息与人行征信信息进行客户违约风险的评估,从而对未来风险高的客户做出提前的预警处理,并提前采取相关措施(例如:适当的调高利率,取消循环贷等),降低坏账的发生率。

    ◆ 模型训练应用

    模型训练包括3万余条好客户数据和120余条坏客户数据。每条数据包括29个特征变量,1个目标变量。对于原始数据做了如下处理:缺失值插补,变量衍生,枚举型数值替换,中文变量数值化,数据去重,日期转换等工作。由于好坏客户极度不均衡,对好客户进行了降采样,随机生成的数据集包括约4000个好客户和120个坏客户,正例占比接近3%。
    对抽样得到的数据集进行0.7训练/0.3测试拆分,并进行3折交叉验证,建立随机森林模型(RF),共建立模型一次。
    测试集包括与70%训练数据互补的30%测试数据。

    下表为KS值和AUC值列表:

    由上述图表分析,初步建立的模型取得了较好的评估结果AUC>0.85,KS>0.5。

    ◆ 模型产品总述

    贷款行为评分模型用于评估贷款企业违约的可能性,通过分析企业及法人行为情况及相关影响因素,反映企业信用风险程度。该指数阈值范围为0—100分,分值越大表明企业履约程度越高,未来违约风险越小;反之违约风险越大。

    模型方法论基于经典二分类违约模型,根据银行实际的企业贷款逾期数据,与企业行为数据总体进行匹配,并将匹配后的总体分为建模样本和验证样本,采用随机森林算法来训练建模样本,得到每一个企业的违约概率,然后将违约概率转换为行为评分分数输出,然后对新增数据进行预测,提高违约企业发现概率。

  3. 3
    客户高现金分期预测模型产品

    ◆ 模型产品背景

    为面对日前越演越烈的信用卡套现,目前许多银行在对申请人进行相关资质审核后,将信用卡授信额度通过转账,将该笔款项以分期形式计入申请人账户中,提供变相的资金套现。同时,银行在客户套现过程中以手续费等方式获取利润,这亦催生了多种类的套现产品,现金分期业务便是由此应运而生。现金分期,有时又被称为取现分期,一般是由信用卡持卡人申请,或者发卡行主动邀请持卡人进行申请的一种,将持卡人信用卡中额度转换为现金,并分成指定月份期数进行归还的一种分期方式。
    现有分期业务分为(3, 6, 9, 12, 18, 24, 36) 个月的7 种分期产品,办理18期及其以上手续费八折优惠。多数银行现有现金分期电销模型是以SAS平台为基础,数据模型使用的数据精度及时效性均受限,仅能辨识出存量客户中少数头部分期高倾向客户进行外呼,模型识别度尚有提升空间。
    客户高现金分期预测模型通过历史现金分期营销数据建立模型,进而提高电信营销响应率及其分期收益。

    ◆ 模型训练应用

    采用MaximAI平台试验分析,由于建模数据响应与未响应样本分布比例不均衡,故可对训练数据做分层或重采样处理。利用梯度提升算法构建多组营销响应模型,选择最优模型的训练数据训练营销收益模型;再将营销响应模型预测出对现金分期业务具有高倾向的客户数据导入营销收益模型进行收益高低排序,进而对客户进行分层营销。

    根据优质客户的标签定义,利用梯度提升模型构建高收益客户的二分类模型,对8月份的验证效果如下:

    收益客户预测概率进行升序排列,划分概率分段区间(百分比),计算每个区间内客户累计百分比。其中1-10分数段保留作为特殊客户定义处理字段。

    ◆ 模型产品总述

    客户高现金分期预测模型用于评估客户进行现金分期的概率,通过分析历史已经成功申请现金分期的客户行为为情况及相关影响因素,反映客户参与现金分期业务的迫切程度。该指数阈值范围为0—100分,分值越大表明客户越参与现金分期业务的,对此类客户进行业务营销,成功率越高。
    某银行采用此模型进行现金分期业务营销,客户转化率提供了20个百分点,极大的增加银行业务收入。

  4. 4
    循环贷产品客户响应模型产品

    ◆ 模型产品背景

    个人信用卡循环贷款是银行根据个人客户的信用卡授信额度,为其提供的一种短期融资便利产品,借款人在核定的额度金额内可循环周转使用贷款。循环贷业务受到现金分期、账单分期等影响,呈现循环客户利息收入下降趋势,贷款收益率下降。循环贷产品响应模型产品是采集现有循环贷业务的客户响应数据,建立循环授信倾向响应模型,根据预测结果采取相应的业务措施,提升循环贷收益。

    ◆ 模型训练应用

    模型训练步骤:
    step1:导入模型开发时间窗口内数据CircularcreditresponseData.csv(数据非实际数据,用其他数据集替代,特征名称已修改)
    step2:解析数据,将目标列设置为枚举类型(最后一列“Label”为目标变量)
    step3:利用模型开发时间窗口内数据建立模型,目标是分类,因此选择分类模型;在此选择梯度提升;目标变量为Label,设置树的个数为110,树的深度为5,进行10折交叉验证(nfolds=10)
    step4:模型训练验证评估
    step5:验证时间窗口内有二组数据,在此选择第一组验证数据作为测试集CircularcreditresponseTestData.csv
    step6:解析数据,将目标列设置为枚举类型(最后一列“Label”为目标变量)
    step7:选择训练好的模型进行预测
    step8:模型测试评估
    step9:查看数据预测结果

    ◆ 模型产品总述

    循环贷产品响应模型用于评估客户进行循环贷产品响应概率,通过分析历史已经成功进行循环贷客户行为为情况及相关影响因素,反映客户参与循环贷业务的迫切程度。该指数阈值范围为0—100分,分值越大表明客户越参与循环贷业务的,对此类客户进行业务营销,成功率越高。

    某银行采用此模型进行循环贷业务营销,客户转化率提供了10个百分点,收益率大大高。

  5. 5
    客户信用评分模型产品

    ◆ 模型产品背景

    信用评分模型是消费信贷管理中先进的技术手段,是银行、信用卡公司、个人消费信贷公司、保险公司等涉及消费信用的企业最核心的管理技术之一。信用评分系统在衡量信用风险的内部评级法中占有核心地位。信用评分模型不仅能够帮助银行划分借款户的信用等级,而且能够直接预测借款户的违约概率。本次所构建的信用评分模型通过序别化处理、建立模型、模型验证等步骤,实现对信贷人的信用评分。

    介绍模型应用的背景,解决哪些问题,业务存在哪些痛点,需要采用模型算法解决。

    ◆ 模型训练应用

    MaximAI平台集成了多种机器学习算法,包括广义线性模型,分布式随机森林,梯度提升模型,朴素贝叶斯,K-means,主成分分析,深度学习等。我们在使用过程中可以先将数据放入不同的算法模型中训练,选出最优的模型;继而在此模型上调节参数,达到更好的训练效果。

    从结果可以看出,随机森林、梯度提升和广义线性三种模型性能良好,其中从整体上看,梯度提升模型评估结果略优于随机森林和广义线性模型评估结果。故针对梯度提升调试模型参数,继而优化结果。

    ◆ 模型产品总述

    基于大数据的信用风险评分模型是一种优点都比较显著的模型。 主要优点包括:

    一是模型区分能力较佳。研究发现,以海量大数据为基础、机器学习算法为支持,模型区分能力得到有效提升。
    二是模型运行的自动化程度较高。以大数据作为支持,通过采用一整套信用风险评分模型和业务规则,可以建立全自动贷款审批系统,并进一步建立全自动的全流程风控系统,以极少的人工干预和较低的运营成本,建立起适合零售小额贷款的信贷管理流程。

  6. 6
    申请评分卡模型产品

    ◆ 模型产品背景

    前国内大多数银行信用卡部门采取人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在以下问题:
    一、 信审人员对申请人的申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质。
    二、审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。
    三、 不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。
    四、审批效率还有较大提升空间。
    由于零售信贷业务具有笔数多、单笔金额小、数据丰富的特征,决定了需要对其进行智能化、概率化的管理模式。信用评分模型运用现代的数理统计模型技术,通过对借款人信用历史记录和业务活动记录的深度数据挖掘、分析和提炼,发现蕴藏在纷繁复杂数据中、反映消费者风险特征和预期信贷表现的知识和规律,并通过评分的方式总结出来,作为管理决策的科学依据。

     

    ◆ 模型训练应用

    模型评估指标——AUC
    AUC是一种用来度量分类模型好坏的一个标准。AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
    随机抽取一个样本,对应每一潜在可能值X都对应有一个抽中的概率P。按概率从高到矮排个降序,对于正样本中概率最高的,排序为rank_1,比它概率小的有M-1个正样本(M为正样本个数),(rank_1 – M)个负样本。正样本概率第二高的,排序为rank_2,比它概率小的有M-2个正样本,(rank_2 – M + 1)个负样本。
    正样本中概率最小的,排序为rank_M,比它概率小的有0个正样本,rank_M – 1个负样本。总共有MxN个正负样本对(N为负样本个数)。把所有比较中正样本概率大于负样本概率的例子都算上,得到公式(rank_1 – M + rank_2 – M + 1 …. + rank_M – 1)/ (MxN)就是正样本概率大于负样本概率的可能性了。


    数据测试分析
    将样本数据,进行0.75训练/0.25测试拆分,随机进行10次拆分,分别建立分布式随机森林、梯度提升、广义线性模型,下列指标的值是10次测试后的均值。

     

    从结果可以看出,随机森林、梯度提升和广义线性三种模型性能良好,且三种算法评估结果相差不多。

     

     

    ◆ 模型产品总述

    一、申请评分模型具有客观性,它是根据从大量数据中提炼出来的预测信息和行为模式制定的,反映了借款人信用表现的普遍性规律,在实施过程中不会因审批人员的主观感受、个人偏见、个人好恶和情绪等改变,减少了审批员过去单凭人工经验进行审批的随意性和不合理性。
    二、申请评分模型具有准确性,它是依据大数原理、运用统计技术科学地发展出来的,预测了客户各方面表现的概率,使银行能比较准确地衡量风险、收益等各方面的交换关系,找出适合自己的风险和收益的最佳平衡点。
    三、运用申请评分模型可以极大地提高审批效率。由于申请评分模型是在申请处理系统中自动实施,只要输入相关信息,就可以在几秒中内自动评估新客户的信用风险程度,给出推荐意见,帮助审批部门更好地管理申请表的批核工作。

  7. 7
    信用卡客户分群模型产品

    ◆ 模型产品背景

    利率市场化是指金融机构在货币市场经营融资的利率水平由市场供求来决定。
    将现存信用卡客户进行分群,确立各群体的风险等级是风险定价、利率市场化的第一步,也是最为关键的一步。因此,基于某信用卡中心提供的信用卡客户数据,利用分布式人工智能平台MaximAI构建客户分群模型。通过信用卡客户分群模型,探索客户分群模型的可行性,打造稳定性高、维护性强、群体间具明显差异的客户分群。

    ◆ 模型训练应用

    客户分群模型是无监督学习,因为我们并不知道每个样本所属的客户类型,更不知道客户需要分几类,因此需要和银行业务部门共同根据业务需要确定。
    所谓无监督学习就是在未知标签的情况下来训练模型。本案例采用双聚类方式建立模型。将按照数据预处理方案生成的数据宽表输入K-Means聚类算法(K-Means Clustering),透过不断地分析模型结果、优化算法和参数,得到(模型1)。然后剔除高风险客户群体,并引入新的预处理后的字段对其余客户再次进行聚类(模型2)。最终得到一个稳定的、可重复使用的、群体间具明显差异的客户分群模型。

     

    ◆ 模型产品总述

    通过无监督的聚类算法实现客户分群,可以大大提高客户分群的准确性和效率,为后续利率市场化,提供了坚实的客户群体。

  8. 8
    油泵故障识别模型产品

    ◆ 模型产品背景

    石油企业中,在石油开采过程中,油泵发生故障是经常发生的 ,而且每次故障发生都会带来一定停产周期,造成巨大经济损失。油泵故障识别模型是从以往的油泵发生故障的相关因素,进行分析处理,构建故障识别模型,提供油泵故障识别率,降低经济损失。

    ◆ 模型训练应用

    原始数据包括井号、时间、位移、载荷、上行电流、下行电流以及故障类别标签;将数据按1部分处理完成后利用位移、载荷信息提取像素特征,并进行特征衍生,最终导入平台数据包括:井号、时间、像素特征、衍生特征、上行电流、下行电流以及故障类别标签,其中井号、时间特征建模时不使用,主要是作为追溯原始数据的标记。
    对数据集进行0.8/0.2拆分,80%数据用于训练,20%数据用于测试,利用提取特征建立梯度提升模型。下图为测试混淆矩阵,对角线上“黄色高亮”数据为每一类正确分类的样本个数,“红色高亮”数据为平均错误率,即全部测试样本的正确率为:0.9108。

    样本预测结果,显示每个样本的预测类别(如下图所示);predict表示对应样本的预测类别,p0、…、p8分别表示对应样本属于类别0、…、8的概率:

    上述列表只包含了部分数据结果,另附“predict_result.csv”文件包含所有测试样本的预测结果及井号、时间等特征。

     

     

    ◆ 模型产品总述

    通过油泵故障识别模型产品的应用大大的提高了某石油企业的油泵故障识别率。

  9. 9
    注水井水表卡住预测模型产品

    ◆ 模型产品背景

    石油企业的注水井水表由于水质原因或者是零件脱落,易出现水表卡住的情况,利用注水压力、瞬时水流等信息,建立注水井水表卡住预警模型,业务说明:水表卡住一般是瞬间发生,此时,注水压力快速上升,在较短的时间里与配水干压持平,采集的注水量远远完不成系统配注。排除人工关井情况。专业人员卡表判断依据为:在单井系统配注不变的情况下,5分钟注水量环比下降(如10%)以上,5分钟的注水压力环比上升(10%)以上。

    ◆ 模型训练应用

    模型孵化训练步骤:
    step1:导入数据集zsh_warningmodelofwatermeterstuck.csv
    step2:解析数据
    step3:建立模型,数据没有标签,进行聚类分析,在此选择k-means,设置聚类中心的个数k为2,最大迭代次数
    max_iterations为10000,聚类中心初始选择方法“Random”,忽略”JH_PZSL1″,”Time”,”ZSYL1″,”SSLL1″
    step4:模型评估,查看聚类的聚类中心(output-Cluster Means)和每个类别的个数,类内距离情况
    (output – training_metrics – Centroid Statistics)
    step5:模型预测评估[点击模型阅览操作的“预测”——>选择聚类时的数据集
    “frame-Parse1488-932938.hex”——>”预测”]
    step6:查看聚类的结果和原始特征[选择聚类评估中“Prediction”列表下的“组合预测”将原始特征与聚类结果组合在一起——>“阅览”查看聚类结果——>”数据视图”查看每个样本的详细聚类标签]

     

    从图中我们可以看出:正常的样本点(橙色)占绝大多数,聚类中心在第二象限接近远点的地方;卡表的样本点(蓝色)只有大约1%,聚类中心在第四象限接近(0,-0.1)处。

    ◆ 模型产品总述

    通过注水井水表卡住预测模型产品的应用大大的提高了某石油企业的注水井水表卡住预测率。

  10. 10
    冠心病预测模型产品

    ◆ 模型产品背景

    心血管疾病(CardiovascularDisease,CVD)是当前威胁人类健康的重要疾病,其中冠状动脉粥样硬化性心脏病(Coronary HeartDisease,CHD)是临床上常见的心血管疾病类型之一。CHD是由于血管的粥样硬化而引起的冠状动脉狭窄和(或)闭塞,致使冠状动脉的血管管径改变而影响血流循环,从而引起心肌缺血、缺氧的疾病状态。冠心病的病程发展是一个慢性过程,健康→低危状态→高危状态→早期心血管病变→临床症状→形成冠心病的全过程往往需要几十年时间。因此,有充足时间可以通过健康管理延缓或阻止疾病进展。为此,在心血管病发生的早期阶段,需要构建冠心病预测发病风险预测模型,以发现高危个体并及时针对其特定危险因素实施个性化健康干预,以期尽早预防冠心病发生。

    ◆ 模型训练应用

    特征选择前试验结果
    将7496个样本数据(26个特征,1个标签),进行0.7训练/0.3测试拆分,建立梯度提升模型;将测试数据结果从区分度(discrimination)和校准度(calibration)两方面,与传统的confirm和MDF方法进行对比。
    区分度(discrimination),通过模型AUC(ROC曲线下面积)评价,值越大区分度越好。
    校准度(calibration),Brier分数可以被认为是对一组概率预测的“校准”的量度, Brier分数对于一组预测值越低,预测校准越好。

     

    由1)分析可知,梯度提升模型AUC值均高于传统MDF和confirm两种方法,因此梯度提升模型区分度优于MDF和confirm两种方法;
    由2)分析可知,梯度提升模型Brier分数均低于传统MDF和confirm两种方法,因此梯度提升模型校准度优于MDF和confirm两种方法;
    综上所述,梯度提升模型优于其他两种算法。

     

    特征选择后试验结果
    采用嵌入式特征选择方法从26维特征中选择5维特征,具体选择特征如下表:

    特征选择后,将7496个样本数据(6个特征,1个标签),进行0.7训练/0.3测试拆分,建立梯度提升模型,将测试数据结果从区分度(discrimination)和校准度(calibration)两方面,与传统的confirm和MDF方法进行对比。

    由1)分析可知,梯度提升模型AUC值均高于传统MDF和confirm两种方法,因此梯度提升模型区分度优于MDF和confirm两种方法;
    由2)分析可知,梯度提升模型Brier分数均低于传统MDF和confirm两种方法,因此梯度提升模型校准度优于MDF和confirm两种方法;
    综上所述,特征选择后梯度提升模型仍优于其他两种算法。

     

    特征选择前后试验结果对比

    1)特征选择(仅针对梯度提升模型)前后AUC值对比结果:

    2)特征选择前后Brier分数对比结果:

    特征选择前后,梯度提升模型从区分度和校准度两方面均优于两种传统算法(传统方法结果在此可能存在一定乐观些待求证);特征选择前后梯度提升模型结果略有浮动,但特征选择后减少了近77%的特征,降低了数据收集难度。

    ◆ 模型产品总述

    通过冠心病预测模型可以辅助医生提高冠心病的诊断率,某医院使用此模型后,辅助临床医生大大提高了冠心病的诊断率。