客户模型上线应用的现状
模型上线与模型生产对应的数据源不一样;
模型开发交付的变量加工逻辑到模型上线实现的变量加工逻辑还存在一段距离:数据源统一、加工逻辑重构、数据核验;
模型开发交付的模型到模型上线发布的模型存在一段距离:运行环境准备、环境变量设置、模型部署、上线测试等;
模型上线之后的几种管理难度大,需要有效管理手段:模型服务科石化运维管理、模型服务统计分析等。
模型发布管理的痛点分析
模型上线发布管理依赖人工处理,缺少有效管理工具
模型上线与模型生产对应的数据源不一样;
模型开发交付的变量加工逻辑到模型上线实现的变量加工逻辑还存在一段距离:数据源统一、加工逻辑重构、数据核验;
模型开发交付的模型到模型上线发布的模型存在一段距离:运行环境准备、环境变量设置、模型部署、上线测试等;
模型上线之后的几种管理难度大,需要有效管理手段:模型服务科石化运维管理、模型服务统计分析等。
模型发布管理的痛点分析
模型上线发布管理依赖人工处理,缺少有效管理工具
缺乏模型统一管理手段
缺乏模型快速上线手段
缺乏模型运维监控手段
缺乏模型运行评估手段
生产环境与开发环境使用的数据源不统一,模型上线需要对数据处理逻辑进行重构、数据变量加工结果的核查周期长,制约模型的快速发布上线。
模型发布管理的解决路径与建设目标
批量推理模型的数据前置处理效能提升方法
统一数据源
构建生产环境的数据集市,保证生产环境和开发环境数据源一致性,解决代码重构的重复性工作
实时计算性能提升
在同样的资源配置下,实时数仓的数据处理速度超过GP、Spark、Impala等组件
AP高并发
支持AP场景下沉,实现大批量数据AP场景计算的并发性
全部SQL标准
全部SQL的标准支持,降低数据处理工作的人员准入门槛,实现传统应用场景的无缝对接
数据前置处理的效能提升,特征工程平台实现数据标准统一
特征工程工具,实现数据标准、格式的完全统一
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
通过可视化流程设计,工作流模式实现数据处理标准化
特征工程数据处理与开源框架数据处理的优势对比