Maxim AI

天云分布式数据科学平台是基于 Hadoop/spark 分布式底层架构的机器学习及建模产品。采用图形用户界面交互 Free Coding 模式,简化整个预测模型生命周期的管理,实现分布式运行深度学习、梯度提升模型、逻辑回归等热门常用算法,加快建模速度,提升模型预测准确率,帮助企业简化编程建模方式,进行机器学习和建模,实现AI算法生产。

类别:

天云大数据在大数据领域深耕多年,对Hadoop生态系统有深入的了解和大量的项目经验。因应市场需求,结合公司为多个行业的客户研发的机器学习应用和解决方案,包括客户行为分析、客户兴趣图谱、资讯产品推荐、客户流失分析、风险预警、信用评分等,整合项目涉及的核心算法,并加入深度学习等热门模型,组成MaximAI分布式数据科学平台。MaximAI平台旨在突破Hadoop/Spark在部署使用上的瓶颈,节省在海量数据集运行机器学习算法的成本,使更多企业能够享受大数据算法预测模型带来的无限价值。

MaximAI平台包含6个主要的功能模块: 工程化管理平台模块、数据存储和加载功能模块、数据预处理和统计分析模块、全量数据建模模块、预测建模和模型评价模块、自主编程以及特定场景开发模块。

工程化管理平台模块

工程化管理平台实现了对各数据建模整个生命周期的可视化和模块化管理,并以友好的用户界面和高级的技术特性,整合用户管理、任务管理、数据管理和模型管理等业务级管理任务。

  • 数据建模工程界面:友好且实用性极强的图形用户界面交互Free Coding模式
  • 数据的工程化上传、存储、加载和管理
  • 模型的工程化创建,调优,存储,加载和管理
  • 展示性的MaximAI模型仓库
  • 企业级管理任务:用户进行自主管理和任务管理
  • 企业级平台系统管理:企业各部门、各员工的权限及角色管理,平台样式、日志及配置管理
  • 企业级工程和任务管理:企业各角色的模型管理、任务管理和工程管理

数据的快速存储和加载功能

MaximAI的数据存储和加载功能模块基于Hadoop/Spark集群,通过分布式文件系统HDFS的数据接口,提供数据整合和数据质量管理等技术,支持海量数据的快速存储和加载。

  • 海量数据的快速存储 : 基于分布式文件系统HDFS的集群分布式数据存储和列表显示,支持Hadoop/Spark的访问接口
  • 海量数据的数据质量加速器 : 交互式数据质量管理操作,包括数据拆分和数据整合
  • 海量数据的分布式加载、数据上传和导入

数据预处理和统计分析

MaximAI平台集合了众多常用的数据处理和统计分析技术,通过交互式和可视化的工具,实现数据处理、变量分析、和数据可视化等,支持对数据快速分析和整体把握。

  • 数据处理
  • 缺失值补充
  • 数据类型转换
  • 特征选择
  • 海量数据的统计分析
  • 数据的变量分析:数据特性统计,密度估计
  • 数据可视化
  • 数据特征的密度分布
  • 数据特征最大值、最小值、均值零值数量以及缺失情况等

全量数据的描述性建模

MaximAI平台集合众多主流的机器学习算法,结合Hadoop/Spark平台的分布式能力,支持基于海量数据集的全量数据描述性建模,并且提供菜单式参数调优界面,实现了企业级AI模型生产和分析。

  • 主流的机器学习算法的描述性建模
  • 分类:深度学习、随机森林、朴素贝叶斯模型、广义线性模型、梯度提升模型、支持向量机
  • 聚类:K-means
  • 回归:深度学习、随机森林、广义线性模型、梯度提升模型
  • 降维:主成分分析,广义低阶模型
  • 探索性数据建模策略
  • 建模数据的交叉验证 : N折交叉验证,
  • 菜单式参数调优选择 : 各模型各参数的提示性参数设置
  • 描述性建模的模型评价
  • ROC曲线和AUC值
  • 准确率、精准率、召回率、F1-measure
  • 多种评判准则下的预测数结果矩阵

预测性建模及模型评判

MaximAI平台基于海量数据的描述性探究建模结果,通过对模型和数据的再处理,得到数据的独立化预测性模型,实现了对测试数据的一键式预测。

  • 预测性建模自动化和独立化
  • 预测模型的训练数据处理和模型建立的程式化创建和存储
  • 训练数据所得的预测模型独立分装为分类器
  • 模型结果的显示化表达
  • 测试数据和标签的显示化展示
  • 测试数据的各项结果和测试标准的展示

自主编程及特定场景开发

MaximAI集成了多种编程环境,支持用户的自主开发,以及特定场景的多环境编程,实现针对特定客户的系列业务开发。

  • 集成Scala/Python编程环境,用户自主编程开发
  • 特定场景开发:特定场景的模型开发和模型仓库存储
  • 基于广泛认可的Hadoop分布式文件系统,可有效处理超大规模数据集,具有稳定性高、可扩展性强等优点。
  • 结合Spark框架进行分布式数据预处理和算法实现,提供准实时和实时建模的能力,大大提升了数据的时效性价值。
  • 创新的图形用户界面交互Free Coding模式简化建模方式,降低海量数据挖掘的成本和对建模人员编程能力的门槛,使更多企业能够享受大数据算法预测模型带来的无限价值。
  • 支持Scala/Python语言进行交互操作,有助于数据科学家的二次开发。
  • 深度学习
  • 随机森林模型
  • 朴素贝叶斯
  • 梯度提升模型
  • 广义线性模型
  • 支持向量机
  • K-Means
  • 主成分分析
  • 广义低阶模型